web-dev-qa-db-fra.com

Scan-to-PDF logiciel pour Linux?

J'ai un flux de travail dans lequel je numérisez des documents papier dans des PDF interrogeables à l'aide d'un Fujitsu ScanSnap S500 Document Scanner. Je ne suis pas un excellent fan des logiciels groupés, mais il est mort simple à utiliser: placez une pile de papier en haut, appuyez sur le bouton vert et un interrogeable PDF sort.

Maintenant, j'aimerais faire quelque chose de similaire sur Linux (Ubuntu 10.10). Le scanner est pris en charge hors de la boîte.

J'ai regardé gscan2pdf et XSane:

  • XSane a l'air puissant, mais pas vraiment approprié en tant que solution de flux de travail;
  • gscan2pdf est un peu plus proche du bouton "Poussez le bouton, obtenez le PDF" Idéal, mais toujours pas à 100% là-bas.

Tout autre logiciel que vous pouvez recommander (gratuit ou autrement)?

18
NPE

Voici certaines choses que j'ai trouvées lors de la recherche plus tôt cette année. Désolé, je ne peux pas publier plus d'un hyperlien en raison de ma note limitée, vous devrez donc google pour les liens.

gscan2pdf

Un très bon système d'interface graphique pouvant utiliser divers moteurs OCR pour le backend. Cela répondra probablement à votre solution unique (et digitxp l'a déjà mentionnée).

Moteur OCR Tesseract

Peut être utilisé avec gscan2pdf.

Ocropus

Je n'ai pas compris très loin avec Ocropus car il ne reconnaissait pas le texte sans une formation approfondie. Ce serait probablement vraiment bon pour les livres, mais je n'ai pas bien travaillé pour moi avec des factures et cela. Ymmv.

Cunéiforme

J'ai eu le meilleur succès avec cunéiforme et j'ai pu créer des commandes de script de PDF consultables similaires au flux de travail suivant:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Vous devrez également installer le package Exactimage.

Divers projets open source pour l'utilisation d'OCR'ing PDF - Cuniform et hoc2pdf aussi:

  • Montre montre
  • Archiviste

Faites-moi savoir ce que vous découvrez!

18
Eric Holmberg