J'ai un flux de travail dans lequel je numérisez des documents papier dans des PDF interrogeables à l'aide d'un Fujitsu ScanSnap S500 Document Scanner. Je ne suis pas un excellent fan des logiciels groupés, mais il est mort simple à utiliser: placez une pile de papier en haut, appuyez sur le bouton vert et un interrogeable PDF sort.
Maintenant, j'aimerais faire quelque chose de similaire sur Linux (Ubuntu 10.10). Le scanner est pris en charge hors de la boîte.
J'ai regardé gscan2pdf
et XSane
:
XSane
a l'air puissant, mais pas vraiment approprié en tant que solution de flux de travail;gscan2pdf
est un peu plus proche du bouton "Poussez le bouton, obtenez le PDF" Idéal, mais toujours pas à 100% là-bas.Tout autre logiciel que vous pouvez recommander (gratuit ou autrement)?
Voici certaines choses que j'ai trouvées lors de la recherche plus tôt cette année. Désolé, je ne peux pas publier plus d'un hyperlien en raison de ma note limitée, vous devrez donc google pour les liens.
Un très bon système d'interface graphique pouvant utiliser divers moteurs OCR pour le backend. Cela répondra probablement à votre solution unique (et digitxp l'a déjà mentionnée).
Peut être utilisé avec gscan2pdf.
Je n'ai pas compris très loin avec Ocropus car il ne reconnaissait pas le texte sans une formation approfondie. Ce serait probablement vraiment bon pour les livres, mais je n'ai pas bien travaillé pour moi avec des factures et cela. Ymmv.
J'ai eu le meilleur succès avec cunéiforme et j'ai pu créer des commandes de script de PDF consultables similaires au flux de travail suivant:
# extract images from scans
# (not shown)
# convert to black-and-white
optimize2bw -n -i nuance-test.png -o bw.bmp
# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp
# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html
Vous devrez également installer le package Exactimage.
Divers projets open source pour l'utilisation d'OCR'ing PDF - Cuniform et hoc2pdf aussi:
Faites-moi savoir ce que vous découvrez!