web-dev-qa-db-fra.com

Comment convertir des images numérisées telles que PDF vers un fichier consultable PDF fichier?

J'ai un PDF d'un livre numérisé.

Je cherche un logiciel gratuit qui effectuera OCR, puis fournissez une option pour l'enregistrer sous forme de PDF ou document à nouveau.

Est-ce qu'il y a un?

19
yuval

Vous pouvez télécharger l'essai de 30 jours de Adobe Acrobat Pro et utiliser la fonction 'OCR Text Reconnaissance' ('"Document> Reconnaissance du texte OCR> Reconnaître le texte à l'aide de OCR ...'). Dans la boîte de dialogue Paramètres, choisissez "Image interrogeable" comme style de sortie. Cela conservera l'image de la page mais incorporer le texte OCR'ed afin que le document soit consultable et autoriser le texte sélectionné, copié et collé.

Après avoir exécuté l'OCR, vous devrez confirmer ou corriger des mots que l'OCR n'est pas sûr de l'utilisation des fonctions "Rechercher des suspects OCR".

5
pelms

Les produits suivants ont été trouvés sur Internet, mais je ne les ai pas utilisés.

OCR en ligne

terminal OCR

OCR Terminal est un service OCR en ligne qui effectue une reconnaissance optique de caractères (OCR) sur vos images numérisées et vos fichiers PDF et les rend les documents recherchés modifiables et vocaux.

OCR libre

Free-ocr.com est un outil gratuit de reconnaissance de caractères OCR (reconnaissance optique). Vous pouvez l'utiliser pour effectuer OCR sur n'importe quelle image que vous fournissez.
[.____] Ce service est gratuit, aucune inscription nécessaire. Nous n'avons pas non plus besoin de votre adresse e-mail.
[.____] Mettez simplement télécharger vos fichiers image. Free-OCR prend soit un JPG, GIF, TIFF BMP ou PDF (( une seule première page ). La seule restriction est que les images ne doivent pas être supérieures à 2 Mo, pas plus large ou supérieure à 5000 pixels et il y a une limite de 10 téléchargements d'image par heure.

Server de reconnaissance Maestro est commercial, mais a une démonstration en ligne.

Logiciel libre

freeoc - Pour les images seulement.

Freeoc est un programme Scan & OCR, y compris le moteur OCR gratuit Tesseract, également appelé GUI Tesseract. Il comprend un programme d'installation Windows et il est très simple d'utiliser et de prendre en charge les documents de télécopie multi-pages, ainsi que la plupart des types d'images, y compris celui de TIFF comprimé que le moteur Tesseract à part entière ne peut pas lire. Il a maintenant un balayage Twain.

PDFSandwich - PDF -> Convertisseur PDF.

pDFSandwich est un outil de ligne de commande pour les livres ou revues numérisées OCR. Il est capable de reconnaître la disposition de la page même pour un texte multicolonné.

Essentiellement, pdfsandwich est un script wrapper qui appelle les fichiers binaires suivants: convertir, cunéiforme, gs et hocr2pdf. Il est connu de fonctionner sur des systèmes UNIX et a été testé sur Linux et MacOS X. Il prend en charge le traitement parallèle sur les systèmes multiprocesseurs.

4
harrymc

cunéiforme + hocr2pdf + ghostscript : une solution de bricolage open source.

J'ai posté une Réponse décrivant une solution impliquant ne version du système maintenant open-source cunéiforme OCR System et hoc2pdf ensemble avec Ghostscript pour mettre le PDF pages ensemble.

C'était spécifiquement pour Linux, mais vous pouvez également obtenir un cunéiforme et Ghostscript pour Windows. Je ne suis pas sûr de HOCR2PDF ou d'un équivalent, cependant.

2
Jukka Matilainen

Voici une méthode très étrange, qui implique de laisser l'index Google et de l'OCR pour vous sur un site Web, puis de la récupérer.

1
jtbandes

Votre demande semble être une solution compliquée au problème, même si je ne comprendrais peut-être pas le problème correctement. À tout prix:

Pourquoi ne pas obtenir un PDF écrivain qui vous permettra de saisir les données directement sur la page PDF?

0
Xavierjazz

Essayez pdfcubed.com Rien à installer, tout est fait en ligne. Vous pouvez envoyer vos documents à traiter via Web, e-mail ou Dropbox. Les PDF et les TIF numérisés sont convertis en PDF de texte interrogeable, puis peuvent être retransmis via le Web, le courrier électronique ou la liste déroulante.

0
rlangner

Installer ImageMagick . Ouvrez une fenêtre CMD ou un terminal:

convert myfile.pdf myfile-%02d.jpg

La sortie sera 1 fichier JPG pour chaque page de votre PDF, myfile-00.jpg, myFile-01.jpg, etc.

Passez chaque image si un programme OCR. Je n'ai pas beaucoup d'expérience avec cela, mais il semble y avoir beaucoup de choix.

Convertir chaque page du texte en arrière en PDF. Vous pourriez faire cela à nouveau avec ImageMagick, mais il y a d'autres façons aussi:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
0
DaveParillo