Comment convertir un PDF numérisé en un PDF avec texte

Question

J'ai numérisé environ 80 pages en PDF en niveaux de gris (format d'image). La taille finale du fichier est d’environ 70 Mo, ce qui est très énorme.

Maintenant, je cherche une méthode pour convertir le fichier PDF en niveaux de gris en un fichier PDF noir/blanc textuel simple.

J'ai fait plusieurs tentatives avec gs mais sans succès (récupération de quelques pour cent seulement). Si un expert a une idée, merci de me le faire savoir.

A.B. · Accepted Answer

gImageReader est un simple GTK + frontal à tesseract-ocr.

Sudo apt-get install gimagereader tesseract-ocr

désolé pour le texte allemand

rafmunozf · Answer

Vous pouvez essayer pdfocr:

 Sudo add-apt-repository ppa:gezakovacs/pdfocr Sudo apt-get update Sudo apt-get install pdfocr

Pour exécuter la syntaxe est

 pdfocr -i input.pdf -o output.pdf

où input.pdf est le nom du fichier d'entrée et output.pdf le fichier de sortie.

Par défaut, il utilise Tesseract. Pour l'installer:

 Sudo apt-get install tesseract-ocr

pdfocr crée un calque de texte incorporé.

AtesComp · Answer

pdfsandwich

Il charge tesseract et d’autres sur l’installation. Solution facile en une étape et peut être scriptée. Il peut utiliser hocr2pdf pour créer un pdf en texte brut, mais ce n'est pas encore prêt pour le prime time ... pour l'instant. La valeur par défaut utilise tesseract et crée un pdf "en sandwich": image + texte en dessous.

L'image intégrée peut être supprimée avec des commandes telles que:

gs -o ocr_noIMG.pdf -sDEVICE = pdfwrite -dFILTERIMAGE ocr_image.pdf

mais le texte est masqué et ressemble donc à une page blanche.

Le chargement du PDF dans LibreOffice Draw expose le texte et l’image peut être supprimée manuellement.

student · Answer

Vous pouvez essayer shrinkpdf pour réduire la taille du fichier, puis ocr.sh pour ajouter le calque de texte.