J'ai numérisé environ 80 pages en PDF en niveaux de gris (format d'image). La taille finale du fichier est d’environ 70 Mo, ce qui est très énorme.
Maintenant, je cherche une méthode pour convertir le fichier PDF en niveaux de gris en un fichier PDF noir/blanc textuel simple.
J'ai fait plusieurs tentatives avec gs
mais sans succès (récupération de quelques pour cent seulement). Si un expert a une idée, merci de me le faire savoir.
Vous pouvez essayer pdfocr:
Sudo add-apt-repository ppa:gezakovacs/pdfocr
Sudo apt-get update
Sudo apt-get install pdfocr
Pour exécuter la syntaxe est
pdfocr -i input.pdf -o output.pdf
où input.pdf
est le nom du fichier d'entrée et output.pdf
le fichier de sortie.
Par défaut, il utilise Tesseract. Pour l'installer:
Sudo apt-get install tesseract-ocr
pdfocr crée un calque de texte incorporé.
pdfsandwich
Il charge tesseract et d’autres sur l’installation. Solution facile en une étape et peut être scriptée. Il peut utiliser hocr2pdf
pour créer un pdf en texte brut, mais ce n'est pas encore prêt pour le prime time ... pour l'instant. La valeur par défaut utilise tesseract et crée un pdf "en sandwich": image + texte en dessous.
L'image intégrée peut être supprimée avec des commandes telles que:
gs -o ocr_noIMG.pdf -sDEVICE = pdfwrite -dFILTERIMAGE ocr_image.pdf
mais le texte est masqué et ressemble donc à une page blanche.
Le chargement du PDF dans LibreOffice Draw
expose le texte et l’image peut être supprimée manuellement.