Tout d'abord, veuillez m'excuser si cela a été demandé auparavant - j'ai cherché pendant un certain temps dans les messages existants, mais je n'ai pas pu trouver de support.
Je suis intéressé par une solution pour Fedora pour OCR un multipage non consultable PDF et pour transformer ce PDF en un nouveau fichier PDF qui contient la couche de texte sur haut de l'image. Sur Mac OSX ou Windows, nous pourrions utiliser Adobe Acrobat, mais existe-t-il une solution sur Linux, en particulier sur Fedora?
This semble décrire une solution - mais malheureusement, je suis déjà perdu lors de la récupération de l'image exacte.
Après avoir appris que tesseract peut maintenant également produire des fichiers PDF consultables, j'ai trouvé le sandwich de script: http://www.tobias-elze.de/pdfsandwich/
après l'installation des dépendances (ce n'est peut-être pas la liste complète)
Sudo dnf install svn ocaml unpaper tesseract
J'ai suivi le guide du script pour la compilation à partir des sources
Compiler à partir des sources
pdfsandwich est un logiciel open source (licence: GPL). Vous pouvez télécharger les sources sous forme de package .tar.bz2 à partir de la zone de téléchargement sur le site Web du projet ou les consulter par Subversion:
svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
Si OCaml est installé sur votre système, vous pouvez compiler et installer comme suit:
cd pdfsandwich
./configure
make
Sudo make install
et cela me permet maintenant de courir
sandwich multipaged-non-searchable.pdf
résultant en un pdf consultable.
Le meilleur moyen et le plus simple est d'utiliser pypdfocr
car cela ne change pas le pdf. pypdfocr est un python ici.
pypdfocr your_document.pdf
À la fin, vous aurez un autre your_document_ocr.pdf
comme vous le souhaitez avec du texte consultable. L'application ne change pas la qualité de l'image. Augmente un peu la taille du fichier en ajoutant le texte de superposition.
Je pense que la commande est assez simple car elle ne nécessite aucune interface graphique. Peut-être que l'installation de pypdfocr est un peu plus détaillée:
Sudo dnf -y install tesseract
pip install pypdfocr
pypdfocr
n'est plus pris en charge depuis 2016 et j'ai remarqué des problèmes de non maintenance. ocrmypdf
( module ) fait un travail similaire et peut être utilisé comme ceci:
ocrmypdf in.pdf out.pdf
À installer:
pip install ocrmypdf
ou
Sudo apt install ocrmypdf #ubuntu
Sudo dnf -y install ocrmypdf #Fedora
Un outil simple disponible dans Ubuntu est "ocrfeeder", il permet la génération de PDF avec du texte OCR superposé sur les documents originaux. Il utilise Tesseract ainsi que d'autres moteurs OCR (je ne sais pas lequel) et prévoit également la rotation d'image/"unpaper", etc.
J'ai eu ce même problème alors j'ai écrit ça pendant le week-end. Donner un coup de feu; ça marche super! Il s'agit d'un simple wrapper autour de tesseract
. Il utilise pdftoppm
pour convertir un PDF en un tas de fichiers TIFF, puis il utilise tesseract
pour effectuer l'OCR (Optical Character Recognition) sur eux et produire un consultable PDF en sortie. Tous les fichiers temporaires intermédiaires sont automatiquement supprimés à la fin du script.
Code source: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
pdf2searchablepdf
:Testé sur Ubuntu 18.04 le 11 novembre 2019.
git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh
Sudo apt update
Sudo apt install tesseract-ocr
pdf2searchablepdf mypdf.pdf
Vous aurez maintenant un pdf appelé mypdf_searchable.pdf , qui contient du texte consultable!
Terminé. Il n'a pas de dépendances python, car il est actuellement entièrement écrit en bash.