Je voudrais numériser une bonne quantité de papiers que je traîne, avec le moins de tracas possible. Je souhaite les convertir en images à l'aide de la numérisation simple, puis les convertir en texte à l'aide de l'OCR. Existe-t-il une bonne application OCR avec une interface graphique qui me donnera de bons résultats en appuyant simplement sur un bouton?
GOCRfrom est un programme OCR (reconnaissance optique de caractères). Il convertit les images numérisées. du texte vers les fichiers texte.
CLARA est une autre bonne option graphique.
OCRADfrom est un OCR pouvant être utilisé en tant qu'application console autonome, ou comme backend à d'autres programmes.
KOOKAfrom est une application KDE mais fonctionne bien, mais vous devez également installer programmes OCR réels tels que GOCR et OCRAD.Après l’installation de Kooka et des programmes OCR, vous devez pointer Kooka sur l’emplacement d’installation du système OCR afin de lui permettre de convertir le fichier JPEG en texte.
OCRFeederfrom est un système d'analyse de la structure de document et de reconnaissance optique des caractères.
Tesseractfrom est un utilitaire de ligne de commande très simple d'utilisation. Vous pouvez installer le langage package tesseract-ocr-eng de ici .
Jetez un coup d'œil à ceci page .
Remarque:
Pour exécuter tesseract goto terminal et tapez ce qui suit
tesseract imagefile.tif outputfile.txt
Tesseract ne peut lire qu'un fichier TIFF. Si vous avez un fichier JPEG ou PDF ou autre, vous devrez le convertir. En outre, l’extension du nom de fichier doit être .tif, pas .tiff, sinon tesseract error out.
Il existe quelques outils de ligne de commande OCR populaires que vous pouvez utiliser (je ne sais pas s'ils ont une interface graphique):
Tesseract ( ReadMe , FAQ ) (Python)
Egalement disponible pour: Tesseract .NET , Tesseract iOS
Un moteur OCR mis au point chez HP Labs entre 1985 et 1995 ... et maintenant chez Google. Tesseract est probablement le moteur OCR open source le plus précis disponible.
Usage:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
Reconnaissance de caractères open-source. Il convertit les images numérisées de texte en fichiers texte. GOCR peut être utilisé avec différents frontaux, ce qui facilite grandement le portage sur différents systèmes d'exploitation et architectures. Il peut ouvrir de nombreux formats d’image différents et sa qualité s’améliore de jour en jour.
OCRopus ™ ( FAQ ) (écrit en Python, NumPy et SciPy)
Système OCR axé sur l’apprentissage automatique à grande échelle pour résoudre les problèmes d’analyse de documents, comprenant une analyse de structure enfichable, une reconnaissance de caractères enfichable, une modélisation statistique en langage naturel et des capacités multilingues.
Le moteur d'OCRopus repose sur deux projets de recherche: un outil de reconnaissance de l'écriture manuscrite très performant mis au point au milieu des années 90 et déployé par le US Census Bureau, ainsi que de nouvelles méthodes d'analyse de la présentation hautement performantes.
Le développement d’OCRopus est sponsorisé par Google et est initialement destiné aux efforts de conversion de documents à haut débit et à volume élevé. Nous nous attendons à ce que ce soit également un excellent système OCR pour de nombreuses autres applications.
Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C++/CLI)
Tesseract est un moteur OCR open source C++. Tessnet2 est un assemblage .NET qui expose des méthodes très simples pour faire de la ROC. Tessnet2 est sous licence Apache 2 (comme tesseract), ce qui signifie que vous pouvez l'utiliser comme vous le souhaitez, inclus dans les produits commerciaux.
Quelques autres: OCR ABBYY CLI pour Linux , OCR asprise
Pour une liste plus complète, consultez: Liste des logiciels de reconnaissance optique de caractères sur Wikipedia
Voir aussi: wanghaisheng/awesome-ocr
- Liste organisée de ressources OCR prometteuses sur GitHub.
linux-intelligent-ocr-solution
disclaimer - Je suis étroitement associé au développement de cette solution opensource
Lios peut convertir une impression en texte à l'aide d'un scanner ou d'un appareil photo.
Il peut également produire du texte à partir d'images numérisées provenant d'autres sources, telles que des fichiers PDF, des images ou des dossiers contenant des images.
Le programme est totalement accessible aux malvoyants.
Depuis que je suis étroitement connecté - j'aimerais des commentaires.
OCR sur plusieurs pages PDF ou documents numérisés
C'est probablement le moyen le plus simple. Gscan2pdf est un outil graphique qui vous permet non seulement de numériser des fichiers, mais également d'importer des fichiers et d'y effectuer des opérations de ROC. Installez gscan2pdf à partir d'ici , depuis le centre logiciel Ubuntu ou en exécutant cette commande dans un terminal:
Sudo apt-get install gscan2pdf
Gscan2PDF peut utiliser des moteurs OCR personnalisables. La valeur par défaut est tesseract-ocr
.
Vous pourriez envisager de choisir la langue appropriée. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG
, où LANG
est le code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.
Je viens d'avoir du succès (sous 16.04) avec pdfocr.rb . Ceci est listé sur wiki Ubunt
Voici un ppa mais le référentiel de 16.04 n'est pas mis à jour. Le script Ruby ci-dessus de github fonctionne toujours avec 16.04.
Vous pouvez le télécharger à partir de Github. Vous aurez besoin des packages suivants installés:
Ruby tesseract-ocr pdftk exactimage
puis rendu pdfocr.rb exécutable et exécuté:
./pdfocf.rb -i source.pdf -o output.pdf
Vous pouvez éventuellement utiliser le paramètre -l LANG
. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG
, où LANG
est le code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.
Le meilleur et le plus simple moyen d’utiliser pypdfocr
ne change pas le pdf. pypdfocr est un lien de module python ici.
pypdfocr your_document.pdf
À la fin, vous aurez un autre your_document_ocr.pdf
comme vous le souhaitez avec du texte interrogeable. L'application ne change pas la qualité de l'image. Augmente un peu la taille du fichier en ajoutant le texte de surimpression.
Je pense que la commande est assez facile car elle ne nécessite aucune interface graphique. Peut-être que l'installation de pypdfocr est un peu plus verbeuse:
Sudo apt install tesseract-ocr
pip install pypdfocr
pypdfocr
n'est plus pris en charge depuis 2016 et j'ai remarqué quelques problèmes dus à l'absence de mémoire. ocrmypdf
( module effectue un travail symiliaire et peut être utilisé comme suit:
ocrmypdf in.pdf out.pdf
À installer:
pip install ocrmypdf
ou
apt install ocrmypdf
gscan2pdf comprend 3 moteurs ocr différents. Vous pouvez numériser directement dans le programme ou importer votre pdf dans le programme. J'ai trouvé le moteur Tesseract très efficace et très facile à utiliser