web-dev-qa-db-fra.com

Quelle est la solution OCR la plus simple et la meilleure?

Je voudrais numériser une bonne quantité de papiers que je traîne, avec le moins de tracas possible. Je souhaite les convertir en images à l'aide de la numérisation simple, puis les convertir en texte à l'aide de l'OCR. Existe-t-il une bonne application OCR avec une interface graphique qui me donnera de bons résultats en appuyant simplement sur un bouton?

75
Bou
  • GOCRfrom est un programme OCR (reconnaissance optique de caractères). Il convertit les images numérisées. du texte vers les fichiers texte.

  • CLARA est une autre bonne option graphique.

  • OCRADfrom est un OCR pouvant être utilisé en tant qu'application console autonome, ou comme backend à d'autres programmes.

  • KOOKAfrom est une application KDE mais fonctionne bien, mais vous devez également installer programmes OCR réels tels que GOCR et OCRAD.Après l’installation de Kooka et des programmes OCR, vous devez pointer Kooka sur l’emplacement d’installation du système OCR afin de lui permettre de convertir le fichier JPEG en texte.

  • OCRFeederfrom est un système d'analyse de la structure de document et de reconnaissance optique des caractères.

  • Tesseractfrom est un utilitaire de ligne de commande très simple d'utilisation. Vous pouvez installer le langage package tesseract-ocr-eng de ici .

Jetez un coup d'œil à ceci page .

Remarque:
Pour exécuter tesseract goto terminal et tapez ce qui suit

tesseract imagefile.tif outputfile.txt

Tesseract ne peut lire qu'un fichier TIFF. Si vous avez un fichier JPEG ou PDF ou autre, vous devrez le convertir. En outre, l’extension du nom de fichier doit être .tif, pas .tiff, sinon tesseract error out.

70
karthick87

Il existe quelques outils de ligne de commande OCR populaires que vous pouvez utiliser (je ne sais pas s'ils ont une interface graphique):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Egalement disponible pour: Tesseract .NET , Tesseract iOS

    Un moteur OCR mis au point chez HP Labs entre 1985 et 1995 ... et maintenant chez Google. Tesseract est probablement le moteur OCR open source le plus précis disponible.

    Usage:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Reconnaissance de caractères open-source. Il convertit les images numérisées de texte en fichiers texte. GOCR peut être utilisé avec différents frontaux, ce qui facilite grandement le portage sur différents systèmes d'exploitation et architectures. Il peut ouvrir de nombreux formats d’image différents et sa qualité s’améliore de jour en jour.

  • OCRopus ™ ( FAQ ) (écrit en Python, NumPy et SciPy)

    Système OCR axé sur l’apprentissage automatique à grande échelle pour résoudre les problèmes d’analyse de documents, comprenant une analyse de structure enfichable, une reconnaissance de caractères enfichable, une modélisation statistique en langage naturel et des capacités multilingues.

    Le moteur d'OCRopus repose sur deux projets de recherche: un outil de reconnaissance de l'écriture manuscrite très performant mis au point au milieu des années 90 et déployé par le US Census Bureau, ainsi que de nouvelles méthodes d'analyse de la présentation hautement performantes.

    Le développement d’OCRopus est sponsorisé par Google et est initialement destiné aux efforts de conversion de documents à haut débit et à volume élevé. Nous nous attendons à ce que ce soit également un excellent système OCR pour de nombreuses autres applications.

  • Tessnet2 (Open source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C++/CLI)

    Tesseract est un moteur OCR open source C++. Tessnet2 est un assemblage .NET qui expose des méthodes très simples pour faire de la ROC. Tessnet2 est sous licence Apache 2 (comme tesseract), ce qui signifie que vous pouvez l'utiliser comme vous le souhaitez, inclus dans les produits commerciaux.

Quelques autres: OCR ABBYY CLI pour Linux , OCR asprise

Pour une liste plus complète, consultez: Liste des logiciels de reconnaissance optique de caractères sur Wikipedia

Voir aussi: wanghaisheng/awesome-ocr - Liste organisée de ressources OCR prometteuses sur GitHub.

10
kenorb

linux-intelligent-ocr-solution

disclaimer - Je suis étroitement associé au développement de cette solution opensource

Lios peut convertir une impression en texte à l'aide d'un scanner ou d'un appareil photo.

Il peut également produire du texte à partir d'images numérisées provenant d'autres sources, telles que des fichiers PDF, des images ou des dossiers contenant des images.

Le programme est totalement accessible aux malvoyants.

Depuis que je suis étroitement connecté - j'aimerais des commentaires.

9
Nalin.x.Linux

Gscan2PDF

OCR sur plusieurs pages PDF ou documents numérisés

C'est probablement le moyen le plus simple. Gscan2pdf est un outil graphique qui vous permet non seulement de numériser des fichiers, mais également d'importer des fichiers et d'y effectuer des opérations de ROC. Installez gscan2pdf à partir d'iciInstall gscan2pdf , depuis le centre logiciel Ubuntu ou en exécutant cette commande dans un terminal:

Sudo apt-get install gscan2pdf
  • Exécuter gscan2pdf
  • Importer le pdf (Ctrl + O)
  • Facultatif: Outils> Nettoyer
  • Choisissez Outils> OCR Enregistrer (Ctrl + S).

Gscan2PDF peut utiliser des moteurs OCR personnalisables. La valeur par défaut est tesseract-ocr.

Vous pourriez envisager de choisir la langue appropriée. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG, où LANG est le code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.

8
mxdsp

Tout simplement parce que cela fonctionne très bien et devrait certainement être dans la liste:

gimageReader
Exemple tiré d'une capture d'écran:

enter image description here

Il est dans les pensions (répondu le 18.10, mais l'utilise depuis des lustres)

3
Jacob Vlijm

Je viens d'avoir du succès (sous 16.04) avec pdfocr.rb . Ceci est listé sur wiki Ubunt

Voici un ppa mais le référentiel de 16.04 n'est pas mis à jour. Le script Ruby ci-dessus de github fonctionne toujours avec 16.04.

Vous pouvez le télécharger à partir de Github. Vous aurez besoin des packages suivants installés:

Ruby tesseract-ocr pdftk exactimage

puis rendu pdfocr.rb exécutable et exécuté:

./pdfocf.rb -i source.pdf -o output.pdf

Vous pouvez éventuellement utiliser le paramètre -l LANG. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG, où LANG est le code de langue à trois lettres ISO 639-2. En ce moment, vous avez 108 langues sur 16.04 repo.

3
user75505

Le meilleur et le plus simple moyen d’utiliser pypdfocr ne change pas le pdf. pypdfocr est un lien de module python ici.

pypdfocr your_document.pdf

À la fin, vous aurez un autre your_document_ocr.pdf comme vous le souhaitez avec du texte interrogeable. L'application ne change pas la qualité de l'image. Augmente un peu la taille du fichier en ajoutant le texte de surimpression.

Je pense que la commande est assez facile car elle ne nécessite aucune interface graphique. Peut-être que l'installation de pypdfocr est un peu plus verbeuse:

Sudo apt install tesseract-ocr 
pip install pypdfocr 

Mise à jour du 3 novembre 2018:

pypdfocr n'est plus pris en charge depuis 2016 et j'ai remarqué quelques problèmes dus à l'absence de mémoire. ocrmypdf ( module effectue un travail symiliaire et peut être utilisé comme suit:

ocrmypdf in.pdf out.pdf

À installer:

pip install ocrmypdf

ou

apt install ocrmypdf
2
Eduard Florinescu

gscan2pdf comprend 3 moteurs ocr différents. Vous pouvez numériser directement dans le programme ou importer votre pdf dans le programme. J'ai trouvé le moteur Tesseract très efficace et très facile à utiliser

1
Vince West