web-dev-qa-db-fra.com

Comment puis-je extraire du texte à partir d'images?

Comment puis-je extraire du texte à partir d'images?

Je ne parle pas de fichiers numérisés, mais d'images de variétés de jardins, comme lorsque vous prenez une photo haute définition d'un tableau noir en classe, et qu'elle est bien écrite à la main. ou lorsque vous photographiez une page d'un livre de recettes et que vous souhaitez la recette au format texte.

Un logiciel gratuit et ouvert pour ça?

J'ai essayé tesseract, et les résultats ont été terribles.

24
Strapakowsky

L'extraction de texte à partir d'images s'appelle OCR et Ubuntu a une page wiki dédiée à OCR . De cette page:

Outils d'OCR disponibles

Les référentiels Univers Ubuntu contiennent les outils OCR suivants:

  1. gocr - OCR en ligne de commande
  2. fuzzyocr - plugin spamassassin pour vérifier les pièces jointes aux images
  3. libhocr - OCR en hébreu
  4. ocrad - Programme de reconnaissance optique de caractères
  5. ocrfeeder - Analyse de la structure des documents et système de reconnaissance optique des caractères
  6. ocropus - Analyse de documents et système de ROC
  7. tesseract-ocr

Les répertoires multivers Ubuntu contiennent également:

  1. cunéiforme - système OCR multilingue

Certains paquets sont obsolètes, mais des nouveaux non officiels peuvent être trouvés dans Alex_P PPA (Code d’ajout PPA: ppa: alex-p/notesalexp). Si vous n’avez jamais utilisé un chèque PPA comment ajouter un logiciel à partir d’un PPA .

edit: Comme indiqué dans le commentaire Clara OCR existe aussi, mais il a été conservé chez Hardy et leur site Web a été mis à jour en 2009.

26
Rinzwind

tesseract-ocr serait le meilleur comparé à tous les autres. Pour l'installation, exécutez la commande Sudo apt-get install tesseract-ocr.

L'utilisation est tesseract filename.jpg output.txt.

La commande ci-dessus générera output.txt.

Vous pourriez envisager de choisir la langue appropriée. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG, où LANG est la lettre en trois lettres code de langue ISO 639-2 . En ce moment, vous avez 123 langues sur 18.04 repo. tilisez ensuite par exemple:

tesseract mySpanishText.jpg output -l spa
18
Sudhir Belagali