Comment puis-je extraire du texte à partir d'images?

Question

Je ne parle pas de fichiers numérisés, mais d'images de variétés de jardins, comme lorsque vous prenez une photo haute définition d'un tableau noir en classe, et qu'elle est bien écrite à la main. ou lorsque vous photographiez une page d'un livre de recettes et que vous souhaitez la recette au format texte.

Un logiciel gratuit et ouvert pour ça?

J'ai essayé tesseract, et les résultats ont été terribles.

Rinzwind · Accepted Answer

L'extraction de texte à partir d'images s'appelle OCR et Ubuntu a une page wiki dédiée à OCR . De cette page:

Outils d'OCR disponibles

Les référentiels Univers Ubuntu contiennent les outils OCR suivants:

gocr - OCR en ligne de commande
fuzzyocr - plugin spamassassin pour vérifier les pièces jointes aux images
libhocr - OCR en hébreu
ocrad - Programme de reconnaissance optique de caractères
ocrfeeder - Analyse de la structure des documents et système de reconnaissance optique des caractères
ocropus - Analyse de documents et système de ROC
tesseract-ocr

Les répertoires multivers Ubuntu contiennent également:

cunéiforme - système OCR multilingue

Certains paquets sont obsolètes, mais des nouveaux non officiels peuvent être trouvés dans Alex_P PPA (Code d’ajout PPA: ppa: alex-p/notesalexp). Si vous n’avez jamais utilisé un chèque PPA comment ajouter un logiciel à partir d’un PPA .

edit: Comme indiqué dans le commentaire Clara OCR existe aussi, mais il a été conservé chez Hardy et leur site Web a été mis à jour en 2009.

Sudhir Belagali · Answer

tesseract-ocr serait le meilleur comparé à tous les autres. Pour l'installation, exécutez la commande Sudo apt-get install tesseract-ocr.

L'utilisation est tesseract filename.jpg output.txt.

La commande ci-dessus générera output.txt.

Vous pourriez envisager de choisir la langue appropriée. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG, où LANG est la lettre en trois lettres code de langue ISO 639-2 . En ce moment, vous avez 123 langues sur 18.04 repo. tilisez ensuite par exemple:

tesseract mySpanishText.jpg output -l spa