Comment puis-je extraire du texte à partir d'images?
Je ne parle pas de fichiers numérisés, mais d'images de variétés de jardins, comme lorsque vous prenez une photo haute définition d'un tableau noir en classe, et qu'elle est bien écrite à la main. ou lorsque vous photographiez une page d'un livre de recettes et que vous souhaitez la recette au format texte.
Un logiciel gratuit et ouvert pour ça?
J'ai essayé tesseract, et les résultats ont été terribles.
L'extraction de texte à partir d'images s'appelle OCR
et Ubuntu a une page wiki dédiée à OCR . De cette page:
Outils d'OCR disponibles
Les référentiels Univers Ubuntu contiennent les outils OCR suivants:
Les répertoires multivers Ubuntu contiennent également:
Certains paquets sont obsolètes, mais des nouveaux non officiels peuvent être trouvés dans Alex_P PPA (Code d’ajout PPA: ppa: alex-p/notesalexp). Si vous n’avez jamais utilisé un chèque PPA comment ajouter un logiciel à partir d’un PPA .
edit: Comme indiqué dans le commentaire Clara OCR existe aussi, mais il a été conservé chez Hardy et leur site Web a été mis à jour en 2009.
tesseract-ocr
serait le meilleur comparé à tous les autres. Pour l'installation, exécutez la commande Sudo apt-get install tesseract-ocr
.
L'utilisation est tesseract filename.jpg output.txt
.
La commande ci-dessus générera output.txt
.
Vous pourriez envisager de choisir la langue appropriée. Dans ce cas, vous devrez installer le paquetage tesseract-ocr-LANG
, où LANG
est la lettre en trois lettres code de langue ISO 639-2 . En ce moment, vous avez 123 langues sur 18.04 repo. tilisez ensuite par exemple:
tesseract mySpanishText.jpg output -l spa