Comment améliorer les performances de tesseract?

Question

Au dire de tous, tesseract est superbe. Cependant, mes résultats sont lamentables. J'ai besoin de convertir un texte (numérique, par opposition à un livre) que je n'ai qu'un fichier png. Par exemple:

 2 3 academics 1 1711 2 3 Achlmbobelmann 211 191—2 1 3 Aoqusmono|Food 1 171 n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm) 3 4 allluence 211 I849 81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£

Ceci est du texte bleu foncé contre un champ blanc. L'image originale peut être trouvée ici . Comment puis-je faire mieux?

mshaffer · Answer

Tesseract fonctionne beaucoup mieux quand il est formé: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

Ce que nous avons trouvé dans notre travail sur plus de 50 millions de PDF à analyser, est la stratégie suivante:

(1) A partir de fichiers de type PNG, essayez d'identifier la police utilisée. (2) Entraînez Tesseract avec une forme TTF de la police (plutôt que bitmap de l'image PNG) (3) Exécutez tesseract avec cette nouvelle formation.

Nous automatisons le n ° 2 ci-dessus, mais il existe des outils en ligne pour identifier une police. Je suggérerais: http://www.whatfontis.com/

https://stackoverflow.com/questions/7292991/tesseract-confuses-two-numbers peut également aider.