web-dev-qa-db-fra.com

Formation Tesseract pour une nouvelle police

Je suis encore nouveau sur Tesseract OCR et après l'avoir utilisé dans mon script, j'ai remarqué qu'il y avait un taux d'erreur relativement élevé pour les images que j'essayais d'extraire du texte. Je suis tombé sur la formation Tesseract, qui serait censée réduire le taux d'erreur pour une police spécifique que vous utiliseriez. Je suis tombé sur un site Web ( http://ocr7.com/ ) qui est un outil propulsé par Anyline pour faire toute la formation pour une police que vous spécifiez. J'ai donc reçu un fichier .traineddata et je ne sais pas trop quoi en faire. Quelqu'un pourrait-il expliquer ce que je dois faire avec ce fichier pour qu'il fonctionne? Ou devrais-je simplement apprendre à faire la formation Tesseract de manière manuelle, ce qui, selon le site Web Anyline, peut prendre une journée de travail. Merci d'avance.

11
user19235

Pour toute personne qui va encore lire ceci, vous pouvez utiliser cet outil pour obtenir un fichier traineddata de la police que vous souhaitez. Ensuite, déplacez le fichier traineddata dans votre dossier tessdata. Pour utiliser tesseract avec la nouvelle police en Python ou toute autre langue (je pense?) Mettez lang = "Font"en tant que deuxième paramètre de la fonction image_to_string. Il améliore considérablement la précision mais peut toujours faire des erreurs de cours. Ou vous pouvez simplement apprendre comment entraîner tesseract pour une nouvelle police manuellement avec ce guide: http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve- reconnaissance des caractères / .

9
user19235

J'ai fait un tutoriel vidéo expliquant le processus pour la dernière version de Tesseract (le modèle LSTM), j'espère que cela aide. https://www.youtube.com/watch?v=TpD76k2HYms

1
Gabriel Garcia

C'est une vieille question avec des réponses valides, mais si vous rencontrez toujours cela, voici un outil en ligne gratuit pour générer le .traineddata fichier:

http://trainyourtesseract.com/

Avertissement: je ne suis pas l'auteur de cet outil, mais il a résolu mon problème et la précision du modèle généré a été suffisante pour mes besoins.

0
Eric Gopak

Si vous souhaitez former tesseract avec la nouvelle police, générez le fichier .traineddata avec la police souhaitée. Pour générer .traineddata, vous aurez d'abord besoin du fichier .tiff et du fichier .box. Vous pouvez créer ces fichiers en utilisant jTessBoxEditor . Le tutoriel pour jBossTextEditor est ici . Lors de la création du fichier .tiff, vous pouvez définir la police dans laquelle vous avez formé tesseract. Vous pouvez soit jTessBoxEditor pour générer .traineddata ou serak-tesseract-trainer est également là. J'ai utilisé les deux et je dirais que pour générer des fichiers tiff et box, jTessBoxEditor est génial et pour former tesseract à utiliser serak.

0
Yash Modi