Je veux savoir quels paramètres le fichier de configuration utilisé par Tesseract OCR accepte, comment écrire un fichier de configuration, etc.
Je ne trouve aucune documentation à ce sujet sur leur site . Comment puis-je déterminer les paramètres pris en charge et leur signification?
J'ai trouvé ces instructions dans le lien ci-dessous. Il s'agit d'écrire le fichier de configuration et où le placer:
le fichier de configuration est un simple fichier texte sans nomenclature et avec la marque de fin de ligne Unix (sous Windows, vous pouvez utiliser un éditeur de texte avancé, par exemple Notepad ++ pour y parvenir).
Si vous utilisez l'exécutable tesseract, c'est uniquement la façon de modifier les paramètres de tesseract.
le fichier de configuration doit se trouver dans votre répertoire tessdata/configs. Jetez-y un œil pour quelques exemples.
Il y a une liste de toutes les variables ainsi que des descriptions de chacune d'entre elles dans http://www.sk-spell.sk.cx/ tesseract-ocr-parameters-in-302-version . Notez que c'est pour Tesseract 3.02, les choses peuvent être différentes dans d'autres versions.
Modifier: Ajout également d'un lien Pastebin au cas où le lien ci-dessus deviendrait mort.
Tesseract v3.04 propose désormais l'option de ligne de commande --print-parameters
, vous pouvez donc appeler tesseract --print-parameters
pour obtenir une liste des 678 (!) paramètres configurables, leurs valeurs par défaut et une brève description:
Tesseract parameters:
editor_image_xpos 590 Editor image X Pos
editor_image_ypos 10 Editor image Y Pos
editor_image_menuheight 50 Add to image height for menu bar
editor_image_Word_bb_color 7 Word bounding box colour
editor_image_blob_bb_color 4 Blob bounding box colour
editor_image_text_color 2 Correct text colour
...and many, many more
Il s'agit simplement d'un fichier texte contenant des paires clé/valeur délimitées par l'espace pour les variables de configuration Tesseract, chacune sur une ligne distincte; par exemple:
interactive_display_mode T
tessedit_display_outwords T
Il existe plusieurs fichiers de configuration standard - tels que les chiffres, hocr - sous le dossier Tesseract tessdata/configs .