J'ai des questions sur la création de fichiers tiff/box pour tesseract 4. Dans le document TrainingTesseract 4.00 écrit:
Création de fichiers Box Comme avec Tesseract de base, vous avez le choix entre le rendu de données de formation synthétiques à partir de polices ou l'étiquetage de certaines images préexistantes (comme les manuscrits anciens par exemple).
Mais cela n'a pas expliqué comment s'entraîner avec des images préexistantes.
Je veux m'entraîner pour la langue persane dans tesseract 4 (lstm). J'ai quelques images de manuscrits anciens et je veux m'entraîner avec des images et des textes au lieu de la police. Je ne peux donc pas utiliser text2image
commande. Je sais que les anciens fichiers de boîte de format ne fonctionneront pas pour la formation LSTM.
Je me débattais comme vous, jusqu'à ce que je trouve ce dépôt github: https://github.com/OCR-D/ocrd-train
Cela vous rendra la vie super facile. Tout ce que vous avez à faire est de mettre vos images au format tif et votre texte devrait avoir le même nom d'image avec l'extension .gt.txt. Il s'occupera de tout le reste pour vous. (vous devrez peut-être mettre à jour le Makefile en fonction de votre ordinateur local)
Que vous vous entraîniez à partir de zéro ou que vous peaufiniez dépend de votre propre langue, de vos données et du problème que vous essayez de résoudre. Pour moi, le réglage fin est ce dont j'ai besoin car je suis satisfait des performances actuelles, mais je dois y ajouter.
Tous les détails utiles dont vous pourriez avoir besoin se trouvent dans cette réponse
1) Utilisez la commande ci-dessous pour créer lstmbox
:
tesseract test.tif test-lstmbox -l eng --psm 6 lstmbox
Cela fera un lstmbox
pour vous mais vous devez corriger le caractère dans le fichier box.
2) Vous avez besoin de suffisamment de données pour la formation à partir de Scratch. Je suggère donc qu'un réglage fin est une meilleure option.