Comment installer Tesseract-OCR 3.03 dans les distributions Ubuntu / Linux?
Un ami et moi sommes intéressés à former le moteur tesseract-OCR pour un projet de CV. Nous avons essayé d'utiliser certains wrappers tels que PyTesser et pyocr, mais les résultats ne sont actuellement pas aussi précis que nous en avons besoin. En tant que tel, nous voulons essayer de former le tesseract pour qu'il fonctionne mieux à nos fins (c'est-à-dire identifier le texte sur les étiquettes des aliments), mais nous avons du mal à installer les outils de formation.
Ce que nous avons essayé:
En regardant sur le site Web de Google Code, la page "Compilation" sur le wiki de code Google de Tesseract indique que les outils de formation ne sont disponibles que sur la version 3.03. Cependant, la page "Téléchargements" du code google pour tesseract-ocr ne contient que le matériel pour 3.02. Le bas de la page "Compilation" contient également des commentaires sur l'installation de la version 3.03 sous Windows et OSX, mais aucun commentaire pour les utilisateurs de Linux.
Il semble également y avoir une sorte de paquet source 3.03 pour Ubunt mais nous ne savons pas comment y accéder sur nos ordinateurs et la page 'Compilation' dit que nous devons exécuter ces commandes:
make training
Sudo make training-install
Nous avons également trouvé un fil de discussion Google sur tesseract 3.03 mais encore une fois, il semble que ces articles n'incluent pas de conseils pour les utilisateurs de Linux (sauf si nous avons manqué quelque chose lors de la lecture initiale).
S'agit-il en fait d'un problème d'installation en ligne de commande très simple? Ou, existe-t-il un moyen de former tesseract avec 3.02 (que nous avons actuellement installé)? Avons-nous cherché les mauvais endroits pour obtenir des informations?
Tout conseil ou lien vers des instructions d'installation de tesseract-ocr 3.03 pour les distributions Linux serait grandement apprécié! Merci.
Tesseract peut être installé directement dans Ubuntu 14.04 en utilisant
Sudo apt-get install tesseract-ocr
Je n'ai aucune idée si vous pouvez le faire dans une ancienne version d'Ubuntu, car le dépôt peut être mis à jour dans une version ultérieure d'Ubuntu.
J'ai eu une instance aws ubuntu 14.04. quand j'ai essayé d'installer Tesseract avec
Sudo apt-get install tesseract-ocr
Il a réaccordé le paquet introuvable
Mais cela a fonctionné pour moi.
Sudo apt-get update
Sudo apt-get install tesseract-ocr
Ubuntu est une distribution Linux basée sur Debian. Le paquet tesseract que vous trouverez sera très probablement un paquet debian qui contiendra tesseract et les fichiers de langue par défaut requis pour vous permettre d'exécuter/former tesseract. Vous ne voulez PAS le paquet source - à moins que vous vouliez simplement le compiler vous-même - pas besoin. Vous n'aurez pas à construire tesseract, vous venez de besoin d'installer le package. Tout d'abord, il semble que vous soyez nouveau sur Ubuntu, alors veuillez préparer Installation du logiciel . Cela peut être aussi simple que d'ouvrir un x-term et d'émettre la commande apt-get install tesseract-pkgname
(note: cela signifie quel que soit le nom du paquet).
Il n'y a pas de raccourci, prenez le temps de comprendre si vous avez un package .deb sur votre box qui doit être installé ou si vous installez à partir d'un référentiel distant. Le lien ci-dessus explique comment gérer les deux.
Voici un thread Ubuntu spécifique traitant de l'installation de tesseract Guide d'installation de Tesseract 3.0 + Ubuntu 10.04 J'espère que cela vous aidera. Tesseract est un très bon logiciel.
Je n'ai pas d'instructions pour construire spécifiquement Tesseract 3.03 pour Linux (je suis sur Mac), mais voici un lien pour télécharger le code source de la version 3.03 candidate: https: //tesseract-ocr.googlecode .com/archive/3.03-rc1.tar.gz