Je souhaite créer une application Android qui, via une bibliothèque OCR, devrait numériser une image en extrayant du texte.
Quelle bibliothèque Java devrais-je utiliser?
Je ne sais pas à quel point c'est bon (il faut absolument le former au préalable), mais il y a la bibliothèque Java OCR de Ron Cemer .
Si vous recherchez une option très extensible ou si vous avez un domaine problématique, vous pouvez envisager de le faire à l’aide du moteur neural orienté objet Java .
Je l'ai utilisé avec succès dans un projet personnel pour identifier la lettre à partir d'une image telle que this , vous pouvez trouver toute la source du composant OCR de mon application sur github, ici .
try tesseract, Découvrez cet article http://www.itwizard.ro/interfacing-cc-libraries-via-jni-example-tesseract-163.html .__ et cet exemple http://code.google.com/p/mezzofanti/
Edit: Quelques faits supplémentaires - tesseract est l’un des meilleurs systèmes de ROC open source utilisé par Google - des données de formation sont disponibles dans plusieurs langues - mezzofanti est une application Android qui utilise tesseract. .- méfiez-vous: OCR utilise beaucoup de puissance du processeur. essayer de faire une ROC sur une page A4 avec votre T-Mob G1 prendra beaucoup de temps et le résultat risque de ne pas vous impressionner ;-)
Vous pouvez utiliser la fonctionnalité OCR de Google Docs. Consultez l’API Documents List Datahttp://code.google.com/apis/documents/docs/3.0/developers_guide_protocol.html#OCR