web-dev-qa-db-fra.com

Java Recommandations de la bibliothèque OCR?

Je dois vérifier une tonne d'images pour voir si elles contiennent un mot-clé. Quelqu'un peut-il recommander une bonne bibliothèque OCR fiable? Je sacrifierai volontiers la vitesse pour la précision.

11
Peck3277

Il n'y a pas de Java bibliothèques OCR qui ont quelque chose à voir avec la précision . En fonction de votre budget, vous pouvez choisir quelque chose qui n'est pas purement Java, mais qui peut être appelé depuis Java:

  • Si vous avez beaucoup de temps mais pas de budget - votre choix est Tesseract. C'est certainement le meilleur parmi l'open source
  • Si vous avez un petit budget à dépenser et que vous n'avez besoin d'exécuter cette reconnaissance qu'une seule fois - Cloud OCR API le service serait votre meilleur choix. Il est basé sur un moteur OCR de qualité commerciale et offre des prix par projet assez abordables. Avertissement: je travaille pour ABBYY
  • Si vous devez exécuter cette reconnaissance en tant que processus continu pour toujours, vous pouvez penser qu'il est économiquement plus efficace d'acheter un logiciel de conversion dédié, par exemple celui-ci , il dispose d'une API et peut être appelé à partir de Java aussi. Mais il existe en fait beaucoup d'alternatives, si vous êtes prêt à investir un peu de budget dans les licences.
24
Tomato

Si vous avez l'intention de ne pas reconnaître les symboles latins ou numériques, mieux vaut trouver une bibliothèque non Java, mais sélectionner parmi certains outils (externes) et utiliser d'autres moyens (1) pour obtenir votre texte. Sur Linux J'ai utilisé cuneiform (2) via l'interface de ligne de commande.

  1. l'interface de ligne de commande et le tuyau, par exemple.

  2. cuneiform a porté sur Linux mais je ne connais pas l'interface de ligne de commande de travail pour Windows

2
Michael Kazarian