web-dev-qa-db-fra.com

Quelle est la police idéale pour OCR?

Quelqu'un a-t-il déjà utilisé différentes polices pour l'OCR? Je génère un identifiant puis j'essaye de le scanner avec tesseract. Pour le moment, je ne connais que des polices différentes, mais cela semble assez inefficace. J'ai essayé la famille de polices OCR * et plusieurs autres, telles que Arial et Georgia. Le tesseract a tendance à être confondu avec les polices OCR *.

Existe-t-il une police spécialement conçue pour tesseract ou une police système qui fonctionne bien avec?

27
Chris Lloyd

D'accord, une recherche sur Google donne ceci, une police OCR spécifique: OCR Font

On dirait que c'est une norme adoptée en 1973.

16
Paul Sonier

Après avoir essayé pas mal de polices et de OCR moteurs, j'ai tendance à obtenir les meilleurs résultats avec Consolas . C'est une police de caractères monospaced comme OCR-A, mais plus facile à lire pour les humains. Consolas est inclus dans plusieurs produits Microsoft.

Il y a aussi un open source font Inconsolata , qui est influencé par Consolas. Inconsolata est un bon substitut pour Consolas, en particulier compte tenu des détails de la licence.

Dans mes tests, les nombres et les espaces dans la police Calibri n'étaient pas toujours reconnus correctement. OCR-A a donné beaucoup d'erreurs de lecture. Je n'ai pas essayé MIRC, car il n'est pas facilement lisible par la plupart des humains.

Note: tesseract nécessite de nombreux tests et ajustements avant d'être fiable. Dans notre cas, nous avons opté pour un moteur OCR sous licence commerciale (ABBYY), en particulier parce que la fiabilité était très importante et que nous devions prendre en charge plusieurs langues (européennes).

Mise à jour: 31 janvier 2017 - Changement de 'basé sur Consolas' en 'influencé par Consolas' 'en raison de problèmes de droits d'auteur potentiels.

12
Gawin

Je trouve que Calibri fonctionne le mieux pour moi. Nous utilisons quotidiennement le logiciel OCR dans un système automatisé et après avoir testé des dizaines de polices (y compris des polices spécifiques à l'OCR), Calibri est toujours la meilleure.

Bonne chance.

5
Chris

J'utiliserais probablement la même police que celle utilisée par les banques pour les numéros d'acheminement au bas des chèques:

http://morovia.com/font/micr.asp

Il a été spécialement conçu pour être lisible à la machine sans ambiguïté.

4
benjismith

J'ai toujours eu du succès en utilisant simplement Times New Roman.

2
David

J'ai récemment effectué des tests approfondis dans un système de gestion de contenu, appelé Laserfiche, qui utilise Nuance OmniPage, et j'ai constaté que les polices monospaces ne sont pas performantes par rapport aux polices à espacement dynamique. Ces anciennes polices OCR ne fonctionnent pas aussi bien que des polices plus «normales». Surtout pour les chaînes de chiffres avec des tailles de police plus petites comme le point 12. 

C'est étrange que quelqu'un d'autre réussisse avec Calibri. Cela a très mal fonctionné lors de mes tests, obtenant régulièrement des lettres et des chiffres similaires qui se confondaient. Consolas, Verdana et Book Antiqua sont les meilleures polices (parmi celles fournies avec un ordinateur Windows sur lequel Office est installé). Toutes les polices à empattement dynamiques où les lettres et les chiffres sont distincts. Consolas était le champion.

1
Glen Murie

Utilise actuellement Monospace. J'ai essayé beaucoup de polices, mais c'est la plus précise pour moi.

0
Sam