web-dev-qa-db-fra.com

Comment créer des PDF haute fidélité avec du texte copiable à partir de numérisations?

Certaines entreprises fournissent des logiciels pour Windows avec leurs scanners * pouvant créer des PDF à partir de pages numérisées qui ressemblent exactement au matériau numérisé (comme s'il ne s'agissait que d'images pleine page), mais le texte est reconnu et copiable.

Comment puis-je créer des PDF comme celui-ci sur Ubuntu?

Notez que je ne veux pas convertir le texte numérisé en texte normal. Je souhaite que le résultat PDF ainsi obtenu soit identique à celui des pages d'origine, tout en y ajoutant un calque de texte reconnu, afin de faciliter son utilisation.

J'ai un scanner haute résolution que j'utilise actuellement avec XSane. Il numérise les pages avec précision et crée de belles images haute résolution.

* à savoir, Canon avec LiDE 220

3
Damn Terminal

Préambule

Vous recherchez un sandwich PDF , , c'est-à-dire un PDF numérisé avec une couche invisible de texte (ou une couche de texte simplement placée derrière l'image de chaque page) ).

Il y a plusieurs façons de créer un. Je vais utiliser le document Approches de pondération des termes dans la récupération automatique de texte comme exemple de document nécessitant une reconnaissance optique de caractères.

La commande pdfsandwich

Tout d’abord, installez cet outil à partir des référentiels:

Sudo apt install pdfsandwich

Ensuite, vous pouvez simplement l'exécuter sur votre fichier PDF et attendre:

pdfsandwich document.pdf

Screenshot of Evince showing a PDF sandwich

Dans le passé, cette méthode n’était pas très précise, en particulier en ce qui concerne positionnement du texte. Il semble que maintenant les choses se soient beaucoup améliorées. Exemple du PDF:

Résumé –Les preuves expérimentales accumulées au cours des 20 dernières années indiquent que

Si vous mettez en surbrillance le texte dans Evince, des cases noires sont affichées.

PDF-XChange Viewer

Ceci est un freeware, programme réservé à Windows qui fonctionne parfaitement sous Wine si vous utilisez la version 32 bits dans une version 32. -bits de vin préfixe. Pour cela, je suggère d'utiliser PlayOnLinux car il est très facile de sélectionner la dernière version de Wine et le fait que vous souhaitiez un préfixe 32 bits.

Une fois installé, vous pouvez l'exécuter et sélectionner l'icône OCR dans la barre d'outils:

Screenshot of PDF-XChange Viewer under Wine

La sortie est généralement très bonne et l’emplacement du texte est précis. Exemple du PDF:

Résumé - Les preuves expérimentales accumulées au cours des 20 dernières années indiquent que

Si vous mettez le texte en surbrillance dans Evince, il est affiché dans une police sans empattement.

OCR.space

C'est en fait un service Web. Allez à ocr.space et sélectionnez votre fichier et votre langue, puis cochez la case "Créer une pièce de recherche PDF avec un calque de texte invisible". Appuyez sur le bouton et attendez que le document soit téléchargé et converti.

Malheureusement, il y a un bogue pour les pages horizontales et elles ne sont pas restituées correctement dans la sortie. J'en ai informé les auteurs et ils ont reconnu le problème.

3