Rechercher une chaîne de texte dans les fichiers commentés PDF

Question

Nécessitant de rechercher une chaîne de texte non seulement dans le corps du fichier PDF, mais également dans les commentaires, j'ai installé Acrobat Reader sur Ubuntu 18.04 LTS. Sa fonction de recherche fonctionne correctement, mais je me demande s’il existe un autre moyen d’accomplir cette tâche (pdfgrep?)

Kurt Pfeifle · Accepted Answer

1. Chaînes dans les commentaires dans le code source d'un PDF

Pour les chaînes contenues dans les commentaires à l'intérieur du code source PDF, vous pouvez sans risque supposer qu'elles ne sont pas codées et apparaissent sous forme de texte brut ASCII ou UTF-8.

Par conséquent, la commande suivante devrait fonctionner:

strings my.pdf | grep -i 'searchstring'

Je devrais ajouter que les commentaires dans le code source PDF seraient marqués d'un caractère %- au début de chaque ligne de commentaire.

En outre, ni Adobe Acrobat ni Adobe Reader n’afficheront les résultats des chaînes dans les commentaires lorsque vous les rechercherez.

2. Chaînes dans le contenu textuel d'un PDF

Vous ne pouvez pas supposer trouver du texte dans un PDF aussi facilement. Vous pouvez faire ce qui suit pour trouver une certaine chaîne, cependant:

pdftotext -layout my.pdf - | grep -i 'searchstring'

Il existe cependant quelques autres méthodes en ligne de commande (vous avez vous-même mentionné pdfgrep). Prenez pdfgrep:

pdfgrep -n -i 'searchstring' my.pdf

(Ici, -n imprime le numéro de page avec une correspondance pour la chaîne, -i rend la recherche insensible à la casse.)