web-dev-qa-db-fra.com

Comment savoir pourquoi le texte n'est pas interrogeable dans A PDF (et le rendre consultable)

J'ai un article PDF (pas créé par moi). Cependant, je ne peux pas rechercher de texte dans le PDF. Tous PDF Les téléspectateurs ont essayé de retourner zéro résultats pour des mots qui sont évidemment là. J'ai essayé avec Adobe Acrobat Professional 8, SumataPDF et Google Chrome.

Comment puis-je savoir pourquoi Le document n'est pas consultable?

Choses que j'ai vérifiées:

  • Le PDFProducteur est signalé comme une version "PDFTOPTOPDF" et PDF est signalé comme 1.3. Cependant, il semble d'avoir été créé dans quelque chose comme Msword ou OpenOffice (mais pas * Tex).
  • Ce n'est certainement pas un document numérisé, car la police est claire de tous les niveaux de zoom, et le texte est sélectionné.
  • Si je regarde les paramètres de sécurité (ctrl-D Dans Adobe Acrobat), tout est autorisé (comme l'impression, la copie, ...).
  • mes options de recherche n'ont pas "cas de correspondance" allumé
  • Je ne peux pas la transformer en un document interrogeable à l'aide de "Texte reconnaître à l'aide de OCR" d'Acrobat, car il rapporte: ' Cette page contient du texte rendable '.

Alors, quoi d'autre pourrait être la raison du DPF ne pas être consultable? Et comment le rendre interrogatif?

4
Rabarberski
  • Il peut avoir un codage de police personnalisé qui attribue des points de code aux caractères d'une manière incompatible avec les codages établis tels que ASCII ou UTF-8/Unicode.

  • Il peut rendre des personnages individuellement en dehors de la séquence

  • Il a peut-être pu avoir des personnages aplatie aux chemins

Voir https://stackoverflow.com/questions/12703387/pdf-font-coding .
et https://stackoverflow.com/questions/4523283/how-do-you-debug-pdf-files

Pour que le texte est interrogeable, la meilleure façon de revenir à la source d'origine (par exemple un document Word) et d'utiliser un processus différent pour produire le PDF. Sinon, vous pouvez essayer de raincre votre PDF comme bitmap, puis en utilisant OCR, mais cela sera fastidieux et produira des résultats médiocres.

7
RedGrittyBrick

J'ai trouvé un moyen de contourner ce problème. J'ai fait des outils -> Modifier le texte du document, puis pour chaque page, j'ai appuyé sur Control-A (sélectionneur tout), puis cliqué avec le bouton droit de la souris et allé aux propriétés et modifié la police sur autre chose. Après que je l'ai fait, le texte était interrogeable et je pourrais copier le texte!

1
Don

Donc, après avoir essayé beaucoup de choses qui n'ont pas fonctionné. Voici comment je l'ai réellement fait:

  1. Trouvez-vous un PDF au convertisseur Word ou quelque chose. (Je recommande https://www.online-convert.com/ )

  2. Suivez les étapes nécessaires pour convertir mais avant cela--

  3. Trouvez le bouton qui dit quelque chose comme "reconnaissance de caractères optique" et cliquez dessus

  4. Convertissez votre fichier et vous devriez être Golden.

0
Alex

J'avais le même problème et, dans la frustration, j'ai googlé pour trouver une réponse. Il s'avère que pour moi, le problème était simplement que j'utilisais l'aperçu de mon IMAC pour voir et rechercher le PDF. Dans la plupart des cas, la recherche fonctionne dans l'aperçu. Mais pour un grand livre téléchargé à partir de Google Books, il n'a pas fait.

Ce qui a fonctionnait simplement l'ouverture du PDF dans Adobe Reader. (Duh, quel concept, je sais.) Maintenant je peux rechercher. Cela ne fonctionnera probablement pas pour tout le monde avec un Mac, mais pourrait aider quelqu'un.

0
Susan

aller à Modifier/Préférences - Sélectionnez "Rechercher" à partir du côté gauche de l'écran de préférences - puis "Contenu de cache de purge '- Sélectionnez OK, puis fermez et rouvrez le document.

0
hope this helps