web-dev-qa-db-fra.com

PDF a du texte déformé lors du copier-coller

J'essaie de copier et coller du texte à partir d'un fichier PDF.

Cependant, chaque fois que je colle le texte original, c'est un énorme gâchis de caractères tronqués. Le texte ressemble à ce qui suit (ceci est juste un petit extrait):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Je l'ai essayé dans les lecteurs Adobe et Foxit PDF. J'ai fait un "Enregistrer en tant que texte" dans Adobe Reader et le fichier texte résultant est le même texte tronqué.

Des idées comment je peux obtenir ce texte non brouillé? (Autre que la saisie manuelle ... il y a beaucoup de texte à extraire.)

23
ngm

Le moyen le plus simple de contourner ce problème consiste à ouvrir le fichier dans une version récente de Google Chrome avec le plugin de lecture intégré PDF . Vous pouvez ensuite utiliser la fonction de recherche de Chrome pour rechercher du texte. Le copier-coller fonctionne correctement.

J'aimerais commenter le commentaire de pipitas sur la réponse de Shiki, mais je n'ai pas les crédits :( Le problème peut être le codage de police personnalisé, pas le cryptage Dans Acrobat, cliquez sur Fichier -> Propriétés, puis sur l’onglet Polices pour afficher le codage et sur l’onglet Sécurité pour déterminer s’il est chiffré.

10
acatalept

J'ai découvert ce problème avec les fichiers PDF que j'ai créés et je pense en avoir retracé l'origine: en utilisant l'aperçu de Mac OS X pour réduire la taille du fichier PDF.

J'avais créé des filtres Quartz à l'aide de Colorsync Utility pour compresser les images au format PDF afin de réduire la taille globale des fichiers PDF contenant des images. Tels que décrits ici: http://www.macosxhints.com/article.php?story=20031106133852693

J'ai constaté que je pouvais facilement copier et coller du texte à partir du fichier d'origine (non compressé) PDF, mais après avoir exécuté ce filtre PDF via un filtre Réduire la taille du fichier, le résultat obtenu était compressé. PDF ne copie pas clairement la couleur (ressemble à la chaîne que vous avez postée).

Cependant, si vous utilisez le même original PDF à l'aide de la fonction Document> Réduire la taille du fichier d'Adobe Acrobat Pro, le résultat compressé PDF peut désormais copier et coller du texte.

Donc, ce n'est pas totalement utile dans votre cas, en supposant que votre fichier PDF ait été reçu ailleurs et que vous ne puissiez pas accéder à la version originale, même s'il a effectivement été compressé. Mais cela pourrait être l'explication - que le fichier a été mutilé d'une manière ou d'une autre dans le but de réduire la taille du fichier.

Cela peut être utile pour les créateurs de contenu rencontrant des problèmes similaires lors de la copie et du collage de texte à partir de fichiers PDF. Soyez prudent lorsque vous utilisez des filtres OS X Quartz pour réduire vos fichiers PDF!

--edit-- J'ai également remarqué ce problème lors de la combinaison de PDF avec Aperçu. Les deux PDF source peuvent être copiés et collés sans problème, mais lorsque vous faites glisser une page d'un fichier dans un autre fichier, puis enregistrez le PDF combiné, le texte du document combiné ne peut pas être copié/collé. Il s’agit de deux documents générés en même temps avec Filemaker Pro 11 sur Mac. Je ne peux pas imaginer qu’ils auraient des codages différents ou quelque chose de ce genre.

4
Daniel

Il existe un autre moyen très simple de contourner le problème :)

Imprimez simplement le document en utilisant CutePdf, une imprimante Adobe 2 Pdf ou un logiciel similaire. En bout de ligne, vous devez imprimer au format pdf.

Dans de nombreux cas, le problème sera facilement résolu.

4
Nick Olszanski

RESOLU: (a travaillé pour moi sur Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Imprimer à partir d’Acrobat avec "Microsoft XPS Document Writer" La sortie est: "votre nom de fichier.oxps"
  2. Ouvrez "... oxps" avec XPS Viewer. * (voir lien de téléchargement dans les commentaires ci-dessous)
  3. Imprimez sur PDF (Acrobat PDF ou CutePDF) en utilisant la résolution la plus élevée (600 DPI).
  4. Ouvrez avec Acrobat et utilisez l’option OCR (Searchable Image (Exact)).

BINGO!

Commentaires:

  • L'utilisation de la résolution la plus élevée et de l'image indexable (exacte) enregistre votre texte sans perdre son apparence nette. Une faible résolution rendra votre texte lisible, mais vous aurez l'air nul.
  • Télécharger Microsoft XPS (fichiers): http://www.Microsoft.com/en-us/download/details.aspx?id=11816
  • Si vous ne savez pas ce qu'est l'OCR, ou où trouver une image interrogeable (exacte), ou comment imprimer à l'aide de "Microsoft XPS Document Writer", VEUILLEZ, Google vous-même, pour vos meilleures expériences.

* Téléchargez uniquement si XPS n'est pas installé.

Option 2:

Faites de même, mais enregistrez comme image (png, tiff, ...), vous devrez alors combiner toutes les pages dans un fichier "PDF".

2
user210118

Solution qui a fonctionné pour moi:

  • Télécharger le document sur Google Drive/Docs
  • Google l'importera (à partir de 2013) au format PDF
  • Ouvrez la vue PDF et choisissez Fichier > Ouvrir avec > Google Docs
  • Il faudra environ une minute pour exporter le document.

Les résultats n'étaient pas parfaits, mais m'ont permis d'atteindre 80% du chemin et de me fournir suffisamment de texte pour ne pas avoir à tout réécrire!

2
Gavin Miller

En le téléchargeant vers Google Documents et en utilisant l'option Affichage> Texte brut , donne un texte pouvant être copié correct, avec une marge d'erreur de 80% environ. peu d'espaces manquants.

Ce fil avec accepté répond à même problème explique cela avec un exemple de travail.

1
Ankit

Il y a un risque que l'information ne soit pas récupérable du tout. PDF les documents sont essentiellement un document recouvrant un autre, un texte simple, l'autre une image. Lorsque vous copiez et collez à partir du document, vous marquez le texte lorsque vous regardez l'image, mais ce qui est copié dans votre presse-papiers est la partie correspondante de la partie texte.

Selon la manière dont le document est créé, la qualité et la disponibilité de la partie texte peuvent être très différentes. Si vous enregistrez un document de traitement de texte au format PDF à l'aide d'Acrobat, de Word, d'un pilote d'imprimante PDF ou de toute autre méthode, la qualité sera généralement excellente, car le fichier texte peut être créé à partir du texte de l'original. Certains caractères spéciaux peuvent être déformés, mais le texte brut convient généralement.

Si le document est créé à partir d'une image numérisée, la partie texte est généralement créée par traitement OCR de l'image, ce qui peut produire des résultats plutôt regrettables, notamment si l'original est moins qu'optimale à cet effet.

Un mauvais programme utilisé pour créer le fichier PDF ou des paramètres incorrects peuvent également entraîner une déformation complète de la partie de texte, de même que certains types de cryptage exécutés après la création du fichier.

En bout de ligne, si la partie texte du document est vraiment mauvaise, il n'y a aucun moyen de l'améliorer. Le mieux serait de supprimer complètement la partie texte et de faire en sorte que le programme reprenne le processus de reconnaissance des caractères. Je pense que cela pourrait être faisable depuis Acrobat, mais je ne suis pas tout à fait sûr.

1
Emil

Une des raisons possibles pourrait être que la police incorporée dans le PDF utilisait un codage personnalisé, qui n'est pas correctement appliqué lors de la copie de texte à partir du PDF.

Vous pouvez appliquer différentes méthodes pour éviter de saisir manuellement tout le contenu.

  1. Avez-vous essayé d'extraire le texte avec l'un des outils 'pdftotext.exe' téléchargeables dans le réseau '? (Je recommanderais celui inclus dans ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.Zip ) .
  2. La dernière version d'Acrobat Reader propose une option "Enregistrer en tant que texte ..." . Ceci n'utilise pas "copy'n'paste" (qui vous a donné le texte incohérent), mais utilise probablement les mêmes routines logicielles que celles utilisées pour le rendu le texte à l'écran, et peut donc produire des résultats plus utilisables.
  3. Si '2.' ne fonctionne pas et si vous avez accès à Acrobat Professional: essayez de distiller à nouveau le PDF en utilisant l’un des profils Distiller incorporant les polices.
  4. Si '3.' ne fonctionne pas, même si vous avez accès à Acrobat Professional: essayez de redistiller le PDF, mais cette fois, vous devez utiliser l'option "Imprimer en tant qu'image" (disponible via le bouton "Avancé" dans le coin inférieur gauche de l'impression principale. dialogue). Assurez-vous que vous utilisez 600 dpi (bien que cela puisse produire un fichier énorme). Le résultat PDF est ensuite rouvert dans Acrobat Pro. Appliquez maintenant l'algorithme "OCR" d'Acrobat au fichier, ce qui donnera un texte incorporé (non utilisé pour le rendu à l'écran dans le Reader, mais utilisé pour la recherche et la mise en surbrillance de chaînes). Vous pouvez maintenant essayer à nouveau d'extraire le texte de ce PDF en utilisant l'une des méthodes décrites ci-dessus.
1
Kurt Pfeifle

Je n'ai pas essayé l'option Google Documents, car elle n'est toujours pas prise en charge dans mon bureau. Toutefois, en imprimant le fichier dans "ScanSoft PDF Create!" à partir de "Acrobat 9" (imprime l'intégralité du fichier dans l'image) et ouvrez le fichier imprimé dans "Nuance PDF Converter" (il m'a été demandé si je voulais que le fichier d'image soit interrogeable et modifiable, ce que j'ai choisi ), J’ai pu créer un document Word que je peux facilement copier et coller. Ce n'est pas parfait avec seulement environ 80-90% de précision. Mais bon, vous avez toujours le fichier original PDF avec lequel comparer et décaler les parties qui ne peuvent tout simplement pas être corrigées. Gain de temps en tapant le tout. Mon 2c.

1
Jhonrie

Un de mes utilisateurs vient de signaler le même problème (PDF a été créé avec Distiller pour Windows): le texte copié n’est que du texte tronqué et il ne peut pas effectuer de recherche dans un document. J'ai essayé sur mon Mac et je n'ai trouvé aucun problème. Il s’est avéré que j’ai utilisé l’application Preview d’Apple, alors qu’il utilisait Adobe Reader sur sa machine Windows. Ensuite, j'ai essayé Adobe Reader sur mon Mac et le même effet. Pour moi, cela ressemble à:

  • Adobe Reader bloque et recherche dans le texte enregistré.

  • L’aperçu d’Apple copiera et recherchera après l’application du vecteur d’encodage.

Je ne peux pas le dire avec certitude, mais cela expliquerait mon observation. Et cela permettrait en effet de faire tout type d’encodage lors de l’enregistrement de fichiers combinés/réduits, comme décrit dans un autre article: avec Aperçu, vous pouvez toujours extraire le texte à nouveau.

Tout d'abord, j'ai pensé qu'il serait plus logique de coder le sous-ensemble de polices incorporées sous forme d'entrées contiguës au lieu de laisser des trous à l'intérieur et d'utiliser l'emplacement du caractère d'origine. Mais ensuite, j’ai réalisé qu’en utilisant un vecteur d’encodage dans le sous-ensemble de polices avec les entrées originales, les caractères souvent utilisés peuvent avoir moins de bits définis sur 1 dans leur octet et être compressés de manière plus efficace (cela peut réduire l’entrophie des caractères). le texte global de cette façon).

1
Reuti

J'ai créé des fichiers PDF modifiables avec une ancienne version de Scansoft PDF Converter pour Windows XP, puis j'ai combiné les pages dans le programme Aperçu de Mac. Pour chacune des pages séparées, je pouvais rechercher, copier et exporter du texte correctement à partir d'Adobe Reader sur Mac. Lorsqu'ils étaient combinés par Aperçu et enregistrés dans un seul fichier, tous avaient l'air bien à l'écran, mais seuls quelques passages étaient correctement interrogeables/exportables. Ce problème m'a amené ici.

Les articles ici m'ont donné de bons conseils (merci!). J'ai regardé les propriétés du fichier pour les polices. Les fichiers d'une seule page de Win XP (où tout va bien) indiquent que l'encodage est ANSI. Le fichier combiné dans Aperçu (où le texte copié est brouillé) a montré que l'encodage de la plupart des polices était "Intégré", et que quelques-uns étaient "Roman".

La solution à mon problème était sous mon nez tout le temps - le programme Scansoft lui-même peut combiner des fichiers. Lorsque j'ai utilisé le combineur de Scansoft et ouvert le fichier sur le Mac, toutes les polices étaient codées en ANSI et tout le texte était exporté/copié à la perfection. Pourquoi diable je ne les ai pas combinées dans PDF Converter en premier lieu, je ne sais pas. Merci, affiches!

Il en va de même en ouvrant les fichiers sur un système Linux.

Je sais que cela n'explique pas les problèmes liés à Windows uniquement - à moins que le PDF ait des origines mixtes similaires.

0
Jimbo