Lorsque je copie du texte d'un fichier PDF dans un éditeur de texte, il finit par être endommagé de différentes manières. Le formatage, comme gras et italique, est perdu; Les sauts de ligne souples dans un paragraphe de texte sont convertis en sauts de ligne durs; les tirets pour casser un mot sur deux lignes sont conservés même s'ils ne devraient pas l'être; et les guillemets simples et doubles sont remplacés par? des signes.
Idéalement, j'aimerais pouvoir copier le texte d'un PDF et avoir le formatage converti en codes HTML, les "guillemets intelligents" convertis en "et", et les sauts de ligne correctement effectués. fais ça?
Tout d'abord, vous devez comprendre ce qu'est un PDF. Les PDF sont conçus pour imiter une page imprimée, et ils sont conçus seulement comme un format de sortie, pas un format d'entrée. Un PDF est essentiellement une carte contenant l'emplacement exact des caractères (lettres individuelles ou signes de ponctuation, etc.) ou des images. Dans la plupart des cas, un PDF ne stocke même pas d'informations sur l'emplacement Mot se termine et un autre commence, beaucoup moins de choses comme les pauses douces par rapport aux pauses dures pour les fins de paragraphe.
(Quelques fichiers PDF récents stockent des informations sur ces éléments, mais il s’agit d’une nouvelle technologie et vous auriez de la chance de trouver de tels fichiers. Même si vous l’aviez fait, votre lecteur PDF ne le saurait peut-être pas. .)
Quoi qu'il en soit, il appartient à votre logiciel d'implémenter une sorte d '"intelligence artificielle" pour extraire simplement, à partir des emplacements de caractères individuels, ce qui constitue un mot, un paragraphe, etc. Différents logiciels le feront mieux que d’autres, et cela dépendra également de la façon dont le PDF a été créé. Dans tous les cas, vous devriez jamais attendre des résultats parfaits. Avoir la sortie PDF n'est pas la même chose que d'avoir le document source. Bien mieux d'essayer d'obtenir cela si vous le pouvez.
La solution standard à votre type de problème consiste à utiliser Adobe Acrobat Professional (le cher, pas le lecteur gratuit) pour convertir le PDF au format HTML. Même cela ne va pas donner des résultats parfaits.
Il existe un logiciel gratuit qui peut être utilisé pour extraire du texte à partir de PDF avec une partie de la mise en forme intacte, mais encore une fois, ne vous attendez pas à des résultats parfaits. Voir, par exemple, calibre (qui peut convertir au format RTF _)),pdftohtml/pdfreflow ou le traitement de texte AbiWord (avec toutes les importations)./plugins d'exportation activés). Il existe également un plugin d'importation PDF pour OpenOffice.
Mais s'il vous plaît ne vous attendez pas à la perfection avec aucun de ces résultats. Vous allez à contre-courant ici. PDF n'est tout simplement pas un format d'entrée éditable.
Une autre option consiste à télécharger et à utiliser le visualiseur de PDF gratuit, Foxit (c'est bien). Ensuite, vous pouvez "Enregistrer sous" et choisissez .txt pour le convertir en fichier texte. Cela préservera toute la mise en forme. Je ne sais pas si vous pouvez faire la même chose dans Adobe car j'ai arrêté de l'utiliser il y a un moment lorsque j'ai converti au format Foxit.
Il existe un très bon outil en ligne appelé Sej-da. Il traite de la manipulation avancée PDF. Il n'y a pas de logiciel à télécharger. Comme il s’agit d’un outil new en ligne, il est toujours en version bêta. Il vous permet d'extraire du texte d'un fichier PDF, ainsi que de fournir une myriade d'autres fonctionnalités PDF.
Une brève revue vidéo des fonctions de la Sejda a été réalisée le 14 novembre 2012 par la Révision 3, elle est disponible ici:
Ouvrez votre fichier PDF avec un navigateur (Google Chrome et Firefox sont testés), puis copiez votre texte à cet endroit.
Vous pouvez utiliser Adobe Acrobat Pro pour cela.
Pour les tableaux: Acrobat 9/10 comportait une fonction de sélection de tableaux. Avec Acrobat X, vous pouvez simplement cliquer sur Enregistrer sous> Feuille de calcul> Excel. Il concatène même des pages en un seul tableur. Fonctionnalité impressionnante.
Pour le texte: Une fonctionnalité similaire existe pour l'exportation vers MS Word. Enregistrer sous> Word> Word Doc.
Sources:
J'ai trouvé cela très utile ( Remove Line Breaks ):
Voici une astuce utile pour résoudre rapidement ce problème sans avoir à supprimer manuellement tous les sauts de ligne. Fondamentalement, tout ce qu'il fait est de remplacer automatiquement tous les sauts de ligne indésirables par un seul espace, de sorte que tout le texte est regroupé dans un seul paragraphe:
1- Copiez le texte que vous voulez du PDF.
2- coller dans un nouveau document Word.
3- cliquez sur “éditer” puis “remplacer”
4- assurez-vous que vous êtes dans le champ "trouver quoi"
5- cliquez sur "plus" puis "spécial"
6- sélectionnez “marque de paragraphe” (en haut de la liste)
7- cliquer dans le champ “remplacer par”
8- appuyez une fois sur la barre d'espace
9- cliquez sur “remplacer tout”
10- Cliquez sur “ok” puis fermez la case “rechercher et remplacer”.
Le Foxit bascule entre l'affichage du fichier d'origine en tant que normal PDF ou en tant que texte en appuyant sur Ctrl + 6 copier)