Comment convertir des fichiers PDF en feuilles de calcul

Question

J'ai essayé toute la journée d'en convertir plusieurs. fichiers pdf qui contiennent le flux de trafic pour São Paulo vers des feuilles de calcul comme MS Office Excel ou LibreOffice Calc dans Ubuntu. Lorsque j'ouvre le fichier .pdf avec LibreOffice Calc, il ouvre LibreOffice Draw et je ne peux pas obtenir la feuille de calcul.

La méthode la plus prometteuse que j'ai trouvée était ici avec pdftotext. Cela fonctionne bien et je peux obtenir les tableaux dans LibreOffice Calc mais en ajustant manuellement les colonnes.

Mon problème est que j'ai tellement de fichiers .pdf que cela me prendrait beaucoup de temps.

Quelqu'un connaît-il une meilleure méthode?

Dmitry Somov · Answer

Une autre option consiste à utiliser Okular ( http://okular.kde.org ). Il a un outil de sélection de table (Ctrl + 5). Vous pouvez sélectionner un tableau, ajouter des lignes pour des lignes et des colonnes supplémentaires et copier le tableau résultant dans un presse-papiers. Ça fonctionne bien pour moi.

scruss · Answer

Tabula peut très bien fonctionner. PDF n'est pas un format facile à extraire des informations structurées, donc ce n'est pas toujours possible.

tohuwawohu · Answer

Peut-être le -layout vous serait utile. Avec cette option définie, pdftotext essaiera de conserver la disposition des colonnes dans le fichier texte résultant.

Maintenant, vous pouvez importer le fichier texte dans LibreOffice Calc avec les paramètres d'importation appropriés. Lors de l'ouverture d'un fichier txt dans Calc, il vous sera demandé comment analyser le contenu du fichier (voir capture d'écran ci-dessous). Sous Separator Options, sélectionnez les deux options [separated by] Space et Merge Delimiters. De cette façon, Calc pourra restaurer la structure de la colonne (en supposant que les données de cellule ne contiennent pas d'espaces).

text import into calc

Ruyonga Dan · Answer

L'outil appelé Able2Extract est l'option qui peut faire pour vous exactement ce que vous voulez avec un minimum d'erreurs