Extraire / Identifier les tables de PDF python

Question

Existe-t-il des bibliothèques open source prenant en charge l'identification et l'extraction de table?

Je veux dire par là:

Identifier une structure de table existante
Classer la table à partir de son contenu
Extraire les données de la table dans un format de sortie utile, par ex. JSON/CSV etc.

J'ai parcouru des questions similaires sur ce sujet et trouvé les éléments suivants:

PDFMiner qui résout le problème 3, mais il semble que l'utilisateur soit obligé de spécifier à PDFMiner où il existe une structure de table pour chaque table (corrigez-moi si je me trompe)
pdf-table-extract qui tente de résoudre le problème 1 mais selon la liste À faire , ne peut pas actuellement identifier les tables séparées par des espaces. C'est un problème car toutes les tables de mes PDF sont séparées par des espaces!

Actuellement, je pense que je devrais passer beaucoup de temps à développer une solution d’apprentissage automatique afin d’identifier les structures de table à partir de PDF. Par conséquent, toute approche alternative serait plus que bienvenue!

Kurt Pfeifle · Accepted Answer

Vous devriez certainement jeter un coup d'œil à cette réponse:

Extraction du contenu d'une table d'une collection de PDF

et aussi jeter un oeil à tous les liens qui y sont inclus.

Tabula/TabulaPDF est actuellement le meilleur outil d’extraction de table disponible pour le PDF scraping.

Ike · Answer

Après de nombreuses heures fructueuses à explorer les bibliothèques d'OCR, les cadres de sélection et les algorithmes de classification, j'ai trouvé une solution si simple qu'elle vous donne envie de pleurer!

J'espère que vous utilisez Linux.

pdftotext -layout NAME_OF_PDF.pdf

INCROYABLE!!

Maintenant, vous avez un fichier texte Nice avec toutes les informations alignées dans les colonnes Nice, il est maintenant trivial de le formater en CSV, etc.

C’est pour des moments comme celui-ci que j’adore Linux, ces gars-là ont mis au point des solutions AMAZING pour tout, et les ont mis GRATUITEMENT!

Blodwyn Pig · Answer

J'aimerais juste ajouter à la réponse très utile de Kurt Pfeifle - il existe maintenant un wrapper Python pour Tabula, et cela semble très bien fonctionner jusqu'à présent: https: //github.com/chezou/tabula-py

Ceci convertira votre trame de données PDF en une trame de données Pandas. Vous pouvez également définir la zone en coordonnées x, y, ce qui est évidemment très pratique pour les données irrégulières. Les données.