web-dev-qa-db-fra.com

Comment extraire le texte de PDF dans le script sur Linux?

Sur Linux - Comment extraire le texte d'un .pdf Dans quel texte est vraiment texte, pas une image numérisée? Je veux quelque chose que je peux utiliser sur la ligne de commande/dans un script, pas de manière interactive. (Je ne veux pas convertir en .tif et utiliser OCR - le texte est déjà disponible dans le .pdf Dossier, alors pourquoi introduire des inexactitudes d'OCR imparfaites?)

24
RobM

pdftotext qui est livré avec le porcLLER essaiera d'extraire tout texte trouvé dans le PDF.

26

La réponse de Ignacio est tout à fait bien. En fait, ce serait la première chose sur ma liste. Eh bien, cela et peut-être de suggérer l'outil pdftohtml qui est également livré avec un portable, combiné avec pdfreflow Si vous souhaitez essayer de réassembler le texte dans les paragraphes, etc. (bien sûr, cela Vous donnera une sortie HTML, mais la conversion de HTML en texte brut peut être effectuée à bien des égards.)

Voici quelques autres options aussi.

Le ebook-convert Outil de ligne de commande à partir de calibre , qui peut convertir .pdfs en texte brut (ou RTF ou un certain nombre de formats d'ebook, comme EPUB, etc.)

pdftxtextract de podofo

ABIWORD peut être appelé à partir de la ligne de commande à convertir entre tous les formats, il peut saisir/exporter et avec le plug-in à importation approprié, cela inclut les PDFS:

abiword --to=txt file.pdf

(En toute justice, je pense qu'Anword et Calibre utilisent les bibliothèques de poplusions, mais je ne suis pas positif.)

10
frabjous