Sur Linux - Comment extraire le texte d'un .pdf
Dans quel texte est vraiment texte, pas une image numérisée? Je veux quelque chose que je peux utiliser sur la ligne de commande/dans un script, pas de manière interactive. (Je ne veux pas convertir en .tif
et utiliser OCR - le texte est déjà disponible dans le .pdf
Dossier, alors pourquoi introduire des inexactitudes d'OCR imparfaites?)
pdftotext
qui est livré avec le porcLLER essaiera d'extraire tout texte trouvé dans le PDF.
La réponse de Ignacio est tout à fait bien. En fait, ce serait la première chose sur ma liste. Eh bien, cela et peut-être de suggérer l'outil pdftohtml
qui est également livré avec un portable, combiné avec pdfreflow Si vous souhaitez essayer de réassembler le texte dans les paragraphes, etc. (bien sûr, cela Vous donnera une sortie HTML, mais la conversion de HTML en texte brut peut être effectuée à bien des égards.)
Voici quelques autres options aussi.
Le ebook-convert
Outil de ligne de commande à partir de calibre , qui peut convertir .pdfs en texte brut (ou RTF ou un certain nombre de formats d'ebook, comme EPUB, etc.)
pdftxtextract
de podofo
ABIWORD peut être appelé à partir de la ligne de commande à convertir entre tous les formats, il peut saisir/exporter et avec le plug-in à importation approprié, cela inclut les PDFS:
abiword --to=txt file.pdf
(En toute justice, je pense qu'Anword et Calibre utilisent les bibliothèques de poplusions, mais je ne suis pas positif.)