Comment lire un fichier pdf en utilisant pdfminer3k?

Question

J'utilise python 3.5 et je veux lire le texte, ligne par ligne à partir de fichiers pdf. J'essayais d'utiliser pdfminer3k mais n'obtient la syntaxe appropriée nulle part. Comment l'utiliser correctement?

Matphy · Answer

J'ai corrigé le code de Lisa. Ça fonctionne maintenant!

 fp = open(path, 'rb') from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBox, LTTextLine parser = PDFParser(fp) doc = PDFDocument() parser.set_document(doc) doc.set_parser(parser) doc.initialize('') rsrcmgr = PDFResourceManager() laparams = LAParams() laparams.char_margin = 1.0 laparams.Word_margin = 1.0 device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) extracted_text = '' for page in doc.get_pages(): interpreter.process_page(page) layout = device.get_result() for lt_obj in layout: if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine): extracted_text += lt_obj.get_text()

Lise · Answer

J'utilise python 3.4 mais je suppose que cela fonctionne de la même manière avec python 3.5. Voici ce que j'utilise:

from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBox, LTTextLine parser = PDFParser(file_content) doc = PDFDocument() parser.set_document(doc) doc.set_parser(parser) doc.initialize('') rsrcmgr = PDFResourceManager() laparams = LAParams() #I changed the following 2 parameters to get rid of white spaces inside words: laparams.char_margin = 1.0 laparams.Word_margin = 1.0 device = PDFPageAggregator(rsrcmgr, laparams=laparams) interpreter = PDFPageInterpreter(rsrcmgr, device) extracted_text = '' # Process each page contained in the document. for page in doc.get_pages(): interpreter.process_page(page) layout = device.get_result() for lt_obj in layout: if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine): extracted_text += string with open('convertedFile.txt',"wb") as txt_file: txt_file.write(extracted_text.encode("utf-8"))