Pdfminer Python 3.5

Question

J'ai suivi quelques tutoriels mais je ne parviens pas à faire fonctionner ce bloc de code. J'ai effectué les commutations nécessaires de StringIO à BytesIO (je crois?).

Je ne suis pas sûr de savoir pourquoi "banana" n'imprime rien. Je pense que les erreurs pourraient être du rouge hareng. est-ce que cela a quelque chose à voir avec moi après un tutoriel python2.7 et d'essayer de le traduire en python3?

errors: File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 28, in <module> banana = convert("A1.pdf") File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 19, in convert infile = file(fname, 'rb') NameError: name 'file' is not defined

scénario

from io import BytesIO from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage def convert(fname, pages=None): if not pages: pagenums = set() else: pagenums = set(pages) output = BytesIO() manager = PDFResourceManager() converter = TextConverter(manager, output, laparams=LAParams()) interpreter = PDFPageInterpreter(manager, converter) infile = file(fname, 'rb') for page in PDFPage.get_pages(infile, pagenums): interpreter.process_page(page) infile.close() converter.close() text = output.getvalue() output.close return text banana = convert("A1.pdf") print(banana)

La même chose se passe avec cette variante:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import BytesIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = BytesIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = file(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text Banana = convert_pdf_to_txt("A1.pdf") print(Banana)

J'ai essayé de chercher ceci (la plupart du code de pdfminer provient de this ou this ) mais je n'ai pas eu de chance.

Toute idée est appréciée.

À votre santé

pyano · Accepted Answer

Là il y a une solution pour Python 3.5: vous avez besoin de pdfminer.six . Sous win10 je pourrais facilement l'installer avec

pip install pdfminer.six

Vous pouvez vérifier la version installée avec

pdfminer.__version__

Je ne l'ai pas encore testé intensément. Mais je pourrais exécuter le code suivant pour la conversion pdf → text et pdf → html

pyano · Answer

Solution améliorée (Dez 2016)

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import HTMLConverter,TextConverter,XMLConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage import io def convert(case,fname, pages=None): if not pages: pagenums = set(); else: pagenums = set(pages); manager = PDFResourceManager() codec = 'utf-8' caching = True if case == 'text' : output = io.StringIO() converter = TextConverter(manager, output, codec=codec, laparams=LAParams()) if case == 'HTML' : output = io.BytesIO() converter = HTMLConverter(manager, output, codec=codec, laparams=LAParams()) interpreter = PDFPageInterpreter(manager, converter) infile = open(fname, 'rb') for page in PDFPage.get_pages(infile, pagenums,caching=caching, check_extractable=True): interpreter.process_page(page) convertedPDF = output.getvalue() infile.close(); converter.close(); output.close() return convertedPDF #//////////// main /////////////////////// filePDF = 'myDir//myPDF.pdf' # input fileHTML = 'myDir//myHTML.html' # output fileTXT = 'myDir//myTXT.txt' # output case = "HTML" if case == 'HTML' : convertedPDF = convert('HTML', filePDF, pages=[0,1]) fileConverted = open(fileHTML, "wb") if case == 'text' : convertedPDF = convert('text', filePDF, pages=[0,1]) fileConverted = open(fileTXT, "w") fileConverted.write(convertedPDF) fileConverted.close() #print(convertedPDF)

Muhammad Haseeb · Answer

Dans mon cas sur Python 3.7, j'ai essayé de l'utiliser et cela a fonctionné comme un charme pour moi!

voici le code que j'ai utilisé:

def convert_pdf_to_txt(path_to_file): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path_to_file, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text

animal · Answer

pdfminer ne supporte pas python version 3.5 . Cela ne fonctionne que dans Python 2.6 ou plus récent. J'ai rencontré le même problème, essayez avec python version 2.6 cela résoudra votre problème.