开发环境:
PyCharm 2019.3.5 (Community Edition)
Python3.7
pdfminer3k 1.3.4
发票是pdf格式,使用pdfminer3k来获取,相应代码:
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
def parse_pdf(file_path):
'''解析PDF文本,并保存到TXT文件中'''
fp = open(file_path,'rb')
#用文件对象创建一个PDF文档分析器
parser = PDFParser(fp)
#创建一个PDF文档
doc =