安装模块
pip install pdfplumber
pip install PyPDF2
pip install pypwin32
pdf 文件读取
"""
path: pdf的文件路径
pdfplumber.open(path): 文件打开读取
_pdf.pages: 获取pdf总页数
_pdf.pages[i].extract_text() : 获取每页的pdf的内容
"""
def get_pdf_content(path):
_pdf = pdfplumber.open(path)
pages = len(_pdf.pages) # _pdf.pages 输出的是列表数据
all_content = [_pdf.pages[i].extract_text() for i in range(pages)]
return all_content
if __name__ == '__main__':
data = get_pdf_content('test.pdf')
print(data[0])
读取pdf中的表格数据
def get_pdf_tables(path):
_pdf = pdfplumber.open(