python办公自动化——提取pdf中的文字和表格
一、提取pdf中的文字
-
编码流程:
- 1.导入包:import pdfplumber
- 2.找到pdf路径:pdf_path = ‘xxx.pdf’
- 3.打开pdf :pdf = pdfplumber.open(pdf_path)
- 4.获取页面
- 获取某一页:parse_page = pdf.pages[n]
- 获取所有页面:parse_page = pdf.pages
- 5.获取所有页面的文字:parse_page.extract_text()
- 6.存储文字:with open("./存储路径.txt",‘a’,encoding = ‘utf-8’) as f:
f.write(text+’\n’)
-
代码:
- 获取某个页面
import pdfplumber
pdf_path = './XXX预算.pdf'
pdf = pdfplumber.open(pdf_path)
with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:
parse_page