- python提取PDF文字内容
1)利用pdfplumber提取文字
import PyPDF2
import pdfplumber
with pdfplumber.open("XXXXX.pdf") as p:
page = p.pages[2]
print(page.extract_text())
2)利用pdfplumber提取表格并写入excel
extract_table():如果一页有一个表格;
extract_tables():如果一页有多个表格;
import PyPDF2
import pdfplumber
from openpyxl import Workbook
with pdfplumber.open("XXXXX.pdf") as p:
page = p.pages[4