基于pdfplumber库来识别pdf中文字内容
无法识别pdf中图片的内容 如果需要解析图片内容需要使用OCR技术
1. 详细代码以及注释
import pdfplumber
def extract_content(pdf_path):
# 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
with pdfplumber.open(pdf_path) as pdf_file:
content = ''
print(len(pdf_file.pages))
# len(pdf.pages)为PDF文档页数,一页页解析
for i in range(len(pdf_file.pages)):
print("当前第 %s 页" % i)
# pdf.pages[i] 是读取PDF文档第i+1页
page_text = pdf_file.pages[i]
# page.extract_text()函数即读取文本内容
page_content = page_text.extract_text()
if page_content:
content = content + page_content + "\n"
if __name__ == '__main__':
pdf_file = '1.pdf'
extract_content(pdf_file)