Python使用pdfplumber直接提取PDF文本内容

前提:提取文本内容的文件必须是应用服务生成PDF文件,而非扫描的pdf文档,当前pdfplumber的版本为0.5.28

第一步:在服务应用的终端中使用下述命令安装pdfplumber包

poetry add pdfplumber

 在输入了上述命令后,会在终端中弹出下述相关安装信息

PS D:\Code\python\poetry-demo> poetry add pdfplumber
Using version ^0.5.28 for pdfplumber

Updating dependencies
Resolving dependencies...

Writing lock file

Package operations: 7 installs, 0 updates, 0 removals

  • Installing chardet (4.0.0)
  • Installing pycryptodome (3.10.1)
  • Installing sortedcontainers (2.4.0)
  • Installing pdfminer.six (20200517)
  • Installing pillow (8.3.1)
  • Installing wand (0.6.7)
  • Installing pdfplumber (0.5.28)

 同时可以看到在对应服务的site-packages目录下会新增下述几个目录:

pdfminer
pdfminer.six-20200517.dist-info
pdfplumber
pdfplumber-0.5.28.d
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用pdfplumber库和pandas库来实现将多个PDF文件中的内容批量写入Excel。下面是一个示例代码: ```python import os import pandas as pd import pdfplumber # 定义PDF文件夹路径和Excel文件路径 pdf_folder = "path/to/pdf/folder" excel_file = "path/to/excel/file.xlsx" # 获取PDF文件列表 pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith(".pdf")] # 创建一个空的DataFrame来保存数据 df = pd.DataFrame(columns=["File", "Page", "Text"]) # 遍历PDF文件列表 for pdf_file in pdf_files: pdf_path = os.path.join(pdf_folder, pdf_file) # 打开PDF文件 with pdfplumber.open(pdf_path) as pdf: # 遍历PDF的每一页 for i, page in enumerate(pdf.pages): # 提取页面文本内容 text = page.extract_text() # 将数据添加到DataFrame中 df = df.append({"File": pdf_file, "Page": i+1, "Text": text}, ignore_index=True) # 将DataFrame写入Excel文件 df.to_excel(excel_file, index=False) ``` 在上述代码中,你需要将`pdf_folder`替换为包含要处理的PDF文件的文件夹路径,将`excel_file`替换为你想要保存结果的Excel文件路径。该代码会遍历PDF文件夹中的每个PDF文件,并将每一页的文本内容提取出来,然后将结果保存到指定的Excel文件中。每行数据包括文件名、页码和文本内容。 请注意,你需要安装pdfplumber和pandas库,可以使用以下命令安装: ``` pip install pdfplumber pandas ``` 希望对你有所帮助!如果还有其他问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值