使用python比对两个PDF文件内容的不同点

需求

拿到两个内容相差不多的PDF文件,想比对一下两个文件的不同点。

分析

暂时找不到较完美的方法,目前没有看到直接对PDF文件做比对的库,但有针对txt内容做比对的库fonttools,因此对于PDF文件本身格式比较齐整且是中文的,可以考虑把PDF文件先转为txt文件,再做内容比对。

相关库

pdfplumber(把PDF文件转为txt文件)、fonttools(比对文件内容)

使用下面代码前要先安装以上两个库,且替换文件路径。

安装命令👇

pip install pdfplumber
pip install fonttools

代码实例

示范文件👇

# 步骤一:把pdf文件转为txt文件

import pdfplumber,os
# 导入模块
path = r'C:\Users\Desktop\测试\测试\\'
# 设置文件夹路径
txt_files = []
# 设置一个空列表存放转化后的txt文件
for file_name in os.listdir(path):
# 遍历文件夹
    print(file_name)
    p = pdfplumber.open(path+file_name)
    # 打开 PDF 文件
    page_num = len(p.pages)
    #
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值