需求
拿到两个内容相差不多的PDF文件,想比对一下两个文件的不同点。
分析
暂时找不到较完美的方法,目前没有看到直接对PDF文件做比对的库,但有针对txt内容做比对的库fonttools,因此对于PDF文件本身格式比较齐整且是中文的,可以考虑把PDF文件先转为txt文件,再做内容比对。
相关库
pdfplumber(把PDF文件转为txt文件)、fonttools(比对文件内容)
使用下面代码前要先安装以上两个库,且替换文件路径。
安装命令👇
pip install pdfplumber
pip install fonttools
代码实例
示范文件👇
# 步骤一:把pdf文件转为txt文件
import pdfplumber,os
# 导入模块
path = r'C:\Users\Desktop\测试\测试\\'
# 设置文件夹路径
txt_files = []
# 设置一个空列表存放转化后的txt文件
for file_name in os.listdir(path):
# 遍历文件夹
print(file_name)
p = pdfplumber.open(path+file_name)
# 打开 PDF 文件
page_num = len(p.pages)
#