pdfplumber加载路径
import sys
sys.path.append('绝对路径')
# 注:先加载路径再导入模块,顺序很重要
pdfplumber调用
import pdfplumber
# 打开pdf文件
pdf = pdfplumber.open('文件路径')
for page in pdf.pages:
text = page.extract_text() # 提取文本
pdfplumber与pdfminer串用
在使用pdfplumber之前是用的pdfminer,直到报错,才发现pdfplumber调用了pdfminer里的程序,暂时无解。其间我反复卸载重装,总是会将两者绑定安装,就无语,请大佬们指点!
目前是将就用着了,如果使用pdfminer的话只能将库名改掉,import改后名称。
pdfplumber读取文件后会破坏原文件
真的不明白,只是读取,为什么会破坏原文件呢?目前无解,只能做好pdf的存档工作。
读取后,写入txt文档只包含最后一页内容
发现是缩进出了问题,写入的命令应当缩进在读取命令里面。
另外由于pdfplumber是一页页读取,因此只能以追加“a”的形式写入txt文档。