python提取PDF文本信息

最新推荐文章于 2024-06-22 10:01:23 发布

北风^

最新推荐文章于 2024-06-22 10:01:23 发布

阅读量569

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_44212000/article/details/117352560

版权

PDF处理 pdfplumber 文本提取正则表达式信息匹配

关键词由CSDN通过智能技术生成

import pdfplumber   # 导入pdfplumber （如果pip下载模块不成功，指定版本号得以解决
file_dir = r"C:\Users\xxx\Desktop\xxx"  # pdf文件的父目录
with pdfplumber.open(os.path.join(file_dir, "要提取数据的.pdf")) as pdf:
    for i in range(len(pdf.pages)):
    	content = ''
        page = pdf.pages[i]  # 获取到pdf的页数
        page_content = '\n'.join(page.extract_text().split('\n'))  # 处理读取到的字符串
        content = content+page_content
print(re.findall(r'\n日期：(.+)', content )[0])   # 使用正则匹配出需要的信息

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

北风^

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
python提取PDF文本信息

import pdfplumber # 导入pdfplumber （如果pip下载不成功，指定版本号得以解决file_dir = r"C:\Users\xxx\Desktop\xxx" # pdf文件的父目录with pdfplumber.open(os.path.join(file_dir, "要提取数据的.pdf")) as pdf: for i in range(len(pdf.pages)): page = pdf.pages[i] # 获取到pdf的页数
复制链接

扫一扫