【python----pdfplumber的使用】处理文件的神器!

pdfplumber 是一个 Python 库,专门用于从 PDF 文档中提取信息。它提供了一种简单直观的方式来访问 PDF 的文本、图像和其他内容。

我在训练ai的过程中,由于直接导入的pdf文档,导致ai对pdf文档内容的信息读取不够准确,所以急需一个工具能将pdf中的数据提取出来,此时我就了解到了pdfplumber

我来讲一下我下载pdfplumber过程中的遇到的问题与解决办法

我的系统是win11 

大前提:一定要在虚拟环境下进入python环境!

不要ctrl+R进入cmd,直接进入powershell,在命令行中先切换到你创建的虚拟环境中,然后执行python命令,我的是python3,进入到python编译环境后,执行import pdfplumber,提示没有模块,

于是我使用命令再下载一下

安装成功后我又重新进入python中导包

import pdfplumber

发现报错还是没有这个模块:No module named 'pdfplumber'

问题解决:

其实这个问题就是我一开始强调的一定要在虚拟环境下进行

一直报错的原因就是我们使用的python.exe(python语言的解释器)不是虚拟环境下的python.exe

使用where python列出我们的目录下有哪些python.exe,然后找到虚拟环境下的的python.exe

直接切换到虚拟环境的目录下

现在就可以正常使用了,先用file_path,将你想提取内容的文件路径导入

再使用下面这段代码,将pdf中的第一页里面的内容提取出来,然后就能看到提取出来的内容了

 with pdfplumber.open(file_path) as pdf:
    first_page = pdf.pages[0]
    text = first_page.extract_text()
    print(text)\

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值