pdfplumber使用中一些问题及解决

最新推荐文章于 2024-07-03 17:06:59 发布

Yae Yang

最新推荐文章于 2024-07-03 17:06:59 发布

阅读量3.3k

点赞数 2

文章标签： windows python 数据挖掘

本文链接：https://blog.csdn.net/weixin_51143561/article/details/120697053

版权

本文探讨了在Python中使用pdfplumber库处理PDF文件时遇到的问题，包括如何添加路径以正确导入模块，pdfplumber与pdfminer的冲突，以及读取PDF后可能导致的文件损坏。同时，指出了在将PDF内容写入TXT文件时需要注意的缩进问题，并提出了追加写入的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pdfplumber加载路径

import sys
sys.path.append('绝对路径')
# 注：先加载路径再导入模块，顺序很重要

pdfplumber调用

import pdfplumber

# 打开pdf文件
pdf = pdfplumber.open('文件路径')
for page in pdf.pages:
    text = page.extract_text()  # 提取文本

pdfplumber与pdfminer串用

在使用pdfplumber之前是用的pdfminer，直到报错，才发现pdfplumber调用了pdfminer里的程序，暂时无解。其间我反复卸载重装，总是会将两者绑定安装，就无语，请大佬们指点！

目前是将就用着了，如果使用pdfminer的话只能将库名改掉，import改后名称。

pdfplumber读取文件后会破坏原文件

真的不明白，只是读取，为什么会破坏原文件呢？目前无解，只能做好pdf的存档工作。

读取后，写入txt文档只包含最后一页内容

发现是缩进出了问题，写入的命令应当缩进在读取命令里面。

另外由于pdfplumber是一页页读取，因此只能以追加“a”的形式写入txt文档。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yae Yang

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

如何用python中的pdfplumber提取pdf中的加粗字体文本

**My Coding Family**

09-08

574

如上问题有的来自我自身项目开发，有的收集网站，有的来自读者…如有侵权，立马删除。再者，针对此专栏中部分问题及其问题的解答思路或步骤等，存在少部分搜集于全网社区及人工智能问答等渠道，若最后实在是没能帮助到你，还望见谅！并非所有的解答都能解决每个人的问题，在此希望屏幕前的你能够给予宝贵的理解，而不是立刻指责或者抱怨！如果你有更优解，那建议你出教程写方案，一同学习！共同进步。ok，以上就是我这期的Bug修复内容啦，如果还想查找更多解决方案，你可以看看我专门收集Bug及提供解决方案的专栏。

python中pdfplumber解析pdf_Python中pdfplumber如何提取pdf中的表格数据

weixin_29051811的博客

02-09

2426

Python中pdfplumber如何提取pdf中的表格数据发布时间：2020-10-29 09:19:00来源：亿速云阅读：66作者：小新小编给大家分享一下Python中pdfplumber如何提取pdf中的表格数据，希望大家阅读完这篇文章后大所收获，下面让我们一起去学习方法吧！作为一个强大的pdf文件解析工具，pdfplumber库可迅速将pdf文档转换为易于处理的txt文档，并输出pdf文档...

参与评论您还未登录，请先登录后发表或查看评论

pdfplumber 只要一运行就失败求救！

weixin_44903054的博客

06-07

1539

pdfplumber 只要一运行就失败求救！

PDFPlumber解析PDF文本报错：AssertionError: (‘Unhandled’, 6)

Java/Python大数据随笔

03-08

1092

在尝试了ChatGPT的一些建议后，确定可能是PDF本身的原因，因此考虑使用其他库。确认PDF文件没有损坏，并且是文本格式的PDF而不是扫描的图像。可以考虑使用其他PDF处理库，如PyPDF2或PyMuPDF等。添加异常处理，这样即使遇到错误也不会导致程序崩溃。看来是PDF本身的原因，我们的PDF可能已经损坏。等其他方法，这取决于你需要提取的内容类型。模块提取PDF文本时。

【python】pdfplumber模块打开文件提示文件不存在：FileNotFoundError: [Errno 2] No such file or directory: ‘*.pdf‘

sinat_41752325的博客

08-12

3209

pdfplumber模块打开文件失败，当前命令所在文件夹与打开的文件不在同一目录

pdfplumber 读取 PDF 表格报错 AttributeError: function/symbol ‘ARC4_stream_init‘ not found in library

无九不知名的博客

10-26

1255

pdfplumber 读取 PDF 表格报错 AttributeError: function/symbol 'ARC4_stream_init' not found in library报错项解决方法报错项使用 pdfplumber 提取 PDF 中的表格时，提示缺少ARC4_stream_init。 Traceback (most recent call last): File "C:\Users\Stan\Python\ALIRT\pdf extracter\test.py", line 5

安装pdfplumber失败

weixin_38364280的博客

05-13

2784

在虚拟环境下运行 python -m pip install --upgrade pip 升级后，pip的版本变成 pip 23.1.2，与系统的相同，然后再在虚拟环境下 pip install pdfplumber就可以了。如果这种情况下运行 pip -V 与系统的pip版本不同，就会出现pycharm控制台安装了包，但却引入不了的情况。如果出现这种情况，可以使用powerShell运行Activate.ps1 ，也就是执行命令。在这种情况下运行的pip命令就是运行在路径指向的虚拟环境的。

如何解决Python中尝试使用pdfplumber.load()函数时出现'没有load模块'的错误？

12-15

当你在Python中遇到`ModuleNotFoundError: No module named 'pdfplumber'`这样的错误，表示你在尝试导入`pdfplumber`库时出现了问题，因为该库并没有安装或者路径设置不正确。以下是解决这个问题的步骤： 1. **安装...

用python解析pdf中的文本与表格【pdfplumber的安装与使用】

热门推荐

blmoistawinde的博客

08-25

3万+

我们接触到的很多文档资料都是以pdf格式存在的，比如：论文，技术文档，标准文件，书籍等。pdf格式使得用机器从中提取信息格外困难。为了解决这个问题，我找到了几种解决方案，最后选择了python上的pdfplumber库，安装和使用都相对比较方便，效果也还不错，所以下面介绍这个库的安装与使用。安装我的电脑配置环境： Win10+python3.6 和许多库一样，其基本安装只需要pi...

python pdfplumber优化表格提取

dandanforgetlove的专栏

07-03

945

根据提取的文本信息是没办法获取到表格数据的，太乱了。根据表头画竖线，可能内容超出表头左右坐标。3.根据坐标放入单元格的list中。解决办法：根据内容进行特殊匹配。自行画线，根据画线进行提取。1.根据表头进行画竖线。2.根据行坐标画横线。4.拼接单元格文字。

关于pdfplumber和pdfminer不兼容的问题解决方案

liuxingangela的博客

11-08

1520

解决pdfplumber和pdfminer不兼容的问题

Python —— pdfminer与pdfplumber冲突问题的解决

WangJialin

07-04

987

问题描述使用Python处理PDF文件时，导入的pdfminer与pdfplumber存在冲突。解决方法首先回退pdfplumber的版本，可以改为0.5.16，然后在本机Python安装目录下的\Lib\site-packages中新建一个代替pdfminer的文件夹，如newPdfminer，并将原pdfminer中的内容复制到新文件夹下，导包的时候用newPdfminer代替pdfminer就可解决冲突问题，如下代码所示 from newPdfminer.pdfparser import P

pdfplumber extract_table()结果为None

qq_40708237的博客

01-11

2960

pdfplumber extract_table()结果为None

anaconda安装pdfplumber库出错解决方法

做自己喜欢的事情就好啦

07-30

4737

anaconda安装pdfplumber库出错解决方法 pip --default-timeout=1000 install -U pdfplumber 测试：成功安装

Python操作pdfplumber读取PDF写入Excel

醉蕤的博客

08-11

4316

Python操作pdfplumber读取PDF写入Excel

吐血教训~！

A_miyan的博客

06-01

1198

github克隆经验教训

pdfplumber与pdfminer3k有冲突？？？-探究一下你就知道，谨记结论

潇洒郎的博客

03-18

4086

最近使用pdfminer3k来处理pdf，但是pdfminer3k不能获取pdf文件的页数，因为我要用页数来显示进度条，所以搜索到pdfplumber可以直接获取pdf文件的页数，就安装了，结果程序报错。变得不能使用，寻找原因！下面是我的探索之路：没安装pdfplumber时：运行结果没问题安装pdfplumber时运行结果出错：报错本身不是pdfminer3k的问题！而是有冲...

anaconda中pdfplumber库怎么安装

最新发布

03-13

<think>好的，我现在需要在Anaconda环境中安装pdfplumber库。首先，我要回想一下之前了解的关于Anaconda和库安装的知识。Anaconda是一个Python发行版，主要用于数据科学，它自带了很多库，并且可以通过conda或pip来安装额外的包。我记得pdfplumber可能不在默认的conda仓库中，所以可能需要用pip来安装。但用户之前提到过在虚拟环境中安装失败的问题，后来通过升级pip解决了，所以需要注意pip的版本是否过旧。首先，用户可能已经有一个现有的conda环境，或者需要创建一个新的。我应该建议他们激活目标环境。例如，如果他们的环境叫tensorflow，那就要先激活它，再安装。引用中的例子提到在tensorflow环境下安装其他库，这可能相关[^2]。然后，安装pdfplumber之前，可能需要确保pip是最新的。用户之前遇到安装失败的问题，升级pip后解决了[^3]。因此，步骤可能包括升级pip，再安装pdfplumber。另外，有些情况下，conda和pip的路径可能会有冲突，特别是当系统Python和Anaconda的路径混用时。比如，安装的库可能没有出现在Anaconda的site-packages里，这时候需要用conda环境下的pip来安装[^4]。所以，在conda环境中使用python -m pip install可以确保使用正确的pip版本。总结下来，步骤应该是： 1. 打开Anaconda Prompt或者终端。 2. 激活目标conda环境，比如conda activate tensorflow。 3. 升级pip：python -m pip install --upgrade pip。 4. 安装pdfplumber：pip install pdfplumber。如果遇到权限问题，可能需要使用管理员权限运行命令，或者在虚拟环境中操作。此外，如果安装过程中出现依赖错误，可能需要安装其他系统库，比如libjpeg或zlib，这取决于pdfplumber的依赖。最后，验证安装是否成功，可以进入Python环境尝试导入pdfplumber，如果没有报错，说明安装成功。</think>在Anaconda环境中安装pdfplumber库的步骤如下： 1. **打开Anaconda Prompt** 通过Windows开始菜单或Mac/Linux终端启动Anaconda命令行工具。 2. **激活目标环境** 若需在特定环境（如`tensorflow`）安装，执行： ```bash conda activate tensorflow ``` 若未指定环境，默认使用`base`环境。 3. **升级pip工具** 为避免版本兼容问题，先升级pip： ```bash python -m pip install --upgrade pip ``` 此操作能解决部分安装失败问题[^3]。 4. **安装pdfplumber** 使用pip直接安装： ```bash pip install pdfplumber ``` 安装完成后可通过`pip list`查看是否包含该库。 5. **验证安装** 在Python环境中测试导入： ```python import pdfplumber ``` 若无报错则说明安装成功[^1]。 --- **