PDFPlumber使用入门

最新推荐文章于 2025-11-04 15:15:00 发布

原创

最新推荐文章于 2025-11-04 15:15:00 发布 · 4.3w 阅读

317 ·

CC 4.0 BY-SA版权

文章标签：

#python

PDFPlumber是一个用于解析PDF的Python库，适用于提取文本、表格等信息。本文介绍了PDFPlumber的安装、命令行使用、Python包的API，特别强调了如何进行表格抽取和可视化调试，适合对PDF解析感兴趣的Python开发者。

背景

最近需要一个工具来解析PDF文件，获取其文本内容、标题、表格等，在GitHub上发现了这个神仙工具，发现用起来还挺方便的。在这里做一个简单的介绍，帮助一些想入门的~~英文不好的~~ 同学。

环境

macOS 10.14
PDFPlubmer v0.5.21
python>=3.5

教程开始

首先附上GitHub链接：https://github.com/jsvine/pdfplumber

应用场景

获取PDF中的每个文本字符、矩形和行的详细信息，以及可以进行表格提取和可视化调试。主要应用于机器生成的PDF上，而非扫描的pdf文档。

安装

可以直接使用pip进行python包的安装，执行指令：

pip install pdfplumber

之后运行python，若能成功导入该包即安装成功。

$ python3
Python 3.6.5 (default, Jun 17 2018, 12:13:06)
[GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import pdfplumber
>>> # 安装成功

命令行使用

这里提供一个官方的简单的使用样例

$ curl "https://cdn.rawgit.com/jsvine/pdfplumber/master/examples/pdfs/background-checks.pdf" > background-checks.pdf
$ pdfplumber < background-checks.pdf > background-checks.csv

执行完成后即可将一个pdf中的各种详细信息，包含每一个字符、线、表格等，导出到一个csv文件中。

可选参数

参数	描述
`--format [format]`	`csv` or `json`。`json`格式返回更多信息；它包含PDF级别的元数据(metadata)和每个页面的高度/宽度信息。
`--pages [list of pages]`	一个以空格分隔，以`1`索引开头的页面或带连字符的页面范围的列表。例如`1,11-15`，它将返回第1、11、12、13、14和15页的数据。
`--types [list of object types to extract]`	选择为`char`、`anno`、`line`、`curve`、`rect`、`rect_edge`。默认为`char`，`anno`，`line`，`curve`，`rect`。

Python包

简单样例

import pdfplumber

with pdfplumber.open("path/to/file.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.chars[0])

读取PDF

pdfplumber提供了两种读取pdf的方式：

pdfplumber.open("path/to/file.pdf")
pdfplumber.load(file_like_object)

这两种方法都返回pdfplumber.PDF类的实例(instance)。
加载带密码的pdf需要传入参数password，例如：pdfplumber.open("file.pdf", password = "test")

pdfplumber.PDF类

处于最上层的pdfplumber.PDF类表示单个PDF，并且具有两个主要属性：

属性	描述
`.metadata`	从PDF的`Info`中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等。
`.pages`	一个包含`pdfplumber.Page`实例的列表，每一个实例代表PDF每一页的信息。

pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心，大多数操作都围绕这个类进行操作，它具有以下几个属性：

属性	描述
`.page_number`	页码顺序，从第一页的`1`开始，第二页为`2`，依此类推。
`.width`	页面宽度
`.height`	页面高度
`.objects`/`.chars`/`.lines`/`.rects`/ `.curves`/`.figures`/`.images`	这些属性中的每一个都是一个列表，并且每个列表针对嵌入面上的每个此类对象包含一个字典。有关更多详细信息，

最低0.47元/天解锁文章

23 条评论

盛夏夜头皮凉 2022.07.13
请问，跨页的表格怎么提取呢？另外，假如一个页面上有三个表格，怎么提取其中的某一个表格呢？

我想我很倔强 2021.12.15
请问下载好的pdfplumper包应该放在什么位置

jackeexie 2021.06.07
请问，单元格内两行文本且有缩进，识别结果变成了两个单元格，怎么解决？
- 我想我很倔强回复jackeexie 2021.12.15
  请问下载好的pdfplumper包应该放在什么位置

weixin_41716567 2021.05.02
pdfplumber.load(file_like_object)中的file_like_object是什么？不是文件名吗?输入文件名错误提示AttributeError: 'str' object has no attribute 'seek'

CGZJDX 2021.04.16
完全没有线的表格应该怎样抽取？

qq_38421235 2021.01.04
请问我在jupyter下运行，可以正确解析pdf，但是打包成exe后，运行，却解析成(cid:2564)(cid:2672)(cid:4222)(cid:964)(cid:908)之类的码，请问是什么原因，谢谢解答。
- qq_38421235回复努力coding的鱼鱼 2021.01.06
  你有试过打包成exe吗？[face]monkey2:019.png[/face]
- 努力coding的鱼鱼回复qq_38421235 2021.01.05
  抱歉这个问题我不是很清楚[face]monkey2:017.png[/face]

qq_43018339 2020.12.23
如果需要将单元格内的换行，识别到同一个字符串，应该怎么设置？
- 努力coding的鱼鱼回复qq_43018339 2020.12.25
  写错了应该是y_tolerance；x_tolerance表示两个字符间的水平距离，y_tolerance表示的是垂直距离，会将这些看成一行
- 努力coding的鱼鱼回复qq_43018339 2020.12.25
  extract_text有一个参数是x_tolerance，把这个参数设置大一些就可以

bluesky1x 2020.12.16
有用，感谢分享

qq_43018339 2020.12.02
可视化什么都没有显示是怎么回事？
- 我想我很倔强回复ioria 2021.12.15
  请问下载好的pdfplumper包应该放在什么位置
- ioria回复qq_43018339 2021.10.08
  你是如何解决这个问题的？
- ioria回复努力coding的鱼鱼 2021.10.08
  我也遇到相同的问题，系统是win10，安装了imagemagick和gs，im.save可以保存图片，但是运行im.draw_rects时没有任何反应和抛错，请问怎么解决，感谢
- Kessity回复qq_43018339 2020.12.24
  遇到同样的问题，请问如何解决的？不胜感激
- qq_43018339回复努力coding的鱼鱼 2020.12.15
  谢谢，成功了
- 努力coding的鱼鱼回复qq_43018339 2020.12.03
  [code=python] pdf = pdfplumber.open("xxxx.pdf") p0 = pdf.pages[0] im = p0.to_image() im [/code] 看看会不会有图像显示，如果没有的话试试保存，看能否生成图像。 [code=python] im.save(path_or_fileobject, format="PNG") [/code]
- qq_43018339回复qq_43018339 2020.12.03
  系统是win10，python是3.6
- qq_43018339回复努力coding的鱼鱼 2020.12.03
  之前我用camelot的flavor='lattice'这是需要ghostscript，我也用过ImageMagick转换图片格式应该安装也没有问题吧？但IPython / Jupyter notbook使用对pdfplumber进行可视化的时候，既没有报错，也没有显示
- 努力coding的鱼鱼回复qq_43018339 2020.12.02
  请问您是什么系统，以及是否安装了ImageMagick和ghostscript？