Python使用pdfplumber直接提取PDF文本内容

y_bccl27

已于 2022-09-07 10:19:23 修改

阅读量2.2k

点赞数

分类专栏： Python 文章标签： python 开发语言后端

于 2021-08-19 11:03:20 首次发布

本文链接：https://blog.csdn.net/y_bccl27/article/details/119773638

版权

Python 专栏收录该内容

109 篇文章 1 订阅 ¥299.90 ¥99.00

订阅专栏

超级会员免费看

前提：提取文本内容的文件必须是应用服务生成PDF文件，而非扫描的pdf文档，当前pdfplumber的版本为0.5.28

第一步：在服务应用的终端中使用下述命令安装pdfplumber包

poetry add pdfplumber

在输入了上述命令后，会在终端中弹出下述相关安装信息

PS D:\Code\python\poetry-demo> poetry add pdfplumber
Using version ^0.5.28 for pdfplumber

Updating dependencies
Resolving dependencies...

Writing lock file

Package operations: 7 installs, 0 updates, 0 removals

  • Installing chardet (4.0.0)
  • Installing pycryptodome (3.10.1)
  • Installing sortedcontainers (2.4.0)
  • Installing pdfminer.six (20200517)
  • Installing pillow (8.3.1)
  • Installing wand (0.6.7)
  • Installing pdfplumber (0.5.28)

同时可以看到在对应服务的site-packages目录下会新增下述几个目录：

pdfminer
pdfminer.six-20200517.dist-info
pdfplumber
pdfplumber-0.5.28.d

了解本专栏

超级会员免费看

y_bccl27

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python使用pdfplumber直接提取PDF文本内容

前提：提取的文件必须是应用服务生成PDF文件，而非扫描的pdf文档，当前pdfplumber的版本为0.5.28该开源包在github上面的地址：https://github.com/jsvine/pdfplumber第一步：在服务应用的终端中使用下述命令安装pdfplumber包poetry add pdfplumber在输入了上述命令后，会在终端中弹出下述相关安装信息PS D:\Code\python\poetry-demo> poetry add pdfplumber.
复制链接

扫一扫