巧用Python的camelot库批量提取PDF发票信息

最新推荐文章于 2025-04-29 09:30:00 发布

xifenglie123321

最新推荐文章于 2025-04-29 09:30:00 发布

阅读量2.3k

点赞数

文章标签： python pdf 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xifenglie123321/article/details/131986803

版权

巧用 Python 的 camelot 库批量提取 PDF 发票信息
PDF 是一种文档格式，因为这种格式不受操作系统的限制，而且方便保存和传输，所以相关的 pdf 软件非常受欢迎。目前市场上有很多 pdf 软件，大部分是阅读类，也有支持对 pdf 的编辑、转换成 Word 等功能，但这部分工具不少是收费的。

例如我就很喜欢某个 PDF 转换软件，买了个终身 VIP 会员，目的就是将电子发票转换成 Excel 格式，并提取相关数据。

现在很多增值税普通发票都是电子发票，其格式都是以 PDF 格式进行保存的，而且相信未来的增值税电子专票也会以 PFD 格式保存。那么财务能不能将 PFD 格式的发票信息批量读取到 Excel 中呢？特别是不花钱的情况下。

例如我从京东中收到几十份电子发票，能不能通过什么办法将其金额、税额一次性的录入到某个 Excel 文件中呢？

可以的，但问题是 python 可以操作 PDF 文件的库有好几个，如 PyPDF2、pyPDF4、pikepdf、ReportLab、pdfplumber、PyMuPDF 等，那么我们应该选择哪一个库为我们工作呢？

因为不是所有 PDF 库都能读取所有版本的电子发票，有些库只能读取 2018 年之前的版本，有些库对 2019 年的发票不能读取中文等等。

例如用 pdfplumber 库，我们读取中石化的电子发票时，只能读取数字。

用 pdfplumber 库的话，虽然可以读取中文，但不能解析表格：

我们的电子发票上面，除了有文本、表格、图片，我们需要读取以上的这些信息，还还需要有解析表格的功能。当然，其他的 Python 库也可以读取，但为了减少读取时出

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

xifenglie123321 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。