巧用 Python 的 camelot 库批量提取 PDF 发票信息
PDF 是一种文档格式,因为这种格式不受操作系统的限制,而且方便保存和传输,所以相关的 pdf 软件非常受欢迎。目前市场上有很多 pdf 软件,大部分是阅读类,也有支持对 pdf 的编辑、转换成 Word 等功能,但这部分工具不少是收费的。
例如我就很喜欢某个 PDF 转换软件,买了个终身 VIP 会员,目的就是将电子发票转换成 Excel 格式,并提取相关数据。
现在很多增值税普通发票都是电子发票,其格式都是以 PDF 格式进行保存的,而且相信未来的增值税电子专票也会以 PFD 格式保存。那么财务能不能将 PFD 格式的发票信息批量读取到 Excel 中呢?特别是不花钱的情况下。
例如我从京东中收到几十份电子发票,能不能通过什么办法将其金额、税额一次性的录入到某个 Excel 文件中呢?
可以的,但问题是 python 可以操作 PDF 文件的库有好几个,如 PyPDF2、pyPDF4、pikepdf、ReportLab、pdfplumber、PyMuPDF 等,那么我们应该选择哪一个库为我们工作呢?
因为不是所有 PDF 库都能读取所有版本的电子发票,有些库只能读取 2018 年之前的版本,有些库对 2019 年的发票不能读取中文等等。
例如用 pdfplumber 库,我们读取中石化的电子发票时,只能读取数字。
用 pdfplumber 库的话,虽然可以读取中文,但不能解析表格:
我们的电子发票上面,除了有文本、表格、图片,我们需要读取以上的这些信息,还还需要有解析表格的功能。当然,其他的 Python 库也可以读取,但为了减少读取时出