PDF文本转Json数据的四个插件汇总（支持pdf表格多行文本转 json）

最新推荐文章于 2024-07-18 22:24:38 发布

wllmp520

最新推荐文章于 2024-07-18 22:24:38 发布

阅读量3.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wlpp520/article/details/106897074

版权

本文介绍了在Java和Python中处理PDF文本转JSON数据的工具，包括tabula、pdfbox、pdf2data、itext、pdfplumer和tabula-py。重点讨论了它们在读取PDF表格时的性能，发现pdfplumer对包含多行数据的单元格识别更准确。虽然pdf2data功能强大但需付费，tabula在某些复杂表格中可能出现错误。分享了调研过程和使用经验，提供相关链接和示例代码。

摘要由CSDN通过智能技术生成

在开发过程中遇到了 PDF 转 Data的需求，PDF中是一页页A4纸制式的表单，类似于信用卡办理个人信息表，那么我们需要的工具应该满足

1 可读取PDF文本并转化成语言数据

2 可精确读取每行文本并能解析成对应一行行的语言数据

于是开始调研，调研过程使用了

Java: tabula+pdfbox,pdf2data+itext,

python：pdfplumer，tabula-py

实际使用中 tabula能很好的识别出需要文本，但是对于较复杂的表格对象会有错误数据

而pdf2data是一个收费的itext7组件，可以定制需要的模板去针对的识别你要的数据，需要点时间入门学习以及收费，但是确实很好用

但是上面俩种都无法很好的满足我的需求，而Java的开源项目中一个不满足需求，一个收费，而Java的开源项目中，个人没找到对pdf中表格进行单元格识别的第三方，只能目光企及python库，果然找到了读表宝库-pdfplumer，因为它支持对一个单独的表格进行解析并收集成一个数据组。

总结:调研测试中，只有pdfplumer对我的单元格有三行数据的pdf文件进行了正确排序的数据识别。

调研过程中也发现网上博客对此汇总比较少，特作此记录，并共享，必有不足，烦请见谅！

下放连接

1.tabula的使用

2.Itext-Pdf2data的使用

3.tabula-py，pdfplumer使用示例代码

对于python区的研究较少，时间较短，且由于pyt

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PDF文本转Json数据的四个插件汇总（支持pdf表格多行文本转 json）

在开发过程中遇到了 PDF 转 Data的需求，PDF中是一页页A4纸制式的表单，类似于信用卡办理个人信息表，那么我们需要的工具应该满足1 可读取PDF文本并转化成语言数据2 可精确读取每行文本并能解析成对应一行行的语言数据于是开始调研，调研过程使用了Java: tabula+pdfbox,pdf2data+itext,python：pdfplumer，tabula-py实际使用中 tabula能很好的识别出需要文本，但是对于较复杂的表格对象会有错误数据而pdf2data
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。