PDF文本转Json数据的四个插件汇总(支持pdf表格多行文本转 json)

本文介绍了在Java和Python中处理PDF文本转JSON数据的工具,包括tabula、pdfbox、pdf2data、itext、pdfplumer和tabula-py。重点讨论了它们在读取PDF表格时的性能,发现pdfplumer对包含多行数据的单元格识别更准确。虽然pdf2data功能强大但需付费,tabula在某些复杂表格中可能出现错误。分享了调研过程和使用经验,提供相关链接和示例代码。
摘要由CSDN通过智能技术生成

在开发过程中遇到了 PDF 转 Data的 需求,PDF中是一页页A4纸制式的表单,类似于信用卡办理个人信息表,那么我们需要的工具应该满足

1 可读取PDF文本并转化成 语言数据

2 可精确读取每行文本 并能解析成对应一行行的 语言数据

于是开始调研,调研过程使用了

Java: tabula+pdfbox,pdf2data+itext,

python:pdfplumer,tabula-py

实际使用中 tabula能很好的识别出需要文本,但是对于较复杂的表格对象会有错误数据

而pdf2data是一个收费的itext7组件,可以定制需要的模板 去针对的识别你要的数据,需要点时间入门学习以及收费,但是确实很好用

但是上面俩种都无法很好的满足我的需求,而Java的开源项目中一个不满足需求,一个收费,而Java的开源项目中,个人没找到对pdf中表格进行单元格识别的第三方,只能目光企及python库,果然找到了读表宝库-pdfplumer,因为它支持对一个单独的表格进行解析并收集成一个数据组。

总结:调研测试中,只有pdfplumer对我的单元格有三行数据的pdf文件进行了正确排序的数据识别。

调研过程中也发现网上博客对此汇总比较少,特作此记录,并共享,必有不足,烦请见谅!

下放连接

1.tabula的使用

2.Itext-Pdf2data的使用

3.tabula-py,pdfplumer使用示例代码

对于python区的研究较少,时间较短,且由于pyt

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值