【多模态】一次多模态大模型表格识别解析探索小实践记录

表格识别作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。
【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路》,

前期文章也介绍了传统视觉的方法进行表格结构识别的方法,【文档智能】轻量级级表格识别算法模型-SLANet

关于表格识别在这里就不做过多的介绍了。

国庆期间,笔者利用一个较长的时间段,训练了一个多模态的表格识别模型,效果还不错,特此记录一下多模态的效果。

  • 训练资源:H100*8
  • 训练数据:200w table image - table html对(html的表示表格的优势,可以准确表示一些复杂表格,如合并单元格等,这点是mardown格式无法做到的。)
  • 模型参数量:7B
  • 自建测评数据TEDS:0.97~0.98

小总结:

  1. 训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是max-length=8192

  2. 模型参数量目前较大,推理速度比较慢。

效果记录
下面的一些case来源于网络的表格截图。

case1


case2


case3


case4


case5


case6


case7

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值