大模型(LLMs)RAG 版面分析——表格识别方法篇

大模型(LLMs)RAG 版面分析——表格识别方法篇

一、为什么需要识别表格?

表格的尺寸、类型和样式展现出多样化的特征,如背景填充的差异性、行列合并方法的多样性以及内容文本类型的不一致性等。同时,现有的文档资料不仅涵盖了现代电子文档,也包括历史的手写扫描文档,这些文档在样式设计、光照条件以及纹理特性等方面存在显著差异。因此,表格识别一直是文档识别领域的重大挑战。下图所示为一个示例:
在这里插入图片描述

注:左上:有颜色背景的全线表,右上:少线表,左中:无线表,左下:有复杂表格线条样式的表格,右下:拍照得到的手写历史文档。

二、介绍一下 表格识别 任务?

表格识别包括表格检测和表格结构识别两个子任务。表格识别过程可细分为两个关键步骤:

  • 表格定位(Table Localization):此阶段涉及识别并划定表格的整体边界,采用的技术手段包括但不限于目标检测算法,如YOLO、Faster RCNN或Mask RCNN,甚至有时借助生成对抗网络(GAN)来精确勾勒出表格的外在轮廓。

表格元素解析与结构重建(Table Element Parsing and Structure Reconstruction):

  • 表格单元格划分(Cell Detection):这一子任务着重于识别和区分表格内部的各个单元格,不论它们是由连续线条完全包围还是部分包围,抑或是无明显线条分隔。

  • 表格结构理解(Table Structure Understanding):在此环节中,系统深入分析表格区域以提取其中的数据内容及其内在逻辑关系,明确行与列的分布规律以及单元格之间的层次关联,最终实现对表格原始结构的高度准确复原。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xianghan收藏册

极简精品作,一分也是一份鼓励哦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值