大模型(LLMs)RAG 版面分析——表格识别方法篇
一、为什么需要识别表格?
表格的尺寸、类型和样式展现出多样化的特征,如背景填充的差异性、行列合并方法的多样性以及内容文本类型的不一致性等。同时,现有的文档资料不仅涵盖了现代电子文档,也包括历史的手写扫描文档,这些文档在样式设计、光照条件以及纹理特性等方面存在显著差异。因此,表格识别一直是文档识别领域的重大挑战。下图所示为一个示例:
注:左上:有颜色背景的全线表,右上:少线表,左中:无线表,左下:有复杂表格线条样式的表格,右下:拍照得到的手写历史文档。
二、介绍一下 表格识别 任务?
表格识别包括表格检测和表格结构识别两个子任务。表格识别过程可细分为两个关键步骤:
- 表格定位(Table Localization):此阶段涉及识别并划定表格的整体边界,采用的技术手段包括但不限于目标检测算法,如YOLO、Faster RCNN或Mask RCNN,甚至有时借助生成对抗网络(GAN)来精确勾勒出表格的外在轮廓。
表格元素解析与结构重建(Table Element Parsing and Structure Reconstruction):
-
表格单元格划分(Cell Detection):这一子任务着重于识别和区分表格内部的各个单元格,不论它们是由连续线条完全包围还是部分包围,抑或是无明显线条分隔。
-
表格结构理解(Table Structure Understanding):在此环节中,系统深入分析表格区域以提取其中的数据内容及其内在逻辑关系,明确行与列的分布规律以及单元格之间的层次关联,最终实现对表格原始结构的高度准确复原。