异构文档的表格检测

最新推荐文章于 2023-06-30 10:26:05 发布

zhugeheihei

最新推荐文章于 2023-06-30 10:26:05 发布

阅读量173

点赞数

文章标签：人工智能 python 前端

本文链接：https://blog.csdn.net/zhugeheihei/article/details/128884183

版权

摘要：在文档图像中检测表是很重要的，因为不仅表包含重要信息，而且大多数布局分析方法在文档图像中存在表时都失败了。现有的表检测方法主要集中在检测单列文本中的表，在不同布局的文档上工作不可靠。本文提出了一种实用的表检测算法，该算法对不同布局的文档(公司报告、报纸文章、杂志页面等)具有较高的准确性。．该算法的开源实现作为Tesseract OCR引擎的一部分提供。该算法对公开的UNL V数据集的文档图像进行了评估，与商业OCR系统的表检测模块相比，显示出具有竞争力的性能。

关键词：页面分割、表格检测、文档分析

1、介绍

纸质文档自动转换为可编辑的电子表示依赖于光学字符识别(OCR)技术。一个典型的OCR系统包括三个主要步骤。首先，执行布局分析以定位文档图像中的文本行text-lines并确定其阅读顺序。然后，字符识别引擎处理文本行图像，并通过识别文本行图像中的单个字符生成文本字符串。最后，语言建模模块使用字典或语言模型对文本字符串进行更正。

由于布局分析是该过程的第一步，因此所有后续阶段都依赖于布局分析才能正确工作。布局分析面临的主要挑战之一是检测表区域。表检测是一个困难的问题，因为表的布局有很大的变化。现有的开源OCR系统缺乏表检测能力，其布局分析模块在存在表区域时失效。在这个阶段应该区分表检测和表识别[8]。表检测处理在页面图像中查找表边界的问题。另一方面，表识别侧重于通过查找所检测到的表的行和列来分析表，并试图提取表的结构。本文的重点是表检测问题。

表检测和识别的先驱工作之一是Kieninger等人[11,10,12]。他们开发了一种被称为T-Recs的表定位和结构提取系统。系统依赖于单词包围框作为输入。通过构建“分割图”，将这些词框以自底向上的方法聚为区域。如果满足一定的条件，则将这些区域指定为候选表区域。该方法的主要局限性是仅基于单词框，不能非常准确地处理多列布局。因此，它只适用于单列页面。

Wang等[20]对表检测问题采用了统计学习方法。给定一组候选文本行，将根据连续单词之间的间隙识别候选表行。然后，将具有大间距的垂直相邻行和水平相邻单词组合在一起，以生成表实体候选。最后，采用基于统计的学习算法对候选表进行优化，减少误报。他们假设最大栏数为2，设计了3种页面布局模板(单栏、双栏、混合栏)。他们应用列样式分类算法来找出页面的列布局，并将此信息作为发现表区域的先验知识。这种方法只能处理经过训练的那些布局。此外，训练算法需要大量的标记数据。

Hu等人[6]提出了一种从扫描的页面图像或纯文本文档中检测表的系统。他们的系统假设一个单列输入页面，可以很容易被分割成单独的文本行(例如通过水平投影)。然后，表检测问题被提出为一个优化问题，其中属于表的开始和结束文本行通过优化一些质量函数来识别。与以前的方法一样，这种技术不能应用于多列文档。

在[7]中，Hu等人在UW-III数据集[5]上使用地真区域信息(为每个地真区域确定它是否是表)评估了他们的表检测算法。这种评估是不实际的，因为将表划分为单个区域实际上是表检测系统中比较困难的部分。这更接近于文档区域分类的方向[21,9]，其目标是将每个分割的文档区域分配到一组预定义的类中(文本、数学、表格、半色调……)．

Cesarini等[2]提出了一种通过检测平行线来定位表区域的系统。以这种方式形成的表格假设，然后通过在平行线之间的区域中定位垂直线或空白来验证。但是，仅仅依靠水平线或垂直线进行表检测限制了系统的范围，因为不是所有的表都有这样的直线。最近在表检测方面的工作由Gatos等[4]和Costa e Silva[3]报道。Gatos等[4]专注于定位同时具有水平和垂直规则的表，并找到它们的交点。然后，通过绘制连接所有交点对的相应水平

最低0.47元/天解锁文章

zhugeheihei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
异构文档的表格检测

在文档图像中检测表是很重要的，因为不仅表包含重要信息，而且大多数布局分析方法在文档图像中存在表时都失败了。现有的表检测方法主要集中在检测单列文本中的表，在不同布局的文档上工作不可靠。本文提出了一种实用的表检测算法，该算法对不同布局的文档(公司报告、报纸文章、杂志页面等)具有较高的准确性。．该算法的开源实现作为Tesseract OCR引擎的一部分提供。该算法对公开的UNL V数据集的文档图像进行了评估，与商业OCR系统的表检测模块相比，显示出具有竞争力的性能。
复制链接

扫一扫