异构文档的表格检测

摘要:在文档图像中检测表是很重要的,因为不仅表包含重要信息,而且大多数布局分析方法在文档图像中存在表时都失败了。现有的表检测方法主要集中在检测单列文本中的表,在不同布局的文档上工作不可靠。本文提出了一种实用的表检测算法,该算法对不同布局的文档(公司报告、报纸文章、杂志页面等)具有较高的准确性。. 该算法的开源实现作为Tesseract OCR引擎的一部分提供。该算法对公开的UNL V数据集的文档图像进行了评估,与商业OCR系统的表检测模块相比,显示出具有竞争力的性能。

关键词:页面分割、表格检测、文档分析

1、介绍

纸质文档自动转换为可编辑的电子表示依赖于光学字符识别(OCR)技术。一个典型的OCR系统包括三个主要步骤。首先,执行布局分析以定位文档图像中的文本行text-lines并确定其阅读顺序。然后,字符识别引擎处理文本行图像,并通过识别文本行图像中的单个字符生成文本字符串。最后,语言建模模块使用字典或语言模型对文本字符串进行更正。

由于布局分析是该过程的第一步,因此所有后续阶段都依赖于布局分析才能正确工作。布局分析面临的主要挑战之一是检测表区域。表检测是一个困难的问题,因为表的布局有很大的变化。现有的开源OCR系统缺乏表检测能力,其布局分析模块在存在表区域时失效。在这个阶段应该区分表检测和表识别[8]。表检测处理在页面图像中查找表边界的问题。另一方面,表识别侧重于通过查找所检测到的表的行和列来分析表,并试图提取表的结构。本文的重点是表检测问题。

表检测和识别的先驱工作之一是Kieninger等人[11,10,12]。他们开发了一种被称为T-Recs的表定位和结构提取系统。系统依赖于单词包围框作为输入。通过构建“分割图”,将这些词框以自底向上的方法聚为区域。如果满足一定的条件,则将这些区域指定为候选表区域。该方法的主要局限性是仅基于单词框,不能非常准确地处理多列布局。因此,它只适用于单列页面。

       Wang等[20]对表检测问题采用了统计学习方法。给定一组候选文本行,将根据连续单词之间的间隙识别候选表行。然后,将具有大间距的垂直相邻行和水平相邻单词组合在一起,以生成表实体候选。最后,采用基于统计的学习算法对候选表进行优化,减少误报。他们假设最大栏数为2,设计了3种页面布局模板(单栏、双栏、混合栏)。他们应用列样式分类算法来找出页面的列布局,并将此信息作为发现表区域的先验知识。这种方法只能处理经过训练的那些布局。此外,训练算法需要大量的标记数据。

       Hu等人[6]提出了一种从扫描的页面图像或纯文本文档中检测表的系统。他们的系统假设一个单列输入页面,可以很容易被分割成单独的文本行(例如通过水平投影)。然后,表检测问题被提出为一个优化问题,其中属于表的开始和结束文本行通过优化一些质量函数来识别。与以前的方法一样,这种技术不能应用于多列文档。

       在[7]中,Hu等人在UW-III数据集[5]上使用地真区域信息(为每个地真区域确定它是否是表)评估了他们的表检测算法。这种评估是不实际的,因为将表划分为单个区域实际上是表检测系统中比较困难的部分。这更接近于文档区域分类的方向[21,9],其目标是将每个分割的文档区域分配到一组预定义的类中(文本、数学、表格、半色调……).

       Cesarini等[2]提出了一种通过检测平行线来定位表区域的系统。以这种方式形成的表格假设,然后通过在平行线之间的区域中定位垂直线或空白来验证。但是,仅仅依靠水平线或垂直线进行表检测限制了系统的范围,因为不是所有的表都有这样的直线。最近在表检测方面的工作由Gatos等[4]和Costa e Silva[3]报道。Gatos等[4]专注于定位同时具有水平和垂直规则的表,并找到它们的交点。然后,通过绘制连接所有交点对的相应水平

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值