Character Region Awareness for Text Detection(1)

18 篇文章 1 订阅
4 篇文章 0 订阅

文本检测算法:CRAFT
一、摘要
基于神经网络的场景文本检测方法近来才出现并在文本检测中取得很好的结果。过去的神经网络使用(world-level)以单词为边界数据集训练算法。使用该方法训练后的模型在检测任意形状表示的文本区域存在一定的缺陷。本文提取了一种新的场景文本检测方法,通过字符之间的亲和力(affinity)来有效的检测文本区域。
为了克服缺少单个字符级注释问题,我们提出的框架即利用了合成图像的字符集注释还通过合成图像训练出模型检测出的真实图像的预估字符。为了估计字符之间的亲和力,使用新提出的亲和力来训练网络。在TotalText和CTW-1500数据集等在内六个基准数据集中大量实验表明。我们的字符检测显著优于最先进的检测器。实验结果表明,该方法在检测复杂场景文本图像。如任意方向、弯曲或变形文本时,具有很高的灵活性。
二、简介
场景文本检测在即时翻译,图像检索,场景解析,地理定位,盲导航等众多领域可以应用,场景文字检测最近获取的关注比较多,因为它在上述领域都可以应用。近年来,基于深度学习的场景文本检测器表现很突出。但是这些方法主要训练他们的网络来定位单词级的边界框。而且在一些困难的情况下受到影响,例如,弯曲,变形,非常长的文本。这些都很难用单个边界框检测到。 换个角度来说,字符级别标注,在处理具有挑战性文本时,通过自下而上的方式连接连续的字符。然而现在大部分数据集不提供字符级的注释,而且获取字符集的标注的成本很高。
在本文中,我们提出了一种新的文本检测器,它可以定位单个字符区域并将其连接起来。我们的框架被称CRAFT。针对文本检测中的字符区域识别问题,设计了一种卷积神经网络,通过引入字符区域得分和亲和力得分来实现文本检测。
区域分数用于定位图像中的单个字符,而相似性分数用于将每个字符组合成为一个文本实例。为了弥补字符级标注的不足,我们提出了一个弱监督学习框架,该框架可以在现有的单词级别标注数据集中估计字符级的标注。
图1是CRAFT在不同形状文本上的检测结果可视化。 通过利用字符级别的标注,可以很简单的展示各种类型文本。我们在ICDAR数据集上进行了大量的实验来证明我们的方法,实验表明该方法的性能优于现有的文本检测方法。此外在MSRATD500,CTW-1500和Total数据集上的实验证明,该方法在复杂情况下,如长文本,曲线文本或任意形状文本有很高的灵活性。
三、相关工作
在深度学习出现之前,场景文本检测的主要趋势是自底向上的,在手工制作的特征中,主要使用MSER或SWT作为基本组件。近年来基于深度学习的文本检测器通过采用SSD,FASTER-RCNN,FCND等流行的对象检测/分割方法被提出。
基于回归的文本检测器:许多文本检测是是由主流的物体检测器(基于盒回归)改编的。与一般物体不同的是,文本通常以不同长宽比的不规则形状呈现。为了解决这个问题,textbox修改了卷积核和锚定框以有效地捕捉各种形状的文本。DMPNET试图通过添加四边形滑动窗口来进一步减少这个问题。近年来,通过主动旋转卷积滤波器来充分利用旋转不变性特征的RSSD方法被提出。然而在使用这个方法的时候有一个结构化限制当在野外捕捉所有可能的形状。
基于分割的文本检测器:另一种常见的方法就是基于分割的方法。其目的是在像素级找到文本区域。这些是通过估计单词边界区域检测文本的方法。如multi-FCN、Holistic-prediction和pixelsink等,都是分割为基础的。SSTD试图从回归和分割两种方法中获益,通过使用attention机制在特征层上减少背景干扰来增强文本相关区域。最近,TextSnake被提出通过预测文本区域和中心线以及几何属性来检测文本实例。
端到端的文本检测器:端到端方法同时训练检测和识别模块,利用识别结果提高检测精度。FOTS和EAA将流行的检测和识别方法串联起来,并以端到端的方式对它们进行训练。Mask-TextSpotter利用他们统一的模型将识别任务视为一个语义分割问题。很明显,使用识别模块进行训练有助于文本检测器对类似文本的背景杂波更加健壮。
大多数方法都是以单词为单位来检测文本,但是定义单词的范围是非常重要的,因为单词可以通过不同的标准来区分,比如意义、空格或颜色。另外,分词的边界不能严格界定,分词本身没有明确的语义意义。单词注释中的这种模糊性削弱了回归和分割方法中基本事实的含义。
字符水平的文本检测器:Zhang等人提出了一种利用MSER提取文本块候选字符的字符级检测器。它使用MSER来识别单个字符的事实限制了它在某些情况下的检测鲁棒性,例如低对比度、曲率和光反射的场景。Yao等人[37]使用了字符的预测图以及需要字符级注释的文本单词区域和链接方向图。Seglink不是显式的字符级预测,而是搜索文本网格(部分文本片段),并将这些片段与附加的链接预测相关联。尽管Mask TextSpotter预测了字符级别的概率图,但它被用于文本识别而不是识别单个字符。
这项工作的灵感来自WordSup的思想,它使用弱监督框架来训练字符级检测器。然而,Wordsup的一个缺点是字符表示是在矩形锚中形成的,这使得它容易受到摄像机视角变化引起的字符透视变形的影响。此外,它还受主干结构性能的限制(即使用SSD并受锚盒数量和尺寸的限制)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值