Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

Mask TextSpotter

 

摘要

 

Mask TextSpotter利用了端对端学习流程的简单和顺利的优势,通过语义分割获得更准确的文本检测和识别。而且,在处理不规则形状的文本实例中,如弯曲文本,优于之前的方法。

 

  1. 引言

近年来,场景文本检测和识别逐渐吸引了机器视觉领域中的研究兴趣,尤其是在神经网络复兴及图像数据集增长后。由于文本检测和识别提供了一个自动快速的方法来获得在自然场景中包含的文本信息,有利于很多真实世界的应用,如地理定位、即时翻译和辅助盲人。

Scene text spotting旨在同时定位和识别自然场景中的文本,在之前有很多工作研究。但是,大多数工作中,除了【27】和【3】,文本定位和后续的识别是分开处理的。首先用一个训练好的检测器从原始图片中获得文本区域,然后送到识别模块。这个流程看似简单自然,但是可能导致对于检测和识别不是最优的结果,因为这两个任务有着很高的相关性和互补性。一方面,检测质量很大程度决定了识别准确率;另一方面,识别结果可以反馈回去帮助检测阶段去除错误的正样本(FP)。

最近,针对场景文本spotting,提出了两个端对端训练的网络框架。受益于检测和识别之间的互补性,这些统一的模型很大程度上由于之前的方法。但是,在【27】和【3】中有两个主要的缺点。首先,它们都不能完全以端对端的形式进行训练。【27】在训练阶段用了课程学习模式,这里用于文本识别的自网络在前边的迭代中固定,每个阶段的训练数据也是很仔细的选择。【3】首先是分开预训练网络的检测和识别,然后联合训练直到收敛。这里主要有两个原因阻止【27】和【3】以一个流畅的端对端的形式进行模型训练。一是,文本识别部分在训练时要求准确的定位,同时在早期的迭代中定位通常是不准确的。另外,适用的LSTM和CTC loss比普通的CNN难优化。【27】和【3】的第二个限制是这些方法只关注阅读水平或有角度的文本。但是在真实世界场景中的文本实例的形状可能变化很大,形成水平的、多方向的及弯曲的形式。

在本文中,我们提出了个名为Mask TextSpotter的文本spotter,可以检测和识别任意形状的文本实例。这里,任意形状表示在真实世界中的各种形式的文本实例。受可以生成目标的形状掩模的Msak R-CNN的启发,我们通过分割实例文本区域来检测文本。因此我们的检测器可以检测任意形状的文本。除此之外,不同于之前的基于序列的识别方法,设计一维序列,我们通过在2-D的语义分割来识别文本,来解决理解不规则文本实例。另外一个优势就是识别不要求准确的定位。所以,检测任务和识别任务可以完全进行端对端的训练,受益于特征共享和联合优化。

我们在包括水平、多方向和弯曲文本的数据集上验证了我们模型的有效性。结构说明了提出算法在文本检测和端对端的文本识别任务的优势。明确地,在ICDAR2015上,在单一尺度评估,我们的方法在检测任务上获得0.86的F-Measure,比之前端对端是别人五中最高的效果高了13.2%-25.3%。

本文的主要贡献有四部分。(1)、我们针对文本spotting提出了一个可端对端训练的模型,一个简单流畅的训练方案。(2)、提出的方法可以检测和识别各种形状的文本,包括水平、多方向及弯曲文本。(3)、与之前的方法对比,我们的方法通过语义分割获得了准确的文本定位和识别。(4)、我们的方法在很多基准上,在文本检测和文本spotting上都获得了最优的效果。

 

 

  1. 相关工作

2.1、场景文本检测

在场景文本识别系统中,文本检测扮演着重要的角色。已经提出了大量的方法来检测场景文本。【21】中,Jaderberg等人用Edge Boxes生成候选框,然后用回归来微调候选框。【54】Zhang等人利用文本的对称性来检测场景文本。用精心的设计修改来改进Faster R-CNN和SSD,【56】和【30】被提出来检测水平文字。

近年来多方向场景文本检测成为了很热的话题。【52】Yao等人和【55】Zhang等人通过语义分割来检测多方向场景文本。【48】Tian和【43】Shi提出的方法是首个检测文本片段,然后通过空间关系或连接预测将其连接为文本实例。【57】Zhou和【16】He直接从密集分割图来回归文本框。【35】Lyu等人提出检测文本的角点并将其分组,然后生成文本框。【31】Liao提出了针对多方向场景文本检测的方向敏感回归。

对比流行的水平或多方向的场景文本检测,这里很少有工作关注任意形状的文本实例。最近,由于现实生活中的应用需求,任意形状的文本检测吸引了越来越多研究者的关注。在【41】中,Risnumawan等人提出了一个基于文本对称性的任意文本检测系统。在【4】中,提出了一个关注曲线方向文本检测的数据集。不同于上边提到的大部分方法,我们提出了通过实例分割来检测场景文本,可以检测任意形状的文本。

 

2.2、场景文本识别

场景文本识别【53】、【46】旨在将检测到的或者分割出的图片区域编码为字符序列。之前的场景文本识别方法可以大概分为三个分支:基于字符的方法、基于单词的方法和基于序列的方法。基于字符的识别方法【2】、【22】大多数首先定位单个字符然后识别再将其组合为单词。在【20】中,Jaderberg等人提出基于单词的方法,将文本识别看作是通常的英文单词(90k)的分类问题。基于序列的方法将文本识别看作是序列标签问题来解决。在【44】中,Shi等人用CNN和RNN来构建图像特征,用CTC输出识别序列。在【26】、【45】中,Lee等人和Shi等人通过基于注意力的序列-序列的模型来识别场景文本。

在我们提出的框架中的文本识别部分可以分为基于字符的方法。但是,对于之前基于字符的方法,我们用FCN同时定位和分类字符。此外,和设计为1-D序列的基于序列的方法对比,我们的方法更适合处理不规则文本(多方向文本、

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值