作者和相关链接
- 代码链接:caffe代码传送门
摘要
在自然图像当中的文本检测与识别一直被认作是顺序处理的两个相对独立的任务。由于学习困难和收敛率存在显着差异,因此共同培训两项任务并非易事。在这项工作当中,我们呈现了一个迄今为止简单高效的框架,它能在一个统一的架构当中连续性的处理两个任务。我们的主要贡献包括以下的三个方面:(1)我们提出了一种新的文本对齐层,该层能够计算任意方向下文本实例的卷积特征,这是提升性能的关键。(2)通过使用字符空间信息作为明确的监督机制,我们引入了字符注意力机制,这在识别上给予了很大的提升。(3)两步策略,加上一个新的RNN支流用作于单词识别,可以无缝集成到单个模型当中,而这个模型是端到端可训练的。它允许两个任务协同通过分享卷积特征进行合作,这对于识别具有挑战性的文本实例至关重要。我们的模型以端到端的识别方法在ICDAR2015上取得了优秀的结果,很大程度上优于当前的一些结果,它将F指标从(0.54,0.51,0.47)提升到了(0.83,0.77,0.63),分别对应使用强、弱和中等词库。通过联合训练,我们的方法还可以通过在相关基准上实现最先进的检测性能,成为一个良好的检测器。
介绍
文本发现的意图是从输入的自然图像中找到对应的文本映射成文本序列。因为他的应用广泛,在视觉领域越来越具有着吸引力。最近的一些工作证明了在深度学习的大潮里,它实现了很大的进步。但是文本发现仍旧存在着一个开放性的问题,因为呈现的文本实例在字体、尺度以及方向上呈现多样性,并伴随着各种的光照效果,他们通常来自于高度复杂的背景。
早期的文本识别通常将其认作是两步的任务,文本检测与字符识别,他们通常是顺序实现的。最近对于文本检测的方法主要扩展于通用的目标检测器(例如Faster R-CNN以及SSD),这些方法能直接复原每个文本实例的边界框,或者利用语义分割方法(例如FCN)预测每个像素在文本或者非文本的可能性。通过精细的设计,这些方法能很好地适应特定的任务,并且达到最为先进的效果。单词的识别可以被转换成序列标签的问题,最近在其中采用了卷积循环模型。其中一些更进一步的引入了一种注意力机制得到了性能的提升。然而,单独训练两个网络并没有充分的利用卷积网络的潜能,其中的卷积特征没有共享。
因为Mask R-CNN在Faster R-CNN上进行改进使得它可以在目标检测任务的基础上完成实例分割,也就是说这个模型可以同时完成多个任务。作者受到Mask R-CNN的启发,但是和从输入图片到一些列的字符序列之间得到映射关系有所区别。作者们的做法是在文本检测框架上创建一个递归序列模型分支进行文本识别,其中单词识别的递归神经网络(RNN)是与检测任务并行处理的。
但是,由于检测与识别任务的差异性,具体来讲基于RNN的识别支流的反向传播与时间又很大关系,明显的是相比较与检测任务的边界框回归更加难以优化,这样设计得到的网络结构导致连接训练出现困难。此外简单的使用一些字符序列很有可能导致无法的到有效的集中的模型,最终造成模型难以收敛。在这项工作当中,作者在词和字符层面引入了强的空间约束,它允许通过在每一步减少搜索空间去优化模型。
主要贡献
提出了一种端到端的文本检测与识别方法。作者们提出一种解决方案,它可以在多方向文本检测器上结合一个文本对齐层,并与字符注意力机制一起明确地编码强字符空间信息到RNN的支流。这两种技术是提示性能的关键。同时作者还提出了一种学习策略,它允许两个任务共享卷积特征进行协作训练。
图2 整体网络架构
第一,通过网格采样机制引入文本对齐层而没有使用传统的ROI池化方法。他计算了固定长度的卷积特征,这些特征能够精确地对齐到检测到的任意方向的文本区域,能成功的避免在ROI池化当中由方向或者量化因子造成的负面效应。
第二,作者通过使用字符空间信息作为额外的监督引入了字符注意力机制,这种明确地编码字符的强空间注意力到模型当中,能使得RNN在解码时集中关注当前的注意力特征,使得单词识别的性能提升。
第三,两种方法,伴随着新的RNN支流进行单词识别,被优雅的集成到CNN的检测框架上,导致了单个模型可以义一种端到端的方式训练。我们提出了一种原则以及直观的学习策略,它允许两种任务共享特征高效的训练,并能快速的收敛。
第四,作者通过实验展示了在他们的模型当中,单词的识别可以很有效的促进检测的精度,展示了这是一个很强大的补充,这在这项特定的领域里是独一无二的。
相关工作
相关工作对场景文本检测以及场景文本识别做了一个简单的介绍,并列出了当前先进的一些成果,这里不是重点,所以不做分析。当然在本篇文章之前也有过些端到端的成果,作者首先说明了什么是端到端的识别,接下来挑出了两篇论文做出了评价(批判),说出他们做的还存在的缺陷,比如Li等人的成果采用ROI池化方法,限制了只能检测水平的样本。Busta等人提出了深度文本观测器,但是并没有使用到端到端的特征共享,即后面过程识别过程中所造成的损失并没有对前面定位的结果造成影响。这里视乎明白了写论文的那么一点点的套路。
端到端的文本检测器
这里就是要对作者做出的细节内容做出一定的阐述了。作者的模型是一种建立在PVAnet框架上的全卷积架构。如上图2所示,作者引入一种新的递归支流进行进行单词识别,他被集成到我们的CNN模型中,