【论文阅读】SLOAN: Scale-Adaptive Orientation Attention Network for Scene Text Recognition

[2021-TIP] SLOAN: Scale-Adaptive Orientation Attention Network for Scene Text Recognition

原文链接:link

Abstract

现有的识别方法致力于处理几何规则或不规则的场景文本。它们局限于语义取向任意的场景文本。同时,以往的场景文本识别器通常学习不同尺度字符的单尺度特征表示,不能对不同字符的有效上下文进行建模
本文提出了一种基于尺度自适应的任意方向场景文本识别定向注意网络,包括a dynamic log-polar transformer and a sequence recognition network。其中,动态对数-极坐标转换器通过学习对数极坐标原点,自适应地将场景文本的任意旋转和尺度转换为对数极坐标空间的位移,有助于生成具有旋转感知和尺度感知的视觉表示。其次,序列识别网络是一个编码器-解码器模型,它包含了一个新的字符级感受野的注意模块,为不同尺度的字符编码更有效的上下文。整个架构可以端到端的方式进行训练,只需要单词图像及其对应的ground-truth文本。在多个公共数据集上的大量实验证明了该方法的有效性和优越性。

Introduction

场景文本识别在深度学习时代取得了很大的进步,但由于场景因素(如背景杂乱、光照不均匀等)和场景文本自身的特点(如各种字体、不规则布局等),它仍然具有挑战性。在过去的几年里,许多场景文本识别方法被提出。然而,它们大多不涉及语义上的任意取向场景文本,而这种场景文本广泛存在于现实世界的许多应用中。这些语义取向任意的场景文本主要来自两个方面。一是它们来自自然图像,另一种是它们是由现有的检测器产生的
fig1

任意方向场景文本识别的示例。橙色区域显示识别结果。青色框是缩放后的文本实例。黄色点和绿色点分别是检测到的包围框的第一个角点和第四个角点。黑色箭头表示检测到的以角α表示的几何方向。蓝色箭头表示以角α '表示的语义方向。虚线表示水平方向从左到右。
此外,在这些任意取向的场景文本中,不同的字符可能具有不同的尺度。例如,字符“M”的尺度与“i”的尺度不同,如图1 (a)所示。这些不同的字符尺度也会影响场景文本的识别精度。

在识别网络中,生成的序列特征与输入图像中称为感受野的矩形区域相关联。从理论上讲,感受野的大小取决于网络的结构。
对于以前的场景文本识别器,它是固定的、单尺度的。采用这种大小固定、尺度单一的感受野并不适合所有类型的字符。当感受野较小时,可能只会覆盖较大字符的一部分,无法捕捉到判别空间语境。当感受字段较大时,可能会覆盖多个字符,无法捕捉到有区别的细节。因此,这种大小固定、尺度单一的接受野不利于对不同尺度的个体特征进行区分性特征表征的编码。

Contribution

  • 识别具有更广泛方向的场景文本,并收集了一个新的数据集来支持任意语义方向的场景文本检测、识别和spotting。
  • 引入了一个动态对数极转换器,以弱监督的策略学习任意方向场景文本的旋转感知和尺度感知特征,可以显著提高识别性能。
  • 提出了一种字符级感知场注意机制,对不同尺度下的个体字符学习更具识别力的表征,这是一种尺度自适应技术,可以有效地获得更高的精度。

Methodology

提出的模型包括三个模块:the dynamic log-polar transformer, the scale-adaptive feature encoder and the text sequence decoder.

具体来说,在给定一幅输入图像的情况下,我们首先构造一个动态对数极变换器,将灰度空间中的图像变换为对数极空间中的特征表示。然后将对数极表示输入到尺度自适应特征编码器中,利用字符级接受域注意实现序列表示。最后,给出序列表示作为文本序列解码器网络的输入来识别文本。总体架构如图3所示,它可以以端到端方式进行训练。

图3

Dynamic Log-Polar Transformer(DLPT)

为了构造动态对数极转换器(DLPT),关键参数是原始点,需要预先定义。与传统的以图像中心为原点的预测方法不同,我们提出了一种对数极坐标(LPO)预测网络来确定原点。引入动态对数极坐标原点的优点在于,它可以自适应地将任意的旋转和尺度转换为对数极坐标空间的移动,方便了可视化表示的提取。另外,场景文本的识别主要依赖于字符的形状,因此我们首先将原始RGB图像转换为灰度图像。转换过程见原文公式。

在这里插入图片描述

Scale-Adaptive Feature Encoder

在feature encoder network网络中,首先将log-polar的特征表示J送入深层特征提取器(deep feature extractor (DFE))来提取一维特征表示:
在这里插入图片描述
为了实现对不同尺度特征的适应性感受野,我们引入了字符级感受野注意机制(a character-level receptive field attention (CRFA) mechanism)。
在这里插入图片描述

如图5所示,多尺度特征 在这里插入图片描述映射中的激活与不同大小的感受野有关,可以通过递归公式计算:
在这里插入图片描述

式中,R^l_i 为第i个量表在第l层的感受野大小。s^l_i l、r^l_i 和κ^l_i是相应的步幅大小、扩张速率和核大小。对于标准卷积层和池化层,膨胀率ri l固定为1。

在卷积滤波器的基础上,利用不同的膨胀率生成多尺度特征,然后根据学习到的注意权重进行融合,注意力权重W:
在这里插入图片描述

因此,自适应代表性特征可以计算为:
在这里插入图片描述

fij可以看作是特征地图上第j个位置的第i种感受野对应的表示。q j∈R d表示第j个位置的注意特征向量。

Text Sequence Decoder

在第t步,序列注意权α t∈R L计算为:
在这里插入图片描述

Experiments

Datasets

本文提出了一个新的数据集ASOT(Arbitrarily Semantic-Orientation Texts in the natural image)包含406幅图片的3001个场景文本实例。每个场景文本实例都由四个角点和相应的单词进行标注。图6给出了一些例子。文本实例的语义方向在[0◦,360◦]中是均匀分布的,文本实例的单词长度也是不同的。它们的统计信息如图7所示。
在这里插入图片描述

在这里插入图片描述

Results

在这里插入图片描述

在这里插入图片描述

其他ablation study见原文。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值