SRN模型

最新推荐文章于 2024-12-09 15:36:29 发布

猛男技术控

最新推荐文章于 2024-12-09 15:36:29 发布

阅读量4.5k

点赞数 2

分类专栏： OCR 文章标签： python 计算机视觉神经网络算法

CSDN小白不白

本文链接：https://blog.csdn.net/weixin_45755332/article/details/115900296

版权

OCR 专栏收录该内容

19 篇文章

订阅专栏

SRN模型

场景文本图像包含两个级别的内容：视觉纹理和语义信息。尽管过去的几年中场景文本识别方法取得了长足的进步，但是挖掘语义信息以辅助文本识别的研究却很少受到关注，仅探索类RNN的结构来隐式地建模语义信息。但是，我们发现基于RNN的方法存在一些明显的缺点，如时间依赖的解码方式和语义上下文的单向串行传输，这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制，我们提出了一种新颖的端到端可训练框架，该框架称为语义推理网络（SRN），用于准确的场景文本识别，其中引入了全局语义推理模块（GSRM），以通过多路并行传播捕获全局语义上下文。最新的7个公共基准测试结果（包括常规文本，不规则文本和非拉丁长文本）验证了该方法的有效性和鲁棒性。此外，与基于RNN的方法相比，SRN的速度具有明显的优势，证明了其在实际使用中的价值。

1. 介绍

图 1.

文本具有丰富的语义信息，已在许多基于计算机视觉的应用程序中使用，例如自动驾驶，旅行翻译，产品检索等。场景文本识别是场景文本阅读系统中的关键步骤。尽管在过去的几十年中，序列到序列的识别取得了一些显着的突破，但是由于场景文本的颜色，字体，空间布局甚至是不受控制的背景的巨大变化，自然场景文本识别仍然是一个巨大的挑战。

最近的大多数工作都试图从提取更健壮和有效的视觉特征的角度来改善场景文本识别的性能，例如升级主干网络，添加纠正模块和改善注意力机制。然而，事实上对于人类来说，场景文本的识别不仅取决于视觉感知信息，而且还受高级文本语义上下文理解的影响。如图1所示的一些例子，当仅考虑视觉特征时，尤其是用红色虚线框突出显示的字符，很难分别区分那些图像中的每个字符。取而代之的是，考虑到语义上下文信息，人类很可能会根据总的单词内容来推断出正确的结果。

图 2.

不幸的是，对于语义信息，主流文本识别方法以单向串行传输的方式考虑它，从而递归地感知最后一个解码时间步的字符语义信息，如图2（a）所示。这种方式有几个明显的缺点：首先，它只能从每个解码时间步长感知非常有限的语义上下文，甚至在第一个解码时间步长都没有有用的语义信息。其次，当在较早的时间步上出现错误的解码时，它可能会传递错误的语义信息并导致错误累积。同时，串行模式很难并行化，因此总是耗时且效率低下。

在本文中，我们介绍了一种名为全局语义推理模块（GSRM）的子网结构来解决这些缺点。 GSRM以一种新颖的多路并行传输方式来考虑全局语义上下文。如图2（b）所示，多路并行传输可以同时感知单词或文本行中所有字符的语义信息，这更加鲁棒和有效。此外，单个字符的错误语义内容只能对其他步骤造成非常有限的负面影响。

此外，我们提出了一种新颖的名为语义推理网络（SRN）的框架，用于准确的场景文本识别，该框架不仅集成了全局语义推理模块（GSRM），而且还集成了并行视觉注意模块（PVAM）和视觉语义融合解码器（VSFD）。 PVAM旨在提取并行注意机制中每个时间步长的视觉特征，而VSFD旨在开发一种结合了视觉信息和语义信息的有效解码器。 SRN的有效性和鲁棒性已通过广泛的实验得到了证实，这些实验将在第4小节介绍。

本文的主要贡献是三方面的。首先，我们提出了一个全局语义推理模块（GSRM）来考虑全局语义上下文信息，它比单向串行语义传输方法更鲁棒和高效。其次，提出了一种用于场景文本准确识别的语义推理网络（SRN）框架，该框架有效地结合了视觉上下文信息和语义上下文信息。第三，可以以端到端的方式训练SRN，并在包括常规文本、不规则文本和非拉丁长文本在内的多个基准上达到最新的性能。

2. 相关工作

近年来，场景文本识别的研究取得了重大进展。在本节中，我们将首先回顾一些最近的文本识别方法，并根据是否使用语义信息将它们概括为两类：无语义上下文和语义上下文感知。此外，还将介绍一些流行的上下文建模结构。

没有上下文上下文的语义方法将场景文本识别视为纯粹的视觉分类任务，而无需显式使用任何语义信息。 CRNN首先结合CNN和RNN来提取给定文本图像的顺序视觉特征，然后将它们直接馈送到CTC解码器中以预测每个时间步长的最佳字符类别，其中CTC仅最大化了所有根据每个位置的视觉分类可到达真实标签路径的概率。为了减轻CTC损失的反向传播计算负担，Xie提出了聚合交叉熵（ACE）损失，以优化每个字符沿时间维度的统计频率，从而大大提高了效率。受到视觉分割成功的启发，Liao使用FCN通过像素级分类来预测每个位置的字符类别，并通过启发式规则将字符收集到文本行中。但是，此方法需要昂贵的字符级注释。 Jaderberg没有优化每个步骤的解码精度，而是直接使用CNN对90k种文本图像进行分类，每种文本图像代表一个单词。通常，这些方法会忽略以考虑语义上下文。

语义上下文感知方法尝试捕获语义信息以辅助场景文本识别。这些方法大多遵循单向语义传递的方式，例如，Lee将输入的文本图像水平编码为一维连续视觉特征，然后借助上一步的语义信息引导视觉特征进入相应区域。正如我们之前提到的，一些最新工作着重于如何挖掘更有效的视觉特征，尤其是对于不规则的文本。为了消除透视失真和分布曲率带来的负面影响，Shi在序列识别之前添加了一个整流模块，其中采用了具有多个偶数控制点对的空间变换网络。Zhan采用线拟合变换和迭代细化机制对不规则文本图像进行校正。 Yang还提出了一种基于丰富的局部属性的对称约束整流网络，以产生更好的整流结果。有一些方法可以通过增强空间视觉特征来缓解不规则文本识别的挑战。 Cheng提取了四个方向上的场景文本特征，并设计了一个过滤门来控制每个方向上特征的贡献。 Wojna在2D特征图上引入了空间坐标的附加编码，以提高对顺序的敏感性。但是，这些工作没有充分利用语义上下文信息，而这正是我们在本文中要重点讨论的内容。

上下文建模结构旨在捕获特定时间或空间范围内的信息。 RNN擅长捕获序列数据的依存关系，但其固有的顺序行为阻碍了训练和推理期间的并行计算。为了解决这些问题，ByteNet和ConvS2S直接使用CNN作为编码器。这些方法可以在训练和推理过程中完全并行化，以更好地利用硬件，但由于感受野大小的限制，无法灵活地捕获全局关系。近来，已经提出了变压器的结构以捕获全局依赖性并且以恒定的计算复杂度在任意位置处关联两个信号。此外，事实证明，变压器在计算机视觉和自然语言处理的许多任务中都是有效的。在本文中，我们不仅采用变压器来增强视觉编码功能，而且使用相似的结构来推理语义内容。

图 3.

3. 方法

SRN是一个端到端的可训练框架，由四个部分组成：主干网络、并行视觉注意模块（PVAM）、全局语义推理模块（GSRM）和视觉语义融合解码器（VSFD）。给定输入图像，首先使用主干网络提取2D特征V。然后，PVAM用于生成N个对齐的一维特征G，其中每个特征对应于文本中的一个字符并捕获对齐的视觉信息。然后将这N个一维特征G送入我们的GSRM中，以捕获语义信息S。最后，VSFD将对齐的视觉特征G和语义信息S融合在一起，以预测N个字符。对于小于N的文本字符串，将填充“ EOS”。 SRN的详细结构如图3所示。

3.1 主干网络

我们使用FPN汇总ResNet50的第3阶段、第4阶段和第5阶段的层次结构特征图作为主干网络。因此，ResNet50 + FPN的特征图大小是输入图像的1/8，通道数是512。受非本地机制的启发，我们还采用了由位置编码组成的转换器单元、多头注意力网络和前馈模块，可有效捕获全局空间依赖性。将2D特征图馈送到两个堆叠的变换器单元中，其中多头注意力的头数为8，前馈输出维数为512。此后，提取最终的增强2D视觉特征，表示为V，vij ∈ [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7o54uXVf-1618890730850)(https://www.zhihu.com/equation?tex=R%5Ed)] ，其中d = 512。

3.2 并行视觉注意力模块

注意机制广泛应用于序列识别。可以将其视为特征对齐的一种形式，其中输入中的相关信息与相应的输出对齐。因此，注意力机制用于生成N个特征，其中每个特征对应于文本中的一个字符。现有的基于注意力的方法是与时间项相关的而效率低下。在这项工作中，引入了一种称为并行视觉注意（PVA）的新注意方法，以通过消除这些障碍来提高效率。

通常，注意力机制可以描述如下：给定键值集（ki，vi）和查询q，计算查询q与所有键ki之间的相似度。然后，根据相似性将值vi汇总。具体来说，在我们的工作中，键值集是输入的2D特征（vij，vij）。在Bahdanau的注意中，现有方法使用隐藏状态 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-30wZdyIQ-1618890730855)(https://www.zhihu.com/equation?tex=H_%7Bt-1%7D)] 作为查询来生成第t个特征。为了使计算并行，将读取顺序用作查询，而不是与时间相关的Ht-1。文本中的第一个字符的阅读顺序为0。第二个字符的阅读顺序为1，依此类推。我们的并行注意力机制可以概括为：
在这里插入图片描述
其中 $W_e,W_o,W_u$ 是可学习的权重。 $O_t$ 是字符阅读顺序，它的值是0, 1, 2, …, N-1。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 $0, 1, . . . n - 1$ ，f0是嵌入函数。

基于PVA的思想，我们设计了并行视觉注意模块（PVAM），以对齐所有时间步的所有视觉特征。第t时间步的对齐视觉特征可以表示为：
在这里插入图片描述
由于计算方法与时间无关，因此PVAM并行输出所有时间步长的对齐视觉特征

如图4所示的一些注意图，所获得的注意力图可以正确注意相应字符的视觉区域，并很好地验证了PVAM的有效性。

3.3 全局语义推理模块

在本节中，我们提出了遵循多路并行传输思想的全局语义推理模块（GSRM），以克服单向语义上下文传递的缺点。首先，我们回顾了在Bahdanau注意机制（一种典型的RNN式结构）中最大化的概率公式。可以表示为以下形式：
在这里插入图片描述

其中 $e_{t}^{'}$ 被视为第t个标签 $e_t$ 的单词嵌入。在每个时间步骤中，类似于RNN的方法都可以在训练或推理过程中引用先前的标签或预测结果。因此它们以顺序方式工作，因为先前的信息f_r和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传只能在时间步t处捕获，这限制了语义推理的能力，并在推理过程中导致低效率。

为了克服上述问题，我们的主要想法是，我们使用与时间无关的近似嵌入 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zdaWt7F3-1618890730870)(https://www.zhihu.com/equation?tex=e%27)] 而不是使用实词嵌入e。这项改进可以带来很多好处。 1）首先，可以从等式中删除最后步骤Ht-1的隐藏状态值。这样，由于消除了所有与时间有关项，因此串行前传过程将以高效率升级为并行。 2）其次，允许将包括所有前一个字符和后一个字符的全局语义信息组合在一起并推理当前时间的适当语义内容。因此，概率表达式可以升级为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YAUTlwD8-1618890730871)(https://www.zhihu.com/equation?tex=p%28y_1y_2…y_N%29%3D%5Cprod_%7Bt%3D1%7D%5ENp%28y_t%7Cf_r%28e_1…e_N%29%2Cg_t%29%3D%5Cprod_%7Bt%3D1%7D%5ENp%28y_t%7Cf_r%28e_1%27…e_N%27%29%2Cg_t%29++%5Cqquad%284%29)]

其中 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B1PN4ICj-1618890730872)(https://www.zhihu.com/equation?tex=e_t%27)] 是第t个时间步长 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N7h3H6E8-1618890730873)(https://www.zhihu.com/equation?tex=e_t)] 的近似嵌入信息。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L4sm60Rl-1618890730873)(https://www.zhihu.com/equation?tex=f_r)] 表示可以在全局语义上下文和当前语义信息之间建立连接的功能。如果我们表示 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SgRlfmGm-1618890730875)(https://www.zhihu.com/equation?tex=s_t%3Df_r%28e_1…e_N%29)] 并且 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D7uIZxW5-1618890730875)(https://www.zhihu.com/equation?tex=s_t+)] 是语义信息S的第t个特征，则等式4可以简化为以下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mP4J0Z8C-1618890730876)(https://www.zhihu.com/equation?tex=p%28y_1y_2…y_N%29%5Capprox+%5Cprod_%7Bt%3D1%7D%5ENp%28y_t+%7Cs_t%2Cg_t%29%5Cqquad+%285%29)]

图 5. GSRM模块结构

继承上述精神，我们提出了GSRM，通过对等式4中的函数 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c3gwtkjE-1618890730878)(https://www.zhihu.com/equation?tex=f_r)] 进行建模，以使假设变为现实并从中受益。 GSRM的结构由两个关键部分组成：视觉到语义的嵌入块和语义推理块。

视觉语义嵌入块目的是用于生成 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fa5CO51f-1618890730879)(https://www.zhihu.com/equation?tex=e%27)] ，其详细结构如图5(a)所示。由于有了PVAM，我们获得的特征已经与每个时间步骤或每个目标字符保持一致。首先将对齐的视觉特征G馈送到具有softmax激活的全连接层，然后添加利用交叉熵损失的嵌入损失 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wHX7PEwm-1618890730880)(https://www.zhihu.com/equation?tex=L_e)] ，使它们更加集中在目标字符。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XM6ALeRD-1618890730881)(https://www.zhihu.com/equation?tex=L_e%3D-%5Cfrac%7B1%7D%7BN%7D%5Clog+p%28y_t%7Cg_t%29+%5Cqquad+%286%29)]

接下来，通过argmax运算和嵌入层，基于 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z5CqdhxL-1618890730882)(https://www.zhihu.com/equation?tex=g_t)] 的最可能的输出字符来计算嵌入向量 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tGVlsqCP-1618890730884)(https://www.zhihu.com/equation?tex=e_t%27)] 。

语义推理模块用于实现全局语义推理，即对等式4中的函数 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tbaV4bb3-1618890730885)(https://www.zhihu.com/equation?tex=f_r)] 建模。特别是，GSRM的结构如图5(b) 所示。

几个转换器单元后面都带有掩膜的e’，允许模型高效地感知全局上下文信息。同时，一阶关系和高阶关系（例如单词语义）都可以由多个转换器单元隐式建模。最后每个步骤的语义特征都通过该模块输出，该模块定义为S，st∈Rd，d =512。同时，推理损失Lr添加到s上。目标函数可以定义为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-daQ1tWud-1618890730886)(https://www.zhihu.com/equation?tex=L_r%3D-%5Cfrac%7B1%7D%7BN%7D%5Clog+p%28y_t%7Cs_t%29+%5Cqquad+%287%29)]

从语义信息的角度进行交叉熵损失以优化目标概率，这也有助于减少收敛时间。值得注意的是，全局语义是在GSRM中以并行方式推理的，这使得SRN的运行速度比传统的基于注意力的方法快得多，尤其是在长文本的情况下。

4. 实验

4.1 数据集

选择了六个拉丁语场景文本基准来评估我们的方法。

ICDAR 2013（IC13）包含1095张测试图像。我们会丢弃包含非字母数字字符或少于三个字符的图像。

ICDAR 2015（IC15）是使用谷歌眼镜拍摄的，位置和对焦不当。我们遵循相同的协议，并且仅使用1811个测试图像进行评估，而没有用一些严重失真的图像。

IIIT 5K单词（IIIT5k）是从网站上收集的，包含3000张测试图像。

Street View Text（SVT）具有从Google街景中裁剪的647张测试图像。许多图像被噪点、模糊和低分辨率严重损坏。

Street View Text-Perspective（SVTP）也从Google街景视图中裁剪而来。该组中有639张测试图像，其中许多图像均发生了畸变。

CUTE80（CUTE）被提出用于弯曲文本识别。通过使用带标注的单词，从完整图像中裁剪出288张测试图像。

4.2 实现细节

模型配置第3.1节中介绍了骨干网的详细信息。对于PVAM，在等式1中，We，Wo和Wv的大小为512，fo的嵌入维度为512。GSRM中的嵌入维度也设置为512。语义推理块由4个堆叠的转换器单元组成，其中头数为8，隐藏单元数为512。为了公平比较，在CTC、基于1D注意力和2D注意力的方法中采用了与我们的SRN相同的主干。 1D注意力和2D注意力中的注意力单元和隐藏单元的数量均设置为512。

数据扩充输入图像的大小为64×256。我们将原始图像的宽度随机调整为4个比例（例如64、128、192和256），然后将其填充为64×256。此外，还要进行一些图像处理旋转，透视变形，运动模糊和高斯噪声等操作会随机添加到训练图像中。类别数为37，包括0-9，a-z和“ EOS”。并且输出序列N的最大长度设置为25。

模型训练仅在两个合成数据集Synth90K和SynthText上训练提出的模型，而在其他数据集上不进行微调。我们在ImageNet上预先训练的ResNet50被用作我们的初始化模型，并且batch大小为256。训练分为两个阶段：热身和联合训练。在第一阶段，我们训练没有GSRM的SRN大约3个轮次。采用ADAM优化器，初始学习率为1e-4。在联合培训阶段，我们使用相同的优化程序对整个框架进行端到端训练，直到收敛为止。所有实验均在配备8个NVIDIA P40显卡的工作站上实现。

4.3 消融实验

4.3.1 关于主干网络和PVAM的讨论

表 1.

我们的SRN在主干中利用了变压器单元，并在PVAM中添加了字符阅读顺序信息，以捕获全局空间依赖性。如表1所示，我们的带变压器单元的主干网在所有基准上的性能都比不带的网络高出至少3％，这证明了由变压器单元捕获的全局视觉上下文的重要性。如表1所示，使用字符阅读顺序在大多数公共数据集中特别是对于CUTE，可以获得的收益。在一些简单任务上的性能会稍有提高，是因为没有注意力机制实际上能够通过数据驱动的训练隐式捕获阅读顺序。

4.3.2 关于GSRM的讨论

表 2.

为了评估GSRM在语义推理中的有效性，我们比较了使用/不使用GSRM的实验得出的结果。此外，还探讨了GSRM中的变压器单元数量。如表2所示，GSRM在IIIT5K中实现了1.5％，0.2％，0.8％，0.3％的连续增益，在IC15中实现了4.2％，0.9％，0.1％，0.0％的连续增益，而变压器单元的数量设置为1、2 ，4和6。这表明语义信息对于文本识别非常重要，并且GSRM能够利用这些信息。由于4-GSRM的性能与6-GSRM相似，因此在其余实验中采用4-GSRM以保持可控的计算量。

为了演示全局语义推理策略的好处，我们将我们的方法与两个变体进行了比较：一个仅向前运行，另一个向后运行以捕获单向语义信息。此外，比较中还包括两种典型的文本识别方法，即基于CTC和2D注意的方法，以证明我们优于现有的无语义上下文方法和语义上下文感知方法。如表3所示，所有语义上下文感知方法都优于无语义上下文方法（基于CTC的方法），这突出了语义信息的重要性。此外，在大多数基准测试中，具有全局语义推理的GSRM在准确性上要优于具有单向语义推理的GSRM约1％，从而证明了多向语义推理的有效性。

4.3.3 关于特征融合策略的讨论

表 4.

在本文中，我们介绍了一种新颖的特征融合策略，即门控单元，在第3.4节中有介绍。在本节中，我们进行实验以将VSFD与三种不同的特征融合方法（包括加法，串联和点乘）进行比较。表4表示其他三个融合操作将在一定程度上导致基准性能下降。因此，在我们的方法中默认使用VSFD。

4.3.4 对于正确、错误case的分析

图 6.

为了说明语义信息如何帮助SRN改善性能，我们从基准中收集了一些个案，以比较具有/不具有GSRM的SRN的预测。如图6所示，例如，由于字符“ r”在视觉上类似于带有单词“ Vernon”的图像中的字符“ c”，因此没有GSRM的预测错误地给出了字符“ c”，而带有GSRM的预测借助全局语义上下文正确地推断字符“ r”。 “ sale”中的字符“ e”，“ precious”中的字符“ r”和“ herbert”中的字符“ n”由相同的工作模式处理。

图 7.

SRN的失败情况如图7所示，可以分为两类：1）SRN不能插入或删除字符，而只能修改错误的字符。如果视觉特征对齐错误或缺少某些字符，则SRN无法推断正确的字符，例如“ snout”和“ shining”。 2）当视觉和语义环境均无法识别图像时，SRN可能无法工作，因为SRN的获得主要是由于视觉特征和语义特征的互补。当图像遭受特殊字体或质量低下并且其中的单词很少出现在训练数据中时，SRN很难获得视觉上下文和语义依赖性，如图7中的第二行所示。

4.4 与先进算法进行比较

表 5.

表5显示了我们的方法与以前的出色方法的比较。我们仅比较没有任何词典的结果，因为在实际使用中，在识别之前，词典始终是未知的。一般而言，上下文感知方法的性能要优于无上下文方法，SRN在六个公共数据集上均具有优异的性能，这证明了该特殊设计的模块与现有技术相比，可以更好地利用语义信息。对于常规数据集，我们在 IC13，IIIT5K和SVT分别提高了0.2％，0.4％，0.9％。 SVT的增益比其他两组要大得多，并且我们声称语义信息将发挥更大的作用，尤其是对于识别低质量的图像。

尽管我们的方法未考虑诸如校正模块之类的特殊措施来处理不规则单词，例如ASTER和ESIR，但值得注意的是，SRN在那些失真的数据集上可达到甚至更好的性能。如表5所示，与采用整流模块的最新方法相比，IC15和SVTP分别提高了4.0％和2.8％，而CUTE的结果却相当。与对SVT收益的解释类似，我们认为这主要是由于以下事实：全局语义信息将成为文本识别中视觉信息的重要补充，并且在遇到困难情况时将显示出更大的有效性。

4.5 在非拉丁长字符上的结果

表 6.

为了评估长文本的性能，我们设置了两个附加实验：具有相同配置的Attention和基于CTC的方法。我们生成了一个合成的长文本数据集，其中包含300万张图像。此外，我们还使用RCTW和LSVT的训练集作为训练数据。遵循第4.2节中所述的配置，我们仅将最大解码长度N更改为50，将类别数更改为10784。我们在ICDAR2015 TRW15上通过字符级精度评估了我们的模型。 TRW15数据集包含484张测试图像。我们裁剪2997个水平文本行图像作为第一个测试集（TRW-T），然后选择长度大于10的图像作为第二个测试集（TRW-L）。

结果显示在Tabel 6中。与CTC和基于注意的方法相比，不使用GSRM的方法在TRW-T中实现了6.8％和8.4％的提升。因为我们的方法可以对二维空间信息进行建模，并在特定时间步长出现错误解码时征服错误累积。与SCCM相比，我们的SRN比不具有GSRM的SRN改善了4.9％，而SCCM中的LM模型获得了4.7％的改善。这表明GSRM可以很好地集成语义特征和视觉特征，这对于识别长文本很重要。与表中TRW-T和TRW-L的精度相比，GSRM的提高从4.9％增加到6.8％。我们还可以发现2D注意在TRW-L中的识别率要低得多，这大约是由错误累积引起的

图 8.

如图8所示，从测试集中选择了几种情况。很明显，当语义信息容易混淆时，它们可以更好地区分两个字符。例如，“责”在视觉上类似于“素”，而“素材”是常见的中文短语，因此带有GSRM的SRN可以正确推断出该字符。

4.6 推理速度

为了探索我们提出的方法的效率，我们评估了使用/不使用GSRM的方法的速度，并将其与基于CTC、一维注意力和二维注意力的识别器在短文本和长文本数据集中进行了比较。测试集为IC15和TRW-L，其平均长度分别为5和15。为了进行公平的比较，我们在相同的硬件（NVIDIA Tesla K40m）上使用相同的主干网络测试所有方法。每种方法在测试集上运行3次，表7中列出了单个图像消耗的平均时间。

得益于SRN中的并行框架，我们的GSRM模型比IC15中基于1D和2D Attention的方法快1.7倍和1.8倍，而TRW-L中的加速度将扩大到2.0倍和2.2倍。同时，由于我们的方法具有并行性和简单性，不包含GSRM的模型的计算效率类似于基于CTC的方法。

5. 总结

在本文中，我们声称语义信息对于鲁棒和准确的场景文本识别器非常重要。给定文本行的字符（拉丁或非拉丁），我们使用GSRM对其语义上下文进行建模，该上下文包括字符之间的一阶关系和高阶关系。与GSRM集成，我们提出了一种新颖的端到端可训练框架，称为语义推理网络（SRN），用于在自然场景的文本识别，其中还包含骨干网络、并行视觉注意模块和融合解码器模块。 SRN在包括常规文本、不规则文本和非拉丁长文本在内的近7种公共基准中都获得了SOTA结果，并且进行了广泛的实验以显示其与现有方法相比的明显优势。此外，由于SRN的所有模块都与时间无关，因此SRN可以并行运行，并且比其他语义建模方法更实用。将来，我们有兴趣提高GSRM的效率，使其适应于基于CTC的方法，以提高其在实际应用中的价值。