论文翻译-SEED Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition_framework可以包括网络损失函数和训练策略吗-CSDN博客

本文链接：https://blog.csdn.net/xu_benjamin/article/details/120470682

论文翻译-SEED Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

原文地址：https://arxiv.org/pdf/2005.10977.pdf
【推荐】相关阅读资料下载：
链接：https://pan.baidu.com/s/1XH8SYIFrqXMOQY_lWIwE2g
提取码：0wu8
【注】：翻译仅供参考，准确含义和表达参考英文原文

SEED：用于场景文本识别的语义增强型编码器-解码器框架

摘要

场景文本识别是计算机视觉领域的一个热点研究课题。最近，许多基于编码器-解码器框架的识别方法已经被提出，它们可以处理透视变形和曲线形状的场景文本。然而，它们仍然面临着许多挑战，如图像模糊、光照不均和字符不完整。我们认为，大多数编码器-解码器方法都是基于局部视觉特征，没有明确的全局语义信息。在这项工作中，我们提出了一个语义增强的编码器-解码器框架来稳健地识别低质量的场景文本。语义信息既被用于监督的编码器模块，也被用于初始化的解码器模块。特别是，最先进的ASTER方法被整合到所提出的框架中，作为一个范例。广泛的实验表明，所提出的框架对低质量的文本图像更加稳健，并在几个基准数据集上取得了最先进的结果。源代码将被提供。( https://github.com/Pay20Y/SEED)

1.绪论

场景文本检测和识别由于其各种应用，如自动驾驶、路标识别、帮助视觉障碍者等，近年来引起了极大的关注。受物体检测[27, 40, 26, 58]的启发，场景文本检测[24, 48, 60, 38, 6]取得了令人信服的性能。尽管传统的文档文本识别已经很成熟，但场景文本识别仍然是一个具有挑战性的任务。
随着深度学习的发展，最近关于场景文本识别的工作[16, 15, 43, 46, 22, 44, 45, 54, 7, 8, 2, 23, 25, 57, 52, 32, 53]显示了可喜的成果。然而，现有的方法在处理图像模糊、背景干扰、遮挡和不完整的字符时仍然面临各种问题，如图1所示。
最近，受自然语言处理领域的神经机器翻译的启发，带有注意力机制的编码器-解码器框架已被广泛用于场景文本识别中。对于常规文本识别[22, 7, 10]，编码器是基于带有RNN的CNN，另一个带有注意力机制的RNN被用作解码器来预测每个时间步的字符。对于不规则文本识别，提出了基于整流的方法[44, 45, 28, 57, 32, 53]、多方向编码方法[8]和基于二维注意力的方法[54, 23]。基于矫正的方法首先对不规则的图像进行矫正，然后下面的管道与常规识别一样。多方向编码方法使用带有两个LSTM的CNN来编码四个不同的方向。基于二维注意力的方法使用二维注意力机制来处理不规则文本，它直接处理来自二维的特征图。
在这里插入图片描述

图1.我们的SEED与现有的编码器-解码器框架的比较，如[45]。第一列显示了一些具有挑战性的场景文本的例子，包括图像模糊、闭塞和背景干扰。第二列是现有编码器-解码器框架的结果，第三列给出了我们方法的预测结果。这表明我们提出的方法对低质量的图像更加稳健。

现有的方法将文本识别任务定义为局部的序列字符分类任务，但忽略了整个单词的全局信息。因此，它们可能难以处理低质量的图像，如图像模糊、遮挡和不完整的字符。然而，人们可以通过考虑文本的全局信息来很好地处理这些低质量的情况。
为了解决这个问题，我们提出了语义增强型编码器-解码器框架（SEED），其中预测了一个额外的语义信息，作为全局信息。语义信息然后被用来初始化解码器，如图2（c）所示。语义信息有两个主要的优点，1）它可以由自然语言处理领域的词嵌入监督，2）它可以减少关注视觉特征的编码器和关注语言信息的解码器之间的差距，因为文本识别可以被看作是一个跨模式的任务。具体来说，我们从预先训练好的语言模型中获得词嵌入，并在训练过程中计算语义信息和词嵌入之间的损失。通过这种方式，语义信息包含更丰富的语义，然后预测的语义信息被用来指导解码过程。因此，解码过程可以被限制在一个语义空间内，而识别的性能也会更好。一些例子显示在图1中。例如，在图1的第四个子图像中，由于遮挡，最后两个字符 "se "被识别为 “R”，但在我们的框架中可以用全局语义信息进行纠正。换句话说，语义信息作为一种 "直觉 "发挥作用，它就像人们在仔细阅读一个词之前的一瞥。
直接从图像中预测语义信息之前已经有了研究。[12]通过CNN和加权排名损失，直接从一个单词图像中预测语义概念。[51]试图将图像特征嵌入到文字嵌入空间中，以实现文本发现。[21]提出以端到端方式学习单词图像和文本标签的嵌入。这些工作验证了语义信息对文本相关任务是有帮助的。
主要贡献如下。
1.我们提出了用于场景文本识别的SEED，它预测额外的全局语义信息以指导解码过程，预测的语义信息由预先训练好的语言模型的词嵌入监督。
2.我们将最先进的ASTER方法[45]整合到我们的框架中，作为一个范例。
3.在几个公共场景文本基准上的广泛实验表明，所提出的框架可以获得最先进的性能，特别是在低质量的数据集ICDAR2015和SVT-Perspective上，它对不完整的字符尤其强大。
本文的其余部分组织如下。第2节回顾了相关的工作，第3节描述了提议的框架和范例，第4节进行了大量的实验，第5节总结了这项工作。

2.相关工作

2.1.场景文本识别

现有的场景文本识别方法可以分为两类，即传统方法和基于深度学习的方法。
传统的方法通常采用自下而上的方法，首先对字符进行检测和分类，然后用启发式规则、语言模型或词典将它们分组到一个词或文本行。他们设计各种手工制作的特征，然后用这些特征来训练分类器，如SVM。例如，[34]使用一组计算成本高的特征，如长宽比、孔面积比等。[50, 49]使用滑动窗口与HOG描述符，[55, 3]使用Hough投票与随机森林分类器。大多数传统方法受制于设计各种手工制作的特征，而这些特征对于高层次的表达是有限的。
随着深度学习的发展，大多数方法使用CNN来执行自上而下的方法，直接识别单词或文本行。[16]将一个词作为一个类，然后将识别问题转换为图像分类问题。最近，大多数工作将识别问题视为序列预测问题。现有的方法几乎可以分为两种技术，即连接主义时空分类（CTC）和注意力机制。对于基于CTC的解码，[15, 43, 46]提出使用CNN和RNN对序列特征进行编码，并使用CTC进行字符对齐。对于基于注意力的解码，[22]提出了递归CNN来捕捉较长的上下文依赖关系，并使用基于注意力的解码器来生成序列。[7]介绍了注意力漂移的问题，并提出集中注意力以获得更好的性能。
然而，这些工作都假定文本是水平的，不能处理不规则形状的文本，如透视变形和曲率。为了解决不规则文本的识别问题，[44, 45]提出首先基于空间变换器网络[17]对文本进行矫正，然后将其视为水平文本。此外，[57]通过迭代矫正获得更好的性能，[53]通过一些几何约束进行矫正。[32]通过预测像素的偏移来整顿文本。[28]没有对整个文本进行矫正，而是采取了检测和矫正单个字符的方法。尽管进行了矫正，[8]对图像进行了四个方向的编码，并提出了一个过滤门来融合特征。[54]在基于二维attenton的网络中引入了一个辅助的密集字符检测任务和一个对齐损失。[23]提出了一个定制的基于二维注意力的不规则文本识别框架。在没有编码器-解码器框架的情况下，[25]用全卷积网络[31]将不规则文本识别转换为字符分割。[52]提出了一个新的损失函数以实现更有效的解码。

2.2.场景文本中的语义

许多工作试图将语义带入文本识别或文本检索的任务中。[12]用CNN直接从单词图像中预测语义概念。[36]提出为只有视觉信息的场景图像生成语境化的词典，而单词点选任务从词典中获益良多。[51, 21]学习将单词图像映射到单词嵌入空间，并将其应用于单词识别系统。[18]试图在标签、评论和标题等背景信息的帮助下检测和识别在线图像中的文本。[42]介绍了使用语言模型和场景与文本之间的语义关联性来重新排列识别结果。[37]提出利用物体信息来提高文本识别的性能。[11]利用嵌入在广告图像中的文本来提高图像分类的效果。[59]提出使用预先训练好的语言模型，用图像中的文字背景来纠正不准确的识别结果。
如前所述，最先进的识别方法并没有很好地利用文本的语义。相关的语义学工作并没有明确有效地将语义学整合到识别管道中。

3.方法

在本节中，我们将详细描述所提出的方法。总体框架如图2（c）所示，由4个主要部分组成。1）编码器包括CNN主干和RNN，用于提取视觉特征；2）语义模块，用于从视觉特征中预测语义信息；3）预训练的语言模型，用于监督语义模块预测的语义信息；4）解码器包括RNN，用于生成识别结果的注意力机制。首先，我们在第3.1节中回顾了编码器-解码器框架，并在第3.2节中详细介绍了预训练的语言模型。在第3.3节，我们描述了我们提出的方法。具体来说，我们在第3.3.1节中介绍了总体框架。之后，我们在第3.3.2节中展示了将最先进的方法ASTER[45]整合到拟议框架中的拟议方法的细节。最后，在第3.4节中介绍了损失函数和训练策略。

3.1.编码器-解码器框架

编码器-解码器框架被广泛用于神经机器翻译、语音识别、文本识别等。[47]首先介绍了该框架的结构并将其应用于神经机器翻译。为了简单起见，我们把这个框架称为普通的编码器-解码器框架。如图2(a)所示，编码器提取丰富的特征并生成一个包含输入全局信息的语境向量C，然后解码器将语境向量转换为目标输出。由于任务不同，源输入和目标输出也不同，对于文本识别，输入是图像，目标输出是图像中的文本。编码器和解码器的具体构成并不固定，CNN和LSTM都是常见的选择。
在这里插入图片描述

图2.三种框架的比较。"C "代表上下文信息。普通的编码器-解码器框架由于上下文表述有限而得到不正确的结果。基于注意力的编码器-解码器框架效果更好，但仍然不能处理没有全局信息的不完整字符。我们提出的编码器-解码器框架在全局语义信息的帮助下预测出了正确的结果。

尽管非常有效，但普通的编码器-解码器框架有一个明显的缺点，即上下文信息对整个输入的表达能力有限。受人类视觉注意力的启发，研究人员将注意力机制引入到编码器-解码器框架中，这被定义为基于注意力的编码器-解码器框架。如图2（b）所示，注意力机制试图在上下文和整个输入之间建立捷径。解码器可以在每个解码步骤中选择适当的上下文，这能够解决长距离的依赖问题，而且编码器和解码器之间的对齐是以弱监督的方式训练的。
对于场景文本识别，在普通的编码器-解码器框架和基于注意力的编码器-解码器框架中，解码器都只依赖于有限的局部视觉特征进行解码，所以很难处理一些没有全局信息的低质量图像。在我们提出的框架中，编码器学习明确的全局语义信息并将其作为解码器的指导。我们使用FastText[4]来生成单词嵌入作为语义信息的监督，因为它可以解决 "词汇量不足 "的问题。

3.2.快速文本模型

我们选择FastText作为我们预训练的语言模型，它是基于跳格的。设T = {wi−l , . . . , wi+l }是文本语料库中的一个句子。l表示该句子的长度，是一个超参数。在skip-gram中，一个词wi由一个嵌入向量vi表示，然后输入到一个简单的前馈神经网络，其目的是预测上下文，表示为Ci = {wi-l, . .，wi-1, wi+1, . . ., wi+l}。通过训练前馈网络，嵌入向量同时被优化，一个词的最终嵌入向量接近于具有类似语义的词。FastText还嵌入了子词，并使用它们来生成单词wi的最终嵌入。给出超参数lmin和lmax，表示子词的最小和最大长度。例如，让lmin=2，lmax=4，单词为 “where”，子词的集合为{wh, he, er, re, whe, her, ere, where, here}。词的表示是由所有子词的嵌入向量和词本身的组合得到的。因此，FastText模型可以处理 "词汇量不足 "的问题。在ICDAR2015和SVTPerspective等基准数据集中有一些新词或不完整的词，所以FastText适合我们的框架。

3.3.SEED

3.3.1 总体框架

许多场景文本识别方法都是基于注意力的编码器-解码器框架。解码器专注于视觉特征的特定区域，并逐步输出相应的字符。除了在低质量的图像中，该框架在大多数场景中都能很好地工作。在一些低质量的图像中，文本可能是模糊的或被遮挡的。为了解决这些问题，利用全局语义信息是一种选择。拟议的框架如图2（c）所示。与基于注意力的编码器和解码器框架不同，所提出的语义模块预测了额外的语义信息。此外，我们使用预先训练好的语言模型中的词嵌入作为监督来提高性能。之后，语义信息与视觉特征一起被送入解码器。
通过这种方式，我们的方法对低质量的图像具有鲁棒性，并能纠正识别错误。
在这里插入图片描述

图3.我们的SE-ASTER的细节。它由四个主要模块组成，整顿模块、编码器、语义模块和解码器。语义模块从编码器的输出中预测语义信息，并将其输入解码器作为指导。

3.3.2 语义增强型ASTER的结构

我们使用ASTER[45]作为我们提出的框架的典范，我们将提出的方法称为语义增强型ASTER（SE-ASTER）。图3是SE-ASTER的图示。有四个模块：矫正模块用于矫正不规则的文本图像，编码器用于提取丰富的视觉特征，语义模块用于从视觉特征中预测语义信息，解码器用于转录最终的识别结果。
首先，图像被输入到整顿模块，用浅层CNN预测控制点，然后将薄板花键[5]应用于图像。通过这种方式，扭曲的文本图像将被整顿。这个模块与[45]相同，所以我们不作详细描述。此后，矫正后的图像将被输入到编码器中，丰富的视觉特征可以被生成。具体来说，编码器由一个与[45]相同的基于ResNet的45层CNN和一个具有256个隐藏单元的2层Bidirectional LSTM[13]（BiLSTM）网络组成。编码器的输出是一个形状为L×C的特征序列h=（h1，…，hL），其中L是CNN中最后一个特征图的宽度，C是深度。
特征序列h有两个功能，一个是由语义模块预测语义信息，另一个是作为解码器的输入。为了预测语义信息，我们首先将特征序列平铺成一个维度为K的一维特征向量I，其中K=L×C，用以下两个线性函数预测语义信息S。
S = W2 σ(W1I + b1 ) + b2 。 (1)
其中W1, W2, b1 , b2是线性函数中的可训练权重，σ是ReLU激活函数。我们还评估了用编码器中BiLSTM的最终隐藏状态hL来预测语义信息的情况，结果是性能更差。这可能是因为预测语义信息需要更大的特征语境，使用BiLSTM的输出更合适。语义信息将由预训练的FastText模型提供的词嵌入来监督。这里使用的损失函数将在第3.4节介绍。
解码器采用Bahdanau-Attention机制[1]，它由一个具有512个隐藏单元和512个注意力单元的单层注意力GRU[9]组成。与[45]不同的是，我们在这里使用了一个单方向解码器。特别是，语义信息S被用来在转换维度的线性函数之后初始化GRU的状态。解码过程将以全局语义为指导，而不是使用零状态初始化，因此解码器不仅使用局部视觉信息，也使用全局语义信息来产生更准确的结果。

3.4.损失函数和训练策略

我们在语义模块和解码器模块中都加入了监督。SE-ASTER是端到端的训练。损失函数如下。
L = Lrec + λLsem 。 (2)
其中，Lrec是预测概率相对于ground-truth的标准交叉熵损失，Lsem是预测语义信息相对于预训练的FastText模型的转录标签的词嵌入的余弦嵌入损失。 λ是平衡损失的超参数，我们在这里将其设置为1。请注意，我们在这里只是使用一个简单的基于余弦的损失函数，而不是对比性损失，以加快训练速度。
Lsem = 1 - cos(S, em) 。 (3)
其中S是预测的语义信息，em是来自预训练的FastText模型的词嵌入。
有两种训练策略。第一种是用预训练的FastText模型的词嵌入而不是预测的语义信息来初始化解码器的状态。另一种是直接使用预测的语义信息。我们对这两种策略进行了评估，它们的性能是相似的。我们使用第二种训练策略，以纯粹的端到端方式训练模型。

4.实验

在本节中，我们进行了广泛的实验来验证我们所提出的方法的有效性。首先，我们介绍了用于训练和评估的数据集，并描述了实施细节。接下来，我们进行消融研究以分析不同策略的性能。最后，我们的方法与最先进的方法在几个基准上进行了比较。

4.1.数据集

IIIT5K-Words（IIIT5K）[33]包含5000张图像，其中大部分是常规样本。有3000张图像用于测试。测试集中的每个样本都与一个50个词的词库和一个1k个词的词库相关。
街景文本（SVT）[49]由249张街景图像中的647张裁剪过的单词图像组成。大多数单词图像都是水平的，但其中一些图像被噪音、模糊和低分辨率严重破坏。每张图片都有一个50个词的词库。
SVT-Perspective（SVTP）[39]包含了645个用于评估的单词图像。大多数图像都存在严重的视角失真，难以识别。每个图像都与一个50个词的词库相关联。
ICDAR2013（IC13）[20]包括1015张用于测试的图像，其中大部分是普通的文本图像。其中一些是在不均匀的光照下。
ICDAR2015（IC15）[19]是在没有仔细捕捉的情况下收集的。大多数图像都有不同程度的扭曲和模糊，这对大多数现有的方法都是挑战。
CUTE80（CUTE）[41]由288个单词图像组成，仅用于评估。其中大部分是弯曲的，但分辨率很高，没有提供词库。
Synth90K[16]由900万个合成图像组成，这些图像由9万个单词的词库生成。它已被广泛用于文本识别任务。我们使用它作为我们的训练数据集之一。它包含来自IC13和SVT测试集的单词。
SynthText[14]是另一个用于文本检测任务的合成数据集。我们用地面真实的单词边界框来裁剪单词，并用于训练我们的模型。

4.2.实施细节

拟议的SE-ASTER是在PyTorch[35]中实现的。预先训练的FastText模型是在Common Crawl2和Wikipedia3上训练的官方可用模型1。总共识别了97个符号，包括数字、大写字母和小写字母、32个标点符号、序列结束符号、填充符号和未知符号。
在不保留比例的情况下，输入图像的大小被调整为64×256，我们采用ADADELTA[56]来最小化目标函数。在没有任何预训练和数据增强的情况下，我们的模型在SynthText和Synth90K上训练了6个历时，批次大小为512，学习率设置为1.0，在第4和第5个历时衰减为0.1和0.01。该模型是在一块NVIDIA M40显卡上训练的。
为了评估，我们将输入图像的大小调整为与训练时相同的大小。我们使用波束搜索进行GRU解码，它保留了具有最高累积分数的k个候选者，在我们所有的实验中，k被设置为5。
在这里插入图片描述

表1.两个收缩数据集上的识别结果的可视化。红色：错误的结果；绿色：正确的结果。
在这里插入图片描述

表2.不同策略之间的性能比较。WES代表词嵌入监督。INIT代表在解码器中初始化GRU的状态。ASTER-r表示由我们自己重新训练的模型。

4.3.消融研究

关于语义模块有两个步骤，一个是单词嵌入监督，另一个是用预测的语义信息初始化解码器。我们通过使用Synth90K和SynthText作为训练数据来分别评估这两个步骤。结果显示在Tab.2.与基线相比，只用词嵌入监督的模型并没有提高性能。使用来自编码器的预测整体特征来初始化解码器，在ICDAR13中提高了近0.2%的性能，但在SVTP和IC15中的性能更差。这表明以隐含的弱监督方式学习全局信息在处理低质量图像时仍然很困难。这两个步骤的组合得到了最好的性能。在IC13、SVTP和IC15上分别获得1.9%、2.3%和1.6%的改进。与没有文字嵌入监督的ASTER相比，它在IC13上提高了1.7%的精度，在SVTP上提高了3.3%，在IC15上提高了3.9%，这证明文字嵌入的监督是相当重要的。

4.4.使用不准确的边界框的性能

实际应用中的场景文本识别总是与检测分支相结合，以实现端到端的管道。然而，检测分支可能不会输出理想的边界盒。如果文本识别对不准确的检测结果具有鲁棒性，那么整体的端到端性能就会更令人满意。受限于CNN的接受域，最频繁的不准确检测是不完整的字符。我们进行了实验来证明我们的方法对这种情况是稳健的。这里我们也用SE-ASTER作为一个例子。请注意，SE-ASTER只在Synth90K和SynthText上训练，没有任何数据增强，如随机剪裁。我们首先在IC13和IC15的基础上分别生成两个缩小的数据集IC13-sr和IC15-sr，具体如下。
在这里插入图片描述

表3.关于收缩数据集的结果，GAP表示两个数据集之间的下降。

我们同时在左、右、上、下四个方向上随机删除原始单词图像达15%。所有裁剪过的图像与原始图像的交集仍大于或等于（1-0.15×2）2 = 0.49。根据检测的评估协议，这些裁剪过的图像都是正面定位，因为IoU高于0.5的标准阈值。一些例子显示在表1.
定量结果见表3。ASTER基线在IC13-sr数据集和IC15-sr数据集上的表现分别下降了19.5%和12.8%，这表明ASTER基线受到了不完整字符的很大影响。然而，在单词嵌入的监督下，该模型仍然在缩减的图像中挣扎。使用编码器的整体信息作为解码器的指导，可以得到更好的结果，分别下降16.5%和13.0%。SE-ASTER得到了最好的结果，这表明我们的模型对不完整的字符更加稳健。一些可视化的例子见表1。
在这里插入图片描述

图4.低质量图像的例子和四种方法的识别结果。红色字符是错误的结果，绿色字符是正确的结果。

4.5.拟议框架的一般化

为了验证SEED的通用性，我们整合了另一个最先进的识别方法SAR[23]。SAR是一种基于二维注意力的识别方法，不需要对输入图像进行矫正，而且它已经采用了LSTM来生成一个整体特征。然而，正如我们之前提到的，整体特征在弱监督训练策略中可能并不有效，所以我们做了一些修改，并将我们的新模型称为语义增强型SAR（SE-SAR）。
在这里插入图片描述

图5.来自图像的预测语义信息与来自词典的词汇嵌入的余弦相似性的可视化。值越大意味着语义越相似。

在这里插入图片描述

表4.SAR和SE-SAR的识别性能。

在SE-SAR中，我们用一个浅层CNN取代了沿纵轴的最大池化。浅层CNN的输出是高度为1的特征图，然后特征图被送入2层LSTM以提取语境信息。两个线性函数被应用于LSTM的输出来预测语义信息。除了SAR中的2D注意力解码器，我们将另一个解码器应用于LSTM的输出，并以转录标签进行监督。通过这种方式，LSTM的输出包含更丰富的信息，并有助于预测语义信息。最后，语义信息被用来初始化解码器的LSTM。该模型在Synth90K和SynthText上训练了2个历时，批次大小为128。
我们在IC13、IC15、SVT和SVTP上进行了一些实验，以显示SE-SAR的有效性。实验结果见表4。与基线相比，我们的SE-SAR在IC15、SVT和SVTP上分别提高了4.2%、1.3%和2.3%。SE-SAR只在IC13的低质量图像稀少的情况下与SAR相媲美。

4.6.定性结果和视觉化

我们将包括模糊或闭塞的低质量图像可视化。一些例子显示在图4中。可以看出，我们提出的SE-ASTER和SE-SAR方法对低质量的图像是稳健的。我们解释说，语义信息将为解码器提供一个有效的全局特征，它对图像中的干扰具有鲁棒性。
我们还对IIIT5K进行了实验，以可视化预测的语义信息的有效性。如图5所示，我们计算了预测的语义信息和来自词典的每个词的词嵌入之间的余弦相似度（每个图像有50个词）。在图5（a）中，预测的语义信息与具有类似语义的词非常相关。例如，“home”、"house "和 "lodge "都有居住的意思。“Tom”、"Paul "和 "Charles "都是常见的名字。第二行说明了预测的语义信息的稳健性。例如，"house "和 "horse "的拼写相似，编辑距离为1，但它们的语义却大不相同，如图5（b）所示。在全局语义信息的帮助下，该模型可以很容易地区分它们。
在这里插入图片描述

表5.公共基准上的无词典性能。黑体字代表最好的性能。下划线代表第二好的结果。*表示同时使用词级和字符级注释来训练模型。

4.7.与最新技术的比较

我们还在几个基准上将我们的方法与以前的最先进的方法进行了比较。结果显示在表5。与其他方法相比，我们在只有单词级注释的无词库情况下取得了6个最佳结果中的2个和3个次佳结果。
与其他方法相比，我们提出的方法在一些低质量的数据集如IC15和SVTP上有效。特别是，与ASTER[45]相比，SE-ASTER在IC15上提高了3.9%（从76.1%到80.0%），在SVTP上提高了2.9%（从78.5%到81.4%）。它还在SVTP上比最先进的方法ScRN[53]高出0.6%，在IC15上高出1.3%，尽管我们的方法是基于一个较弱的骨干和没有字符级注释。
SE-ASTER在几个高质量的数据集上也获得了卓越的或相当的结果。与ASTER[45]相比，我们在IIIT5K和CUTE上分别得到0.4%和4.1%的改进。在SVT和IC13上，我们的方法得到了89.6%和92.8%的精度，比ESIR[57]和[2]略差0.6%和1.6%。请注意，我们的框架非常灵活，可以与大多数现有的方法整合，我们相信，如果我们更换一个更强大的基线模型，可以取得更好的结果。

5.结论和未来工作

在这项工作中，我们提出了用于场景文本识别的语义增强编码器-解码器框架。我们的框架预测了一个额外的全局语义信息，该信息由预先训练好的语言模型的词嵌入监督。使用预测的语义信息作为解码器的初始化，可以提高识别精度，特别是对于低质量的图像。通过将最先进的方法ASTER整合到我们的框架中，我们可以在几个标准的基准数据集上取得优异的结果。在未来，我们将把我们的框架扩展到一个端到端的文本识别系统。通过这种方式，更多的语义信息可以被利用。
鸣谢