论文翻译-I2C2W Image-to-Character-to-Word Transformers for Accurate Scene Text Recognition

快乐的小小程序猿

已于 2023-05-24 16:54:48 修改

阅读量258

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络论文翻译

于 2023-05-24 16:53:14 首次发布

本文链接：https://blog.csdn.net/xu_benjamin/article/details/120471276

版权

深度学习专栏收录该内容

45 篇文章 3 订阅

订阅专栏

论文介绍了一种新的场景文本识别器I2C2W，它由图像到字符模块（I2C）和字符到单词模块（C2W）组成，能准确识别复杂背景和几何扭曲下的文本。I2C检测字符并预测其相对位置，而C2W通过学习字符语义和位置进行单词识别，两者协同工作，无需字符级注释和启发式规则。实验表明，I2C2W在多种数据集上表现出色，特别是在不规则文本识别上超过现有方法。

摘要由CSDN通过智能技术生成

论文翻译-I2C2W Image-to-Character-to-Word Transformers for Accurate Scene Text Recognition

原文地址：https://arxiv.org/pdf/2105.08383.pdf
【推荐】相关阅读资料下载：
链接：https://pan.baidu.com/s/15XqyaeYXTTk8eB_fGPNv5w
提取码：m8ft
【注】：翻译仅供参考，准确含义和表达参考英文原文

I2C2W：用于准确的场景文本识别的图像-字符-文字转换器

摘要

利用自然语言处理的进展，最近的场景文本识别器采用了编码器-解码器架构，文本图像首先被转换为代表性特征，然后通过 "直接解码 "转换为字符序列。然而，场景文本图像受到不同来源的丰富噪声的影响，如复杂的背景和几何扭曲，这往往会混淆解码器，导致在嘈杂的解码时间步骤中视觉特征的不正确对齐。本文介绍了I2C2W，一种新型的场景文本识别器，它对场景中的各种噪声具有准确性和容忍度。I2C2W由一个图像到字符模块（I2C）和一个字符到单词模块（C2W）组成，这两个模块是互补的，可以进行端到端训练。I2C检测字符并预测它们在一个词中的相对位置。它致力于检测所有可能的字符，包括基于视觉特征的不同排列的不正确的和多余的字符，而不受时间步骤的限制。以检测到的字符为输入，C2W从字符语义和它们的位置中学习，以过滤掉不正确的和多余的检测，并产生最终的单词识别。在七个公共数据集上进行的广泛实验表明，I2C2W取得了卓越的识别性能，并在具有挑战性的不规则场景文本数据集上以较大的幅度超过了最先进的技术。

1.绪论

场景中的文本包含丰富的语义信息，这些信息在许多任务中是非常重要和有价值的，如室内和室外的自主导航，基于内容的图像检索等。近年来，随着深度神经网络和图像合成技术的发展[11, 15, 47, 48]，场景文本识别已经取得了快速的进展，尤其是对背景干净、失真轻微的正常场景文本的识别性能非常惊人[45, 44, 34]。另一方面，当场景文本被复杂的背景干扰或严重的几何失真降低时，场景文本识别仍然是一项非常具有挑战性的任务，如图1所示。
在这里插入图片描述

图1.拟议的I2C2W网络首先识别图像中所有可能的字符的相对位置（在单词中）和语义，然后通过去除错误的字符检测来识别单词。它能容忍背景噪音和几何失真，而不像直接解码法那样有 "时间步骤 "的限制，直接解码法对噪音很敏感。它可以进行端到端的训练，不需要像分割方法那样需要字符级注释和启发式分组规则。

大多数现有的场景文本识别方法可以大致分为两类。第一类遵循编码器-解码器结构，文本图像首先被编码为特征，然后直接解码为一串字符。直接解码法通过关注图像特征的一个特定部分，在每个时间步骤中预测一个字符，如果图像特征由于复杂的背景杂波和严重的几何扭曲而产生噪音，则往往会失败。失败的原因主要是视觉特征和相应的解码时间步骤之间的错位，例如，图1中两个样本的时间步骤1和7。另一类是采用分割的方法，首先检测每个单独的字符，然后将检测到的字符分组为单词。然而，它需要字符级别的注释（收集成本太高），并且通常涉及手动起草的字符分组规则，这些规则是启发式的，容易出错，如图1中的第二个例子所示。
本文介绍了I2C2W，一个创新的场景文本识别网络，它吸取了直接解码和分割的优点，但避免了它们的限制。一方面，它摒弃了直接解码中的时间步骤限制，首先检测所有可能的字符，然后去除不正确和多余的字符。在另一端，它不需要字符级别的注释，而且字符与字的映射是纯粹的学习，没有任何启发式规则。这些理想的特征主要归功于图像到字符模块（I2C）和字符到单词模块（C2W），这两个模块是相互联系的，并且可以进行端到端的训练。具体来说，I2C致力于根据视觉特征的不同排列来检测图像中所有可能的字符，从而最大限度地减少噪声时间步骤中的漏检。它学会了预测字符在单词中的相对位置（有单词记录），因此它在训练中不需要任何字符级的注释。此外，C2W通过I2C从检测到的字符的语义和位置学习字符到单词的映射，而不是像直接解码那样学习更复杂的图像特征。它可以有效地识别和消除错误的字符检测，而直接解码[44]则不能很好地处理它。
这项工作的贡献有三个方面。首先，我们设计了I2C2W，一个新颖的场景文本识别器，可以容忍复杂的背景干扰和严重的几何扭曲。I2C2W首先检测字符，然后将检测到的字符映射到单词，这不需要字符注释和启发式的字符分组规则，可以有效地处理各种错误的字符检测。第二，我们设计了一个图像到字符的模块和一个字符到单词的模块，它们合作预测字符的语义和相对位置，以实现准确的单词识别。第三，I2C2W具有端到端的可训练性，特别是对于具有复杂背景或严重失真的不规则图像，能取得优异的识别性能。

2.相关作品

2.1.场景文本识别

场景文本识别已经研究了很多年，大多数现有的工作是通过直接解码或分割来解决这一挑战。

通过直接解码进行场景文本识别

最近的大多数场景文本识别工作遵循编码器-解码器架构，文本图像首先被编码为特征，然后直接解码为一串字符。早期的工作[15, 16]直接用编码的图像特征预测字的类别。受NLP进展的启发，采用了递归卷积网络（RNN）[32]以及一些通过引入聚合交叉熵（ACE）损失[40]和软注意力[21]的变种。此外，空间Transformer网络（STN）[17]已被引入，用于整顿和识别场景中的不规则文本[33, 34, 46, 42]。最近，一些研究[7, 22, 44, 24]旨在通过采用不同的注意力机制来加强图像编码和解码。语义推理[44, 30]、词汇[37]和图像超分辨率[41, 39]也被探索用于更准确的场景文本识别。
直接解码法在每个时间步骤中用提取的图像特征预测一个字符。它对图像噪声很敏感，如果相应时间步长的图像特征有噪声，往往会产生丢失或多余的预测。拟议的I2C2W首先检测图像中的字符，这消除了时间步长的限制，但努力检测所有可能的字符，以及它们在单词中的位置。因此，它从检测到的字符及其在单词中的位置中学习到丰富的场景文本语义信息，这对场景文本识别至关重要。

通过分割的场景文本识别。

基于分割的场景文本识别受到图像语义分割的启发，每个像素被预测为一个语义类别，例如，[23，43]使用FCN[26]来预测每个像素的字符类别，然后将预测的字符分组为单词。基于分割的识别需要字符级别的注释，并且在将字符分组为词时涉及启发式规则。拟议的I2C2W不需要字符级注释，因为它预测的是字符在单词中的相对位置，而不是图像中的二维坐标。它的字符到词的分组完全是根据检测到的字符的语义信息学习的，不涉及任何启发式规则。

2.2.视觉中的Transformer

Transformer[35]对序列元素之间的成对互动进行建模，在不同的NLP任务中取得了巨大成功。最近，计算机视觉研究界对Transformer结构进行了深入研究，它的威力已经在许多计算机视觉任务中得到了体现，如物体检测[4, 50]、视觉转移[9]、图像GPT[5]等。
拟议的I2C2W由两个基于Transformer的网络组成，分别用于从图像到字符（I2C）和从字符到单词（C2W）的映射。与基于Transformer的检测器在图像中定位物体不同，我们的I2C预测单词中字符的相对位置，因此它在训练中不需要字符级的注释。我们的C2W通过学习字符语义和它们在单词中的位置来识别单词，与直接解码相比，它更简单、更稳健，可以学习将复杂的图像特征映射到单词。
在这里插入图片描述

图2.拟议的I2C2W的流水线：给定一个输入图像，拟议的图像到字符模块I2C首先通过预测一组位置字符嵌入来检测图像中所有可能的字符，这些位置字符嵌入告诉字符类别以及单词中的相对字符位置。字符到单词模块（C2W）从预测的位置字符嵌入中学习字符语义，有效地纠正I2C的错误字符检测，并产生最终的单词识别，如预测的单词。I2C和C2W通过使用单词转录进行了优化，就像在Ground-Truth Characters中一样，所以I2C2W在训练中不需要字符级注释或启发式字符分组规则。这两个模块也是相互补充的，并且可以进行端到端的训练。

3.方法论

我们提出了一个准确的场景文本识别器I2C2W，它将场景文本识别制定为字符检测和单词识别任务，如图2所示。给定一个图像，I2C首先预测一组位置性字符嵌入，该嵌入可被映射到字符类别和字符位置，如检测字符。然后，C2W从位置字符嵌入中学习字符语义，从而预测出一个用于单词识别的预测序列中的字符序列。

3.1.字符检测

通用物体检测器的目的是确定物体在图像中的位置（定位）和物体属于哪个类别（分类）。然而，通用检测技术在处理场景文本识别中的字符检测任务时面临着两个挑战。首先，它们需要大量的字符级注释（图像中字符的二维坐标），而这些注释的收集是非常耗时的。其次，由于场景中文本的复杂形状和方向，它们在将检测到的字符（图像中的二维坐标）归类为单词时很困难。

相对的字符位置：

我们重新表述了字符检测问题，并提出了一种新的字符检测技术来解决上述挑战。该技术将字符检测分解为两个任务，即识别字符类别的分类任务和确定字符在单词中的相对位置的定位任务。如图2所示，相对字符位置的基础事实可以直接从单词的转录中得到（例如，在样本单词 "PORT "中的字符 "P "和 "O "为"0 "和 “1”），因此在训练中不需要字符边界框的注释。此外，字符的相对位置可以捕捉到一个词中字符的序列/顺序，这可以用来直接实现字符到词的分组。
我们将相对位置预测定义为一个(N+1)类别分类问题。给定一个单词图像，拟议的I2C将产生N个预测，如图2中的检测字符。这里’N’指的是N类字符位置，这是一个固定的数字，明显大于一个单词中可能的字符数。‘+1’指的是一个特殊的类别’不属于单词’。与相对位置预测任务类似，我们在字符分类任务中还包括一个额外的类，指的是’不属于字符’（如图2中用’-'标示）。在这个定义下，I2C可以学习有效地分离图像背景和前景字符。

图像到字符的映射。

我们在I2C的设计中采用了Transformer网络[35]，它明确地模拟了整个图像的像素之间的所有成对的相互作用。与使用CNN或RNN的一般物体检测器相比，I2C具有这种良好的特性，可以更有效地预测字符的相对位置。
在这里插入图片描述

图3.拟议的图像到字符模块（I2C）的结构。场景文本图像首先由一个CNN和一个Transformer Encoder连同2D Positional Encoding编码成特征向量。将一组学习到的字符嵌入EC作为输入查询，转化器解码器预测出位置性字符嵌入EPC，并通过前馈网络（FFN）进一步映射到字符类别和相对字符位置。位置 "25 “和字符”-"分别指 "不属于单词 "和 "不是字符 "类别。

图3显示了拟议的I2C的结构。给定一个输入图像 x_im∈R^(3×H_0×W_0 )的图像，I2C首先提取特征图 f∈R^(3×H×W)并将其重塑为一个维度，以产生 z∈R^(C×HW)然后将其送入Transformer编码器。由于Transformer的结构是不变的，我们按照[28, 3, 4]在编码器的注意层的输入中加入了一个二维位置编码。编码器最终将顺序特征编码为 z_e∈R^(C×HW).注意，我们在I2C中采用了标准的Transformer编码器，包括一个多头注意层和一个前馈网络（FFN），每个注意层后面都有一个归一化层。
标准的Transformer解码器将上一步的输出作为输入查询，并以连续的方式进行预测。不同的是，建议的I2C将一组字符嵌入 E∈R^(D×N) (在训练中学习的)作为输入查询，解码器将以平行的方式预测N个字符，如图3所示。与编码器类似，我们采用标准的Transformer解码器，包括两个多头注意层和一个FFN，每个FFN后面都有一个归一化层。它预测了一组位置性的字符嵌入。 E_PC∈R^(D×N)编码的特征ze。最后，通过线性变换从EPC中获得字符类别和相对字符位置。

3.2.词汇识别

通过I2C检测到的字符可以根据其预测的相对位置简单地归类到一个词中，如果文本图像是清晰和干净的，这通常是正确的。然而，由于复杂的图像背景和几何变形，场景文本图像往往存在丰富的噪音。I2C努力检测所有可能的字符，并经常产生错误的检测，包括。1）由于类似文本的背景模式而产生的不正确的字符（如图3中由于酒瓶的原因，‘L’的位置为’25’）；2）由于严重的扭曲或不同的特征排列，在一个位置上产生的冗余检测（如图3中位置为’R’和’N’）。因此，我们设计了C2W，用于从I2C的噪声字符检测中进行稳健和准确的单词识别。
词汇识别的目的是预测属于一个词的字符序列。大多数现有的方法都是直接从原始图像特征解码字符序列，当视觉特征过于嘈杂而无法正确地与相应的时间步骤对齐时，这种方法通常会失败。所提出的C2W不是从嘈杂的图像特征中识别单词，而是从I2C检测到的一组 “嘈杂字符”（具有字符语义和它们的相对位置）中预测一个单词，这比从视觉图像特征中直接解码要简单得多。

字符到文字的映射。

所提出的C2W旨在通过从I2C中学习字符语义和它们的相对位置来纠正错误的检测字符。我们采用了一个转化器网络，该网络在学习各种NLP任务中的句子中的单词配对关系方面被证明是有效的。在C2W中，我们将字符视为最小的元素，并学习字符在一个词中的语义以实现准确的单词识别。
与I2C类似，我们在C2W中采用标准的Transformer编码器和解码器，并使用学习到的嵌入作为查询。与现有的方法不同，由于以下原因，我们将位置性字符嵌入作为输入（而不是将I2C检测到的字符映射到嵌入）。首先，位置字符嵌入是字符嵌入和位置编码的结合，因为它们是通过被映射到字符类别和位置来学习的。它通过排除多余的字符嵌入和位置编码步骤，提高了I2C2W的效率。其次，位置性字符嵌入包含详细的字符预测信息（如每个字符的每个类别的视觉概率），这对单词识别很有帮助。例如，如果检测到一个字符序列 “hcat”，并且 "h "和 "c "都在 "0 "的位置，那么C2W就很难判断这个词是 "帽子 "还是 “猫”，因为这两个词都是有效的。通过将位置字符嵌入作为输入，C2W将通过考虑’h’和’c’的视觉概率产生正确的识别。通过这种方式，I2C和C2W可以有效地相互补充。
在输入的情况下 E_PC∈R^(D×N) C2W通过纠正错误检测（即’N’→’R’和’L’→’-'）输出一个字符序列（即图2中的预测序列）。这导致了通过标准的CTC解码器[10]的最终识别（即图2中的预测词）。详细的网络结构可在补充材料中找到。
表1.公共数据集上的场景文本识别性能。所有的结果都是在没有词库的情况下获得的。使用的训练数据和注释显示在 "数据 "和 "注释 "栏中，其中 “90K”、“ST”、“SA”、“self”、"word "和 "char "分别指Synth90K数据集、SynthText数据集、SynthAdd数据集、自己收集的数据集、单词级注释和字符级注释。平均值 "指的是所有被评估的数据集的平均识别精度。
在这里插入图片描述

3.3.网络培训

拟议的I2C2W的训练旨在最小化以下多任务损失函数。
L = Ldet + Lrecog (1)
其中Ldet和Lrecog分别指的是字符检测和单词识别任务的损失。

角色检测。

I2C输出一个预测的字符集ŷ，其中包含字符语义和位置信息。我们首先按照[4]的方法，在预测字符集ŷ和地面真实字符集y之间找到一个成本最低的双点匹配。与[4]不同的是，匹配成本同时考虑了字符语义和字符位置，其计算方法是：。
在这里插入图片描述
其中 C ̂_θ(i) (c_i)指的是字符类的概率 c_i和 L ̂_θ(i) (l_i)代表位置类的概率 l_i 预测的索引θ(i)。参数β是平衡两个任务成本的权重，在我们实施的系统中，根据经验设定为0.25。因此，检测损失Ldet的计算方法是。

在这里插入图片描述
其中 (θ ̂(i),i)分别是预测集和真实集中的匹配对的索引。c和l分别指字符语义和字符位置。LCE是标准的交叉熵损失。在实践中，"非字符 "和 "不属于词 "类别的损失以10的系数进行降权以平衡损失。

在这里插入图片描述

图4.不同场景文本识别方法的比较。对于第一行的六幅样本图像，第2-4行分别显示了ASTER、SRN和I2C2W的识别结果。最后一行方框内的两个子行分别显示了由提议的I2C和I2C2W（包括C2W）进行的字符检测和单词识别。红色突出了错误的字符预测，蓝色突出了错过的字符检测。样本图像来自IC15、TOTAL和CTW，这些图像由于各种字体风格、复杂的图像背景和严重的几何变形而存在丰富的噪音。I2C2W准确地识别了所有具有挑战性的样本图像。

词汇识别。

由于检测到的字符序列包含大量的 “非字符”、"不属于单词 "和多个冗余检测（在同一位置）的预测，我们忽略了字符对齐，采用CTC损失[10]进行单词识别。

4.实验

4.1.数据集

我们对I2C2W进行了评估，并在三组被广泛用于文本识别研究的公共数据集上将其作为基准。

合成训练数据集。

为了公平比较，我们遵循[1]，采用两个合成数据集来训练场景文本识别模型。1）SynthText（ST）[15]是为场景文本检测研究创建的。它也被广泛用于场景文本识别研究，根据提供的文本注释框裁剪文本图像补丁；2）Synth90K（90K）[12]包含900万张合成文本图像，已被广泛用于训练场景文本识别模型。它没有将训练和测试数据分开，所有图像都用于训练。

规则测试数据集。

提出的I2C2W在四个广泛使用的正常数据集上进行了评估，其中图像中的大多数文本都是水平的，或者只受到视角扭曲的影响。1）ICDAR-2013（IC13）[19]用于2013年国际文档分析与识别会议（ICDAR）中的鲁棒阅读竞赛，其中包含1095个单词图像用于测试；2）ICDAR-2015（IC15）[18]包含偶然的场景文本图像，在捕获前没有准备，从原始数据集中裁剪出1811个文本图像补丁，用于评估场景文本识别任务，遵循[6]。3）街景文本（SVT）[38]包含647张文字图像，这些图像是从谷歌街景的249张街景图像中裁剪出来的，大部分被裁剪的文字图像几乎是水平的；4）街景文本视角（SVTP）[29]包含645张文字图像，这些图像也是从谷歌街景中裁剪出来的，其中很多图像存在视角失真。

不规则测试数据集。

我们还在三个具有挑战性的不规则数据集上对所提出的I2C2W进行了评估和基准测试，这三个数据集中的许多文本都存在严重的几何变形或具有任意的形状和复杂的背景：1）CUTE80（CUTE）[31]由288个字的图像组成，这些图像是从CUTE数据集中裁剪出来的，其中包含80个图像；2）Total-Text（TOTAL）[8]包含1253张训练图像和300张测试图像，它们被广泛用于任意形状场景文本检测研究。我们通过使用提供的注释框，从TotalText数据集的测试集中裁剪了2208张单词图像；3）CTW1500（CTW）[25]包含1000张训练图像和500张测试图像。我们通过使用所提供的词级注释框，从CTW1500数据集的测试集中裁剪出5,040个单词图像。

4.2.实施细节

我们采用标准的ResNet-50[13]作为CNN主干，并通过Adam优化器[20]优化I2C2W，初始学习率为0.0001，批次大小为40。I2C2W进行了8个epochs的端到端训练，所有的实验都用4个Telsa V100 GPU实现。输入图像的短边被随机调整为(32, 96)中的一个数字，长边的尺寸根据原始长宽比计算，但上限为600。按照[44]的规定，采用不同的数据增强操作，包括随机旋转、透视变形、运动模糊和高斯噪声。类的数量是37个，包括0-9、a-z和 “非一个字符”，总共25个字符是按照[44]在I2C中检测的。在测试阶段，输入图像的短边被调整为64，长边根据原始长宽比进行计算。

4.3.与最先进的方法进行比较

如图4和表1所示，我们在七个公共数据集上对I2C2W进行了定性和定量的评估。为了公平比较，我们只与不使用任何词库的实验结果进行比较。
在这里插入图片描述

图5.I2C2W中字符检测的注意力图示：第一列是样本图像，第2-5列是由I2C2W产生的字符注意力图。最后一列显示的是仅由I2C产生的错误检测的注意力图。预测的字符类别和相对字符位置在每幅图像的底部用（）提供。可以看出，如第2-5列所示，I2C2W专注于字符区域并准确地检测出字符。通过C2W，I2C可以学习关注邻近的字符区域，以产生更准确的噪声字符检测，如最后一列所示，而不是像I2C那样只关注局部特征。

如表1所示，拟议的I2C2W比现有的方法平均高出3.5%。具体来说，它在四个常规数据集上取得了最先进的性能，其中大多数场景文本是水平的，并且有一个干净的背景。但是对于三个不规则数据集CUTE、TOTAL和CTW，I2C2W的表现分别比最先进的方法高出2.8%、10.1%和5.5%。特别是，这三个不规则数据集中的许多图像存在严重的几何失真，或具有任意的形状和复杂的图像背景，并带有丰富的噪声。现有的方法容易在严重失真和背景噪声造成的噪声时间步骤中出现视觉特征的不正确对齐。I2C2W取消了时间步长的概念，它首先检测所有可能的字符，然后学习将检测到的字符映射到单词。因此，它对文字形状的变化和复杂的图像背景的容忍度更高。此外，在四个正常数据集上的竞争性表现表明，I2C2W可以很好地处理几何变形较小和背景较干净的正常文本。
图4比较了I2C2W和两种最先进的场景文本识别技术对IC15、TOTAL和CTW的一些样本图像的识别。如图4所示，所提出的I2C2W能够正确识别具有罕见字体、复杂背景和严重失真的场景文本，如图4所示。作为比较，这两种最先进的方法由于几何变形和复杂图像背景的各种噪声而遇到各种问题。

4.4.消融研究

我们进一步进行消减研究，以评估所提出的I2C和C2W的有效性。具体来说，我们通过根据预测的字符位置对I2C检测到的字符进行排序，并过滤掉 "非字符 "或 "不属于单词 "类的字符，来评估建议的I2C的识别性能。拟议的C2W的效果可以通过I2C2W和I2C之间的性能差异推断出来。I2C和I2C2W的定量和定性的实验结果见表1和图4。
I2C的有效性：所提出的I2C努力根据视觉特征的不同排列来检测图像中所有可能的字符，而不受时间步骤的限制。如表1所示，I2C在公共数据集上达到了相当高的识别精度，因为它检测到了大多数字符并成功预测了它们的位置。图4显示了在I2C2W的两行中分别检测到的字符和识别到的单词的几个样本图像。如图4所示，如果局部特征非常嘈杂，I2C可以预测一个位置的多个字符（包括正确的字符）（例如，第一个样本图像中’0’位置的’k’和’r’），而最先进的方法无法识别正确的字符。此外，当场景文本由于视觉特征和相应的时间步骤之间的错位而遭受严重的几何扭曲时，最先进的方法往往会陷入困境，如最后一张样本图像所示。I2C可以很好地处理弯曲的文本，因为它消除了时间步骤的限制，如图4所示。
C2W的有效性：根据I2C2W如何优于I2C，可以推断出提议的C2W的有效性。如表1所示，由于C2W学习了字符语义并成功地纠正了许多错误识别的字符，因此C2W的加入大大提高了文本识别的准确性。这可以从图4的最后一行进一步观察到，C2W通过纠正错误识别的字符（例如将 "street"的 "s "纠正为 “t”），删除多余的字符（例如将 "sea"的 "sefa "中的 "f "删除）和添加缺失的字符（例如将 "communications"的 "o "添加）来预测准确的单词顺序。
在这里插入图片描述

图6.典型故障案例的说明。I2C2W在强烈的模糊、超低分辨率、严重遮挡、非语义文本等情况下往往会失败。错误的识别以红色突出显示（GT代表 “地面真实”）。

此外，C2W补充了I2C，以更准确地检测和识别字符。图5显示了由I2C2W产生的四幅样本图像及其不同字符的注意力图，以及最后一列显示的由I2C产生的注意力图（仅针对由I2C错误识别的字符）。如图5所示，当字符有复杂的噪音（如前两个样本中的’c’和’l’）或严重的几何变形（如最后两个样本中的’k’和’d’）时，I2C不能正确预测字符，这主要是因为I2C只考虑了局部字符的特征。然而，C2W可以帮助I2C学会不仅关注本地字符，而且关注邻近的字符，这有助于产生更准确的识别，就像I2C2W一样。

4.5.讨论

失败案例：当场景文本遭受强烈的模糊、超低的分辨率、严重的遮挡或很少的语义时，提议的I2C2W通常在几个典型的场景下失败。图6显示了六种典型的失败案例，以资说明。
处理速度：I2C2W处理一幅图像的时间平均为31ms，与SRN（每幅图像30ms）相当，比ASTER（每幅图像20ms）在同一工作站（NVIDIA Telsa V100）上的处理速度略慢。由于I2C2W采用了平行关注机制，我们猜测它在处理长文本行时可以比ASTER更快，正如在[44]中研究的那样。

5.总结

本文提出了一个准确和稳健的文本识别器I2C2W，从检测的角度识别场景文本。它引入了一个图像到字符模块（I2C），可以检测字符并预测它们在文字中的相对位置。通过忽略时间步骤的限制，I2C努力检测具有不同特征排列的所有可能的字符。它还设计了一个字符到单词模块（C2W），从I2C检测到的字符中学习字符语义，以产生单词识别。提出的I2C和C2W是相互补充的，可以进行端到端的训练。在七个公共数据集上进行的广泛实验表明，I2C2W在常规数据集上取得了最先进的性能，并在不规则数据集上以较大的优势超过了现有的方法，这证明了所提出的图像-字符-单词识别方法的有效性。