论文翻译-Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition

最新推荐文章于 2025-02-25 08:44:04 发布

快乐的小小程序猿

最新推荐文章于 2025-02-25 08:44:04 发布

阅读量804

点赞数 3

文章标签：深度学习论文翻译

本文链接：https://blog.csdn.net/xu_benjamin/article/details/120056054

版权

本文提出了一种新的文本图像增强方法，通过学习适当的增强来提高文本识别器的性能。这种方法利用代理网络预测移动状态，生成更具挑战性的训练样本，同时通过联合学习将数据增强与网络训练相结合。实验表明，该方法在场景文本和手写文本识别任务上显著提高了识别网络的性能，特别是在小规模训练数据集上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文翻译-Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition

原文地址：https://arxiv.org/pdf/2003.06606v1.pdf
【推荐】相关阅读资料下载：
链接：https://pan.baidu.com/s/1w6vtq4C8UtATSyoibOWRGA
提取码：2big
【注】：翻译仅供参考，准确含义和表达参考英文原文

Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition

摘要

手写文本和场景文本存在各种形状和扭曲的模式。因此，训练一个强大的识别模型需要大量的数据来尽可能地覆盖多样性。与数据收集和注解相比，数据增强是一种低成本的方式。在本文中，我们提出了一种新的文本图像扩增方法。与传统的增强方法如旋转、缩放和透视变换不同，我们提出的增强方法旨在学习适当和有效的数据增强，这对于训练一个健壮的识别器来说更加有效和具体。通过使用一组定制的靶标点，我们提出的增强方法是灵活和可控的。此外，我们通过联合学习弥补了数据增强和网络优化这两个孤立过程之间的差距。代理网络从识别网络的输出中学习，并控制靶标点，为识别网络产生更合适的训练样本。在各种基准上进行的大量实验，包括常规场景文本、不规则场景文本和手写文本，表明所提出的增强和联合学习方法显著提高了识别网络的性能。一个用于几何增强的通用工具箱已经问世（https://github.com/Canjie-Luo/Text-Image-Augmentation）。

1.绪论

过去十年见证了深度神经网络在计算机视觉界带来的巨大进步[3, 11, 14, 21]。有限的数据不足以训练出一个强大的深度神经网络，因为网络可能会过度适应训练数据，并在测试集上产生糟糕的泛化效果[5]。然而，数据收集和注释需要大量的资源。与单一对象分类任务[21]不同，文本串的注释工作更加艰难，因为在一个文本图像中存在多个字符。这也是为什么大多数先进的场景文本识别方法[23, 28, 38]只使用合成样本[13, 17]进行训练的原因。数据限制也影响了手写文本识别。存在着各种各样的书写方式。收集大规模的有注释的手写文本图像的成本很高，而且不能覆盖所有的多样性[47]。产生手写文本的合成数据也很有挑战性，因为很难模仿各种书写风格。
在这里插入图片描述

图1.(a) 现有的几何增强，包括旋转、缩放和透视变换；(b) 我们提出的灵活增强。此外，一种联合学习方法将数据增强和网络训练这两个孤立的过程连接起来。

为了获得更多的训练样本，可以对现有数据进行随机增强[9]。具有不同书写方式的手写文本，以及具有不同形状的场景文本，如透视和弯曲的文本，在识别上仍有很大的挑战性[5, 28, 38]。因此，几何增强是获得识别方法鲁棒性的一个重要途径。如图1（a）所示，常见的几何变换是旋转、缩放和透视变换。一个图像中的多个字符被视为一个实体，并对图像进行全局增强。然而，每个字符的多样性应该被考虑在内。给定一个文本图像，扩增的目标是增加文本字符串中每个字符的多样性。因此，现有的增强被限制在过于简单的转换上，这对训练来说是低效的。
此外，由于长尾分布[31]，对网络鲁棒性有贡献的有效训练样本可能仍然很少，这也是导致训练效率低下的另一个原因。随机扩增的策略对每个训练样本都是一样的，忽略了样本之间的差异和网络的优化程序。在人工控制的静态分布下，扩增可能会产生许多 "容易 "的样本，而这些样本对训练是无用的。因此，静态分布下的随机扩增很难满足动态优化的要求。同时，在一个数据集上手工设计的最佳增强策略，通常不能像预期的那样转移到另一个数据集。我们的目标是研究一种可学习的增强方法，它可以自动适应其他任务，而不需要任何人工修改。
在本文中，我们提出了一种用于文本识别的新的数据增强方法，该方法是为序列类字符[36]增强而设计的。我们的增强方法着重于图像的空间转换。我们首先在图像上初始化一组基准点，然后移动这些点来生成一个新的图像。移动状态代表着点的移动以创造 "更难 "的训练样本，它从代理网络的预测分布中取样。然后，增强模块将移动状态和图像作为输入，并生成一个新的图像。我们采用基于移动最小二乘法的相似性变换[35]来生成图像。此外，一个随机的移动状态也被送入增强模块，以生成一个随机增强的图像。最后，代理从移动状态中学习，增加识别难度。难度是根据编辑距离的指标来衡量的，这与识别性能高度相关。
总而言之，我们的贡献如下。

我们提出了一种针对包含多个字符的文本图像的数据增强方法。据我们所知，这可能是第一个专门为序列类字符设计的增强方法。
我们提出了一个共同优化数据增强和识别模型的框架。增强的样本是通过自动学习过程产生的，因此对模型的训练更加有效和有用。所提出的框架是可以端到端训练的，无需任何微调。
在包括场景文本和手写文本在内的各种基准上进行的广泛实验表明，所提出的增强和联合学习方法明显地提高了识别器的性能，特别是在小型训练数据集上。

2.相关工作

场景文本识别

作为计算机视觉任务中的一个重要过程，场景文本识别已经吸引了很多研究兴趣[22, 23, 28, 38]。在一个场景文本图像中存在多个字符。因此，文本串识别任务比单字符识别更难。通常情况下，场景文本识别方法可以分为两种类型：基于定位和无分割。
前者试图定位字符的位置，识别它们并将所有的字符归为一个文本字符串[41, 42]。后者得益于深度神经网络的成功，将文本识别建模为一个序列识别问题。例如，He等人[15]和Shi等人[36]在卷积神经网络（CNN）的基础上应用了递归神经网络（RNN），用于序列类对象的空间依赖。此外，序列到序列的映射问题被注意力机制[38]所解决。
规则文本识别的巨大进步使社会各界开始关注不规则文本识别。Luo等人[28]和Shi等人[38]提出了整顿网络来消除失真并降低识别难度。Zhan和Lu[46]迭代地消除了透视失真和文本线的曲率。Yang等人[43]通过对每个字符使用更多的几何约束和监督，对文本形状进行了准确描述。尽管上述方法取得了明显的进步，但不规则场景的文本识别仍然是一个具有挑战性的问题。

手写文本识别

由于各种书写方式，手写文本识别仍然是一个具有挑战性的领域[5]。早期的方法使用混合隐马尔可夫模型[10]，并将单词图像和文本字符串嵌入到一个共同的矢量子空间中，将识别任务作为近邻问题[1]。
在深度学习时代，Sueiras等人[39]和Sun等人[40]通过使用CNN和RNN来提取特征，并获得了卓越的结果。Zhang等人[47]通过提出一个序列到序列的领域适应网络来解决笔迹风格多样性问题。Bhunia等人[5]对中间特征空间进行对抗性扭曲，以缓解一些稀疏的训练数据集中缺乏变化的问题。虽然已经取得了很大的进展，但由于各种书写风格的存在，手写文本识别仍然是一个开放和具有挑战性的问题。

数据扩增

数据增强对于避免深度神经网络训练中的过度拟合至关重要[9, 16, 31]。然而，很少有研究解决文本图像的增强问题。常见的几何增强包括翻转、旋转、缩放和透视变换，通常对单一物体的识别很有用[21]。然而，一个文本图像包含多个字符。现有的过于简单的变换对文本外观的多样性没有明显的帮助。
在这里插入图片描述

图2.拟议框架的概述。首先，可学习的代理预测移动状态的分布，旨在创建一个更难的训练样本。然后，增强模块根据随机和预测的运动状态分别生成增强的样本。这对样本的难度由识别网络来测量。最后，代理将增加难度的移动状态作为指导并更新自己。这个统一的框架是可以端到端的训练。

同时，静态的扩增策略不能满足优化的动态要求。Cubuk等人[9]通过使用强化学习来搜索增殖的策略。Ho等人[16]生成了灵活的增强策略时间表以加快搜索过程（在CIFAR-10上从5000个GPU小时到5个GPU小时）。Peng等人[31]通过预训练过程的对抗性学习对样本进行增强。
关于文本识别，识别器的训练需要很多数据。广泛使用的合成数据集[13, 17]提供了超过1000万的样本。然而，Li等人[22]另外使用了大约5万个公开的真实数据集进行训练，并显著提高了识别性能，这表明识别模型仍然对数据有要求。至于手写文本，现有的训练数据很难覆盖各种书写方式，生成合成的手写数据也很有挑战性。与场景文本合成不同，在画布上可以呈现的书写风格的字体很少。
我们提出的方法是以自动的方式进行多个字符的扩增。一个代理网络在线搜索硬训练样本。此外，该框架无需任何微调就可以进行端到端的训练。

3.方法论

3.1.总体框架

如图2所示，拟议的框架由三个主要模块组成：一个代理网络、一个增强模块和一个识别网络。首先，我们在图像上初始化一组自定义的基准点。由代理网络预测的移动状态和随机生成的移动状态被送入增强模块。移动状态表示一组自定义靶标点的移动。然后，增强模块将图像作为输入，并分别基于移动状态进行转换。识别器在增强后的图像上预测文本字符串。最后，我们在编辑距离的度量下测量增强后的图像的识别难度。代理人从增加难度的移动状态中学习，并探索识别器的弱点。因此，识别器从困难的训练样本中获得了稳健性。
由于我们只使用识别网络的预测，而且难度是由编辑距离而不是其他损失函数来衡量的，所以识别网络可以由最近的先进方法[36, 38]来代替，我们将在第4节中证明这一点。在这一节中，我们描述了拟议框架的增强模块和联合训练方案。

3.2.文本扩充

给定一个文本图像，扩增的目标是增加文本字符串中每个字符的多样性。这促使我们使用更多的自定义基准点进行转换。如图3所示，我们将图像平均分为N个斑块，并沿图像上下边界初始化2（N+1）个基准点p。之后，我们通过遵循一定的分布，将靶标点随机地移动到半径为R的q处来增强图像。
在这里插入图片描述

图3.文本增强。图像被分为三个斑块（N = 3），移动半径被限制为10（R = 10）。红色的点表示控制点。

为了生成一个增强的图像，我们在输入图像上应用基于移动最小二乘法的相似度变形[35]。给定图像中的一个点u，u的变换是
在这里插入图片描述

其中 M∈R^(2×2)是一个线性变换矩阵，该矩阵被约束为具有MTM = λ2 I的属性，适用于某些标量λ。这里p∗和q∗分别是初始化靶点p和移动靶点q的加权中心点。
在这里插入图片描述

u点的权重wi有如下形式
在这里插入图片描述

注意，当u接近pi时，权重wi增加。这意味着u主要取决于最近的标靶点的移动。wi是有界限的。如果u = pi，那么T (u) = u。这里我们设定α = 1。
最佳变换T（u）是通过最小化得到的
在这里插入图片描述

以产生唯一的最小化器[35]。

讨论

图4.弹性（相似性）和刚性转换的比较。所有图像上的基准点的移动都是一样的。刚性变换保留了相对形状（对一般物体来说是真实的），但文本图像增强需要对每个字符进行更灵活的变形。因此，弹性（相似性）变换更适合于文本图像的增强。

虽然薄板花键变换（TPS）[6]在形状矫正[38]和特征级对抗学习[5]方面取得了成功，但据报道，TPS出现了非均匀的缩放和剪切，这在许多应用中是不可取的[35]。以前的工作使用TPS的一个可能原因是TPS中的所有运算符都是可微分的，并且可以在大多数主流深度学习库中找到。由于我们的增强学习没有识别损失的逆向计算，而我们的目标是设置一个通用的增强，所以我们选择基于移动最小二乘法的相似度变形作为我们的变换策略。此外，我们还比较了相似性变换和刚性变换[35]，后者被认为是对一般物体最真实的变换。如图4所示，刚性变换保留了相对的形状（对一般物体来说是真实的），但相似性变换更适合于文本图像的增强，因为它为每个字符提供了更灵活的变形。进一步的分析在第4.4节和表2中给出。

3.3.可学习的代理

与之前使用强化学习来搜索最佳政策的智能增强方法[9]不同，我们以更快、更有效的方式解决学习问题。受启发于启发式算法，我们在所有可能的解决方案中寻找解决方案。由于训练过程是动态的，近似的解决方案是足够的，而精确的解决方案在计算上是昂贵的。对于训练过程中的每一步，我们都会产生一个预测的移动状态的变化。它可以作为学习目标的候选者。如果随机的移动状态增加了识别难度，那么代理人就会从移动状态中学习。相反，如果移动状态降低了识别难度，我们就颠倒学习目标。
我们将寻找更难扭曲的样本的问题表述为一个运动学习问题。如图3所示，给定一个图像，我们随机地移动靶标点来扭曲图像。每个靶点的移动操作（∆x, ∆y）与两个因素相关。1）移动的方向，即（∆x, ∆y）的符号；2）移动的距离，即（|∆x|,|∆y|）。在我们的实践中，对距离的学习未能收敛。代理网络很难精确地学习运动距离。另一个有趣的观察是，失败的代理网络总是预测最大的移动距离来创造过多的扭曲样本，这降低了识别器训练的稳定性。因此，我们将学习空间限制在运动方向上。基于移动方向，移动距离在半径范围内随机生成。它避免了由代理网络预测的繁琐的运动，因为随机性在增强中引入了不确定性。此外，代理网络可以被设计成一个轻量级的架构。如表1所示，代理网络仅由六个卷积层和一个全连接层组成。代理网络的存储需求小于1.5M。
在这里插入图片描述

代理网络的学习方案显示在算法1中。首先，可学习的代理预测一个移动状态分布，旨在创造一个更难的训练样本。一个随机的运动状态也被送入增强模块。然后，增强模块根据这两个运动状态分别生成增强的样本。之后，识别网络将增强后的样本作为输入并预测文本字符串。这对样本的难度由地面实况和预测的文本字符串之间的编辑距离来衡量。最后，代理将增加难度的移动状态作为指导并更新自己。这个统一的框架是可以端到端的训练。

4.实验

在这一节中，我们对各种基准进行了广泛的实验，包括规则和不规则的场景文本，以及手写文本。我们首先进行了消融研究，分析了训练数据的大小、分割斑块的数量N和移动半径R对性能的影响。我们的方法还与现有的仿生和刚性变换进行了比较。然后，我们将最先进的识别模型与我们的方法相结合，以显示我们的可学习数据增强的有效性。最后，我们将我们的方法与特征级对抗学习方法[5]相结合，进一步提高了识别性能，这表明我们的方法是灵活的，可以应用于其他增强系统。

4.1.场景文本数据集

广泛使用的合成数据集[17]和[13]分别包含900万和800万个合成词。我们随机抽取10k、100k和100万张图像（分别称为Syn-10k、Syn-100k和Syn-1m）用于消融研究。
Real-50k是由Li等人[22]从所有公开的真实数据集中收集的，包含大约50k个样本。
IIIT 5K-Words[30] (IIIT5K)包含3000张裁剪过的单词图像用于测试。
街景文本[41]（SVT）由647个单词图像组成，用于测试。许多图像被噪声和模糊所严重破坏。
ICDAR 2003[27] (IC03)在舍弃了含有非字母数字字符或少于三个字符的图像后，包含了867幅裁剪过的图像[41]。
ICDAR 2013 [20]（IC13）继承了IC03的大部分样本。它包含1015张裁剪过的图像。
街景文本透视[33] (SVT-P)包含645张裁剪过的图像用于测试。其中大部分是透视变形的。
CUTE80[34]（CT80）包含80张在自然场景中拍摄的高分辨率图像。它是专门为评估弧形文字识别的性能而收集的。它包含288张裁剪过的自然图像。
ICDAR 2015[19] (IC15)是通过使用地面真实词的边界框裁剪得到的，包括200多个不规则文本图像。

表1.代理网络的结构。"AP "表示2×2平均集合。"BN "表示批量归一化。所有卷积层的核大小、跨度和填充大小分别为3、1和1。输出大小意味着2(N + 1)个点，两个坐标和两个移动方向。
在这里插入图片描述

4.2.手写文本数据集

IAM[29]包含657个不同作者写的13,000多行和115,000字。
RIMES[2]包含了由1000多名作者用法语写的60,000多个词。

4.3.实施细节

网络

代理网络的结构详见表1，这是一个轻量级网络（小于1.5M），由六个卷积层和一个全连接层组成。输出大小意味着2(N + 1)个点，两个坐标和两个移动方向。由于我们使用编辑距离作为难度的衡量标准，该框架不受各种识别损失的影响。例如，Shi等人[36]对卷积递归神经网络采用了CTC损失[12]，而注意力解码器[28, 38]则由交叉熵损失指导。因此，我们的框架对不同的识别器是友好的。我们在下面的实验中展示了我们方法的灵活性。

优化

在消融研究中，我们使用ADADELTA[45]的默认学习率作为优化器。批量大小被设置为64。所有的图像都被调整为（32，100）。当我们的方法与最近的最先进的识别器集成时，为了公平比较，实验设置，包括优化器、学习率、图像大小、训练和测试数据集，都与识别器的设置相同。

环境

所有实验都是在NVIDIA 1080Ti GPU上进行的。扩增模块在2.0GHz的CPU上生成一个（32，100）图像的时间不到2ms。可以利用多线程加速的优势。对于每一次迭代，用可学习的增强功能进行端到端训练所需的时间不到单一识别器训练时间的1.5倍。如果用随机增强法训练，几乎没有额外的时间消耗。

4.4.消融研究

表2.在N=3和R=10的设置下，对训练数据的大小和变换的消融研究。"Aug. "表示我们在随机初始化分布下的方向抽样的扩增方法。
在这里插入图片描述

在本节中，我们进行了一系列的消融研究。由于已发布的场景文本数据集[13, 17]提供了数以千万计的训练样本，因此有可能对小数据集进行三阶标度的采样。因此，我们对场景文本数据集进行消融研究。训练数据集是Real-50k、Syn-10k、Syn-100k和Syn-1m。我们使用ADADELTA[45]的默认学习率作为优化器。批量大小被设置为64。所有的图像都被调整为（32，100）。在表2中，我们将所有的场景文本测试集作为一个统一的大数据集进行评估。
由于注意力识别器是最前沿的方法，我们选择了[38]中配备了ResNet和注意力解码器的网络作为识别器。在没有任何增强的情况下训练的识别器作为一个基线。按照广泛使用的评估指标[28, 38]，性能由表2-4中的单词准确性来衡量。为了保证训练的充分性，我们在模型达到最高准确率后再训练10个历时。

训练数据的大小

如表2所示，使用我们的可学习增强方法的识别器在很大程度上超过了基线。例如，在Syn-10k数据集上，最大的幅度是14.0%。这表明我们提出的方法极大地提高了小数据环境下识别器的泛化能力。随着数据集规模的增加，差距也在缩小。但是在一百万个训练数据Syn-1m上，仍然有6.5%的显著准确率提高。

转型

包括旋转、缩放和平移的仿生变换[18]，与我们的增强方法在表2中进行了比较。结果显示，使用仿生增强的识别器优于基线，但仍然落后于使用我们增强方法的识别器，因为仿生变换仅限于设计的几何变形，无法覆盖文本外观的多样性。我们还进行了一个实验来研究刚体变换的有效性。正如第3.2节所讨论的，尽管刚性变换对一般物体来说是现实的[35]，但相似性变换更适合于文本图像的增强。

可学习的代理

在表2中，代理网络通过联合学习数据增强和识别器训练进一步提高了性能。特别是，当使用Real-50k训练识别器时，它实现了3.1%的准确性提高。图5显示了Real-50k上的训练损失和大型评估数据集上的测试精度曲线。一个有趣的观察是，带有可学习的代理的识别器的损失比其他的下降得慢，这表明代理网络探索了识别器的弱点并产生了更难的训练样本。因此，识别器一直在学习并获得鲁棒性。相反，传统的识别器在损失接近零时就停止学习。
在这里插入图片描述

图5.Real-50k上的训练损失和大型评估数据集上的测试精度。

补丁编号和移动半径

表3.消融研究的斑块数量。R被设定为10。
在这里插入图片描述

表4.对移动半径的消融研究。N被设置为3。
在这里插入图片描述

我们分别研究两个关键参数N和R。训练数据集是Syn-10k。表3和表4显示了实验结果。我们发现，对于常规文本，为了达到最佳性能，补丁数N可以设置为2或3。至于不规则文本（SVT-P、CT80和IC15），最好将N设置为3，因为在这种设置下，会产生大量的曲线文本图像用于训练。因此，识别器获得了稳健性。我们在表4中进一步说明了移动半径R的方差的有效性。对于(32, 100)的图像，最好的设置是R=10。在下面的实验中，我们使用N和R的最佳设置进行进一步研究。

4.5.与最先进的方法相结合

在这一节中，我们将我们提出的方法与最先进的识别器相结合。不同任务的增强样本显示在图6中。我们首先展示了基于注意力的识别器[38]在不规则场景文本基准上的改进。然后我们通过使用基于CTC的识别器[5]并在手写文本上进行实验来验证我们方法的通用性。请注意，我们的方法可以自动适应一般的文本识别任务，不需要任何人工修改。此外，我们表明我们的方法是灵活的，可以与其他增强系统集成以进一步提高性能。
在这里插入图片描述

图6.增强的样本在（a）场景文本和（b）手写文本上的可视化。

不规则场景文本识别

不规则形状是场景文本识别的挑战之一。Shi等人[38]提出的ASTER是一个基于注意力的识别器，配备了矫正网络。我们通过增加训练样本和增加文本外观的多样性来研究识别器的鲁棒性。实验设置，包括优化器、学习率、图像大小和训练数据集，都与ASTER[38]相同。
我们的方法所提高的性能与最先进的方法进行了比较。尽管使用真实样本[22]和字符级的几何约束[43]来训练识别器可以显著提高性能，但为了公平比较，我们遵循了大多数方法的设置。由于Zhan和Lu[46]对图像进行了多次矫正，而Shi等人[38]只进行了一次矫正，我们选择了本文中报告的一次矫正迭代的结果。场景文本识别器的性能是由单词的准确性来衡量的。

表5.不规则文本的词汇准确性。"*"表示该结果来自于一次整改迭代，以便公平比较。
在这里插入图片描述

如表5所示，我们首先重现了与ASTER[38]相同的识别器，作为一个基线。重新实现的ASTER的结果与原论文中的结果相当。然后我们将我们的方法与识别器整合。在CT80上出现了明显的准确性提高（4.5%）。值得注意的是，在SVT-P上仍有明显的改进（1.5%），其中包含有噪声、模糊和低分辨率的图像。尽管丰富的合成样本可能涵盖了很多文字外观的变化，但我们的增强措施显示出对不规则文字识别的合理改进。该结果与最近的先进方法相比具有竞争力。

手写文本识别

由于笔迹风格的多样性是手写文本识别的主要挑战[1]，而有限的训练数据难以涵盖所有的笔迹风格，我们在两个流行的数据集IAM[29]和RIMES[2]上评估我们的模型，以验证我们方法的有效性。我们使用字符错误率（CER）和单词错误率（WER）作为手写文本识别的衡量标准。CER衡量的是以基础事实的长度为标准的列文斯坦距离。误码率指的是在字的层面上，在地面真相的所有字中，错误的比率。
我们在表6和表7中将我们的方法与最先进的方法进行了比较。此外，我们还与Bhunia等人[5]以前的扩增方法进行了比较。为了进行公平的比较，我们的实验设置与[5]相同。

表6.与以前关于IAM的方法的比较。AFDM是[5]的关键模块。
在这里插入图片描述

我们应用与[5]相同的基于CTC的识别网络。表6和表7中显示的基线是再现的结果。此外，我们在识别网络中复制了对抗性特征变形模块（AFDM）[5]。AFDM是Bhunia等人[5]提出的用于智能增强的关键模块。准确率如预期般增加。请注意，我们再现的结果比原论文中的大部分结果（8个中的7个）都要好，这验证了我们的实现和实验的有效性。我们发现，我们的增强措施极大地促进了识别器的鲁棒性。它以很大的幅度提高了性能（在IAM上无约束的误码率降低了5.08%），并且明显比AFDM表现得更好。使用我们的方法训练的识别器也优于所有最先进的方法。

表7.与以前在RIMES上的方法比较。AFDM是[5]的关键模块。
在这里插入图片描述

最后，我们同时使用AFDM和我们的方法进行训练，并通过显著的准确率提高进一步提升了识别器的性能。这表明我们的方法是一个元框架，可以应用于其他增强系统。

5.总结

在本文中，我们提出了一种用于训练文本识别器的可学习增强方法。我们的方法可能是第一个专门为序列类字符设计的几何增强方法。此外，我们的方法通过联合学习弥补了数据增强和网络优化之间的差距。所提出的方法是简单而有效的。它能够自动适应一般的文本识别任务，不需要任何人工修改。广泛的实验表明，我们的方法提高了场景文本和手写文本的识别器的性能。此外，我们的方法是一个元框架，有可能被纳入其他增强系统中。在未来，我们将把我们的方法扩展到多个物体检测和识别中的更普遍应用。