TeachAugment Data Augmentation Optimization Using Teacher Knowledge翻译

星辰阁

于 2022-04-09 12:52:45 发布

阅读量875

点赞数 4

分类专栏：读文献文章标签：计算机视觉生成对抗网络 pytorch

原文链接：https://arxiv.org/abs/2202.12513

版权

读文献专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

摘要
1.引入
2. 相关工作
3. 用Teacher knowledge 数据增强优化
4.用神经网络数据增强
5.实验
- 5.1 实施细节
- 5.2消融实验
6.结论

论文原文：https://arxiv.org/abs/2202.12513
论文原码：https://github.com/DensoITLab/TeachAugment
出处：2022.3.7 CVPR

摘要

为了增强数据而优化图像变换函数已被深入研究。特别是对抗性数据增强策略（搜索增强最大化任务损失），在许多任务的模型泛化方面有了显著的改进。然而，现存的数据增强方法需要小心地对参数进行微调，以避免数据在增强过成中的过度变形，过度的形变可能丢失获取泛化的关键图像特征。本文，我们提出一种基于对抗策略的数据增强优化方法，称为TeachAugment，在不用仔细微调参数的情况下，充分利用教师模块生成带有图像关键特征的转换后图像。具体的说，深入搜索增强方法目的是为了使增强后的图像即能与目标模型是对抗的，又与教师模块是可识别的。我们也提出了通过神经网络进行数据增强，这样一是简化了搜索空间的设计，二是允许数据增强使用梯度的方法进行更新。在图像分类、语义分割和无监督表示学习任务的实验中，我们证明了TeachAugment方法优于现有的方法。

1.引入

数据增强提升模型泛化能力重要的技巧。为了自动搜索对模型泛化能力有效的数据增强方法，提出的自增强。搜索数据增强策略对模型泛化能力有了显著提升。然而自增强策略需要数千小时的GPU训练来搜索有效的数据增强（费资源）。

最近的研究表明采用一些方法可以显著减少自增强方法在搜索时的资源消耗，这意味着计算消耗不在是个问题了。特别是交替更新增强策略和目标网络的线上数据增强优化框架，不仅降低了计算成本，而且通过统一搜索和训练过程简化了数据增强的搜索通路。

很多线上优化方法都是基于对抗策略（即目标模型的搜索增强最大化任务损失函数），这根据经验可以提高模型的泛化能力。然而，对抗性数据增强策略在没有任何约束的情况下是不稳定的，因为可以通过折叠图像的固有含义来实现损失的最大化，如图1所示。为了避免折叠，先前的方法基于先验知识进行数据增强和/或限制搜索空间中函数的幅度参数的搜索范围，但有许多调整的参数会让从业者感到烦恼。
在这里插入图片描述
图1：TeachAugment的概念。对抗性数据增强是一种基线方法，它可以转换数据以增加目标模型fθ的损失。增强的数据通常是没有意义的（例如，全黑和噪声图像），或者在没有任何约束的情况下难以识别。所提出的方法是对数据进行转换，使其对目标模型是对抗性的，但对于教师模型fθˆ是可识别的。因此，增强的图像将比对抗性的数据增强提供更多的信息

为了缓解调整参数的问题，我们提出了一种使用教师知识的线上数据增强优化方法，称为TeachAugment。TeachAugment虽然是基于对抗数据增强策略，但它在搜索增强的范围内转后的图像可以被教师模型识别，见图1。与以往的对抗数据增强方法不同，对亏了教师模型，TeachAugment不需要先验和超参数来避免破坏图像固有含义的过度增强。因此，TeachAugment不需要参数调整以确保转换后的图像是可识别的。

此外，我们提出使用神经网络表示两个函数的数据增强，几何增强和颜色增强。我们所提出的增强模型只对数据应用了两种转换，但它们可以表示自增强的搜索空间中包含的大多数函数和它们的复合函数。使用神经网络与传统数据增强函数由两个优势：

通过神经网络的反向传播更新增强方法中的参数
将搜索空间中的函数数量从几十个减少到两个函数

特别是，由于后者的优势，从业者在调整搜索空间的大小以更好的收敛时，只需要考虑两个函数的幅度参数的范围

贡献
我们的贡献可总结如下:

提出一种用教师知识的基于对抗性策略的线上数据增强优化结构，称之为TeachAugment。TeachAugment利用教师模型使得对抗性增强无需谨慎调参就能获得更有信息的图像，从而避免破坏图像的固有意义。
提出一种基于神经网络的数据增强。该扩充方法简化了搜索空间的设计，并能够通过教学扩充中的梯度法更新其参数。
证明了在不调整每个任务的超参数和搜索空间的情况下，在分类、分割和无监督表示学习任务中，TeachAugment的表现优于在线数据增强和最先进的增强策略。

2. 相关工作

几何变换和颜色变换作为图像数据的传统数据增强方法，在深度学习中得到了广泛的应用。除此之外，先进的数据增强最近被开发出来，他们提高了图像识别任务的准确性。**数据增强不仅增强了图像识别率，而且在最近的无监督表示学习和半监督学习中发挥重要作用。**虽然数据增强通常会提高模型的泛化能力，但它有时也会影响性能或导致意外的偏差。因此，从业者需要手动找到基于某领域知识的有效增强策略来增强模型的泛化。

Cubuk等提出一种自动搜索有效数据增强方法的模型，成为AutoAugment（自增强）。自增强的性能优于手工设计的增强策略，并在各种肌醇测试上显示出最先进的性能。数据增强搜索已成为一种研究趋势，目前已经提出了许多方法。

我们粗略的将他们分成两类：基于代理任务的方法和基于代理任务自由的方法。基于代理任务的方法搜索代理任务的数据增强策略，使用训练数据子集和/或小模型的方法来降低计算成本。因此，利用代理任务的方法进行策略搜索是次佳的。代理任务自由的方法直接利用所有训练数据在目标网络上搜索数据增强策略。因此，代理任务自由的方法是可以被优化的。

在无代理任务方法中，其中的一些方法，比如随机增强和三元增强，将搜索参数随机化或是减少搜索空间的大小。其他方法，如对抗性数据自增强和点增强，以在线的方式更新增强策略，这意味着他们交替更新目标网络和增强策略。线上优化方法通过整合搜索和训练过程简化了数据增强优化结构。然而，上述方法充满了小问题。举例来说，点增强非法的结合了增强图像的难度，对抗性数据增强为了保证收敛人为的限制了搜索空间，线上增强为了正则化有很多超参数。上述方法都依赖对抗策略，其搜索增强最大化任务损失是问题的根源。换言之，导致以上问题正是为了确保转换后的图像是可识别的。

本文，我们专注于代理任务方法以在线方式更新策略的原因有二：

代理任务自由可以用所有的训练数据直接搜索目标网络上的数据增强策略
它整合了搜索和训练进程，简化了框架结构

3. 用Teacher knowledge 数据增强优化

3.1 准备工作

设 $x - X$ 是数据集Χ的样本， $α_φ$ 是一个由φ参数化的增强函数。在传统数据增强中，φ代表增强的幅度，在本文中，φ代表的是神经网络的参数。在使用数据增强的一般训练程序中，小批样本通过 $α_\varphi$ 进行转换，后送入一个目标网络 $f_θ$ (即 $f_θ(α_φ(x))$ )。然后，对目标网络的参数进行更新，使随机梯度下降中的任务损失L最小。这个训练过程可简化为 $min_{\theta}E_{x-X}L(f_\theta(\alpha_{\varphi(x)}))$ 。注意的是我们省略了目标标签，因为本文我们不仅要考虑监督学习也要考虑无监督表示学习。

除此之外，对抗性数据增强搜索参数φ最大化的损失。该目标被定义为 $max~φ~min~θ~\mathbb E_{x-\mathbb X}L(f_\theta(\alpha_\varphi (x)))$ 。次存入优势可以通过交替更新φ和θ来实现。经验表明，对抗性数据增强可以提高模型的泛化性。然而，在没有一些正则化或者限制搜索空间的情况下，对抗性数据增强不好用，因为它可以通过破坏x的内在信息取得最大化φ。因此，我们利用一个教师模型替代基于先验知识的正则化的方法避免破坏图像内在意义。

3.2 TeachAugment

设 $f_{\hat{a}}$ 是教师模型，可以使任意模型只要它区别于目标模型的 $f_\theta$ 。在本文中，我们提出了两种类型的教师模型，一个是经过与训练的教师模型，一个是EMA教师模型。EMA教师模型的权重以指数平均向目标模型权重更新。我们在5.2提供了详细定义和评估教师模型选择的影响。所提出的目标定义如下：

$max_{\varphi}min_{\theta}E_{x-X}[L(f_{\theta}(\alpha_{\varphi}(x)))-L(f_{\hat{a}}(\alpha_{\varphi}(x)))] \qquad(1)$

对于目标模型，这一目标与对抗性数据增强具有相同的特性，但是增强函数除了最大化目标模型的损失之外需要尽量减少教师模型的损失。这种增强方式避免了破坏图像的固有含义，因为当转换后的图像无法识别时，教师模型的损失将会爆炸。换句话说，引入的教授损失需要增强函数对图像进行变换，使其在教室模型可识别的范围内对目标模型进行对抗。

正如图2所示，目标通过随机梯度下降交替更新增强函数和目标模型，与先前的方法想累死。首先更新目标网络 $n_{inner}$ 步，而后更新增强函数。它的伪代码详见附录。值得注意的是，我们提出的增强函数使用了第四章所介绍的神经网络，其参数 $\varphi$ 是可微分的，所以采用梯度方法更新增强函数。我们将公式1中的增强策略称为TeachAugment。

与先前方法不同，TeachAugment教学增强并不正则化基于领域知识的增强函数，如循环一致性和平滑性。它也不像在[28]中那样为了保证转换后的图片是可识别的，而绑定转换后图像的难度。

3.3 改进技术

TeachAugment的训练过程类似于对抗生成网络（GANs）和强化学习中的演员批评方法，它们交替更新两个网络。两个领域的从业者都积累了大量的策略来减轻不稳定性和改进训练质量。TeachAugment也受益与这两个领域中的三个技术：经验回放、非饱和损失和标签平滑。此外，我们引入了颜色正则化来减轻图像增强前后颜色分布的不一致性。这里介绍的技
术也适用于其他在线方法[28,56,61].

非饱和损失。对分类任务来说，损失函数 $L$ 经常使用交叉熵定义， $L(f_{\theta}(\alpha_{\varphi}(x))) = \sum_{k=1}^{K}-y_klogf_\theta(\alpha_{\varphi}(x))_k$ ，其中 $y\in \left \{ 0,1 \right \} ^K$ ，其中y代表独热编码的真实标签，K代表类别数。这种情况下，方程（1）第一项的梯度在目标模型预测非常自信的情况下，通常在 $\varphi$ 的最大化问题中达到饱和。因此我们用在更新增强模型时用 $\sum_{k=1}^Ky_klog(1-f_\theta(\alpha_{\varphi}(x))_k)$ 而不是 $\sum_{k=1}^{K}-y_klogf_\theta(\alpha_{\varphi}(x))_k$ 。这一技巧已经在GANs中使用。

非饱和损失是TeachAugment的关键因素；它使WideResNet-28-10网络结构在CIFAR-100上的错误率由18.7%降低到了17.4%（基准错误率：18.4%）。因此，在实验中我们基本上使用非饱和损失更新增强模型。

经验回放。在增强学习中，经验回放存储了参与者在过去选择的动作，并重用它们来更新评论家。我们将这种技术应用到我们的方法中，通过存储增强模型，并以类似经验回放的优先级排序方式对他们进行重要性排序。然后，利用从缓冲区中随机采样的增强模型对目标网络进行更新。

设 $p_i$ 是第 $i$ 个存储的增强模型的优先级。通过 $p_i = \gamma^{S-i}$ 计算优先级，其中S代表在缓存区存储的增强模型的数量， $\gamma$ 表示衰减率，这里设置为0.99。在实验中，我们存储了每 $n_{buffer}$ 的增强模型。在CIFAR-10、CIFAR-100上的图像分类和图像分割， $n_{buffer}$ 被设置为10，对于其他任务和数据集，被设置成1。

标签平滑标签平滑是代替独热编码的一种技巧， $\hat{y}_k = (1-\varepsilon)y_k+\varepsilon/K$ ,其中 $\varepsilon \in [0,1]$ 是平滑参数。对我们的方法来说，当目标模型在非饱和损失下的预测非常自信时，标签平滑可以有效防止梯度爆炸。实际上，这种情况往往发生在简单的任务或强目标模型中。为了减轻梯度爆炸，当更新增强模型时，我们在方程(1)的第一项使用平滑后的标签。注意的是，为了保证公平对比，我们没有在目标模型更新中使用。

颜色归一化。在实际应用中，颜色增强模型倾向于将像素颜色转换到训练数据集颜色分布之外。这导致增强后的图像为分布外的数据，这有可能降低分布内样本识别准确率。为了调整增强前后的颜色分布，我们在增强前后的像素颜色之间引入了SWD(sliced Wasserstein distance)正则化颜色增强。SWD是WD(Wasserstein distance)的变体，代表着两种分布之间的距离。

我们将颜色正则化公式定义如下：

$L_color({\{x^b}\}_b^B，{\{{\hat{x}}^b}\}_b^B) = \sum_iSWD({\{x^b_i}\}_b^B，{\{{\hat{x}}^b_i}\}_b^B)$ $\qquad$ (2)

${\{x^b_i}\}_b^B$ 代表小批中的第i个像素图像，批大小为B， ${\{{\hat{x}}^b_i}\}_b^B$ 表示定义在方程(4)的彩色增强图片。因为每个像素位SWD的计算成本与图像分辨率线性相关，因此我们可以在计算资源较少的情况下，对语义分割中处理的高分辨率图像计算SWD。在随机梯度下降中，每次迭代中对φ的梯度表示如下： $\frac{\partial }{\partial \theta}\frac{1}{B}\sum_b^B[L(f_{\theta}(\alpha_{\varphi}(x)))-L(f_{\tilde{\theta}}(\alpha_{\varphi}(x)))]-\lambda L_{color}({\{x^b}\}_b^B，{\{{\tilde{x}}^b}\}_b^B) \qquad(3)$
$\lambda$ 是一个控制正则化影响的超参数，在我们的实验中被设置为10

4.用神经网络数据增强

我们提出使用 $\varphi$ 参数化的神经网络进行数据增强，它由两个模型组成：颜色增强模型 $c_{\varphi_c}$ 和几何增强模型 $g_{\varphi_g}$ 。因此，定义 $a_\varphi$ 是 $c_{\varphi_c}$ 和 $g_{\varphi_g}$ 的复合函数，表示为 $a_\varphi = {g_{\varphi_g} { \circ} c_{\varphi_c} }$ ，参数 $\varphi$ 是 ${\varphi_c}$ 和 ${\varphi_g}$ 的集合。数据增强模型能通过梯度下降更新其参数，并构造只有两个函数的搜索空间。

增强流程图见图3。给定一图像 $\in \mathbb R^{M \times 3}$ ，M代表图像的像素值，3代表RGB图的三个通道，颜色增强采用 $p_c \in (0,1)$ 的概率，几何增强采用 $p_g \in (0,1)$

颜色增强如下定义： $\tilde{x}_i = t(\alpha _i \odot x_i +\beta _i),(\alpha _i,\beta _i) = c_{\varPhi _c}(x_i,z,c) \qquad（4）$
在这里插入图片描述

其中， $\alpha_i,\beta_i \in \mathbb R^3$ 表示尺度参数和移位参数， $\odot$ 表示向量之间的乘法； $t (\cdot)$ 表示三角波函数， $\frac{\arccos \cos{x\pi}} {\pi}$ ，保证 $\tilde{x}_i\in [0,1]$ ； $z\sim N(0,I_N)$ ，其中 $N(0,I_N)$ 表示N维单位高斯分布，c是一个可选的上下文向量。在实验中，我们在图像分类任务中使用 $c$ 表示独热编码真实标签，在其他任务中忽略了标签。基于普遍逼近定理，当增强模型足够大时，颜色增强模型原则上可以将输入图像转换为任何图像。

几何数据增强函数定义如下： $\hat{x} = Affine(\tilde{x},A+i),A = g_{\varphi_{g}}(z,c), \qquad （5）$ ，其中 $Affine(\tilde{x},A+i)$ 表示用参数 $A + I$ 仿射变换 $\tilde{x}$ , $\in \mathbb R^{2\times3 }$ 表示一个对角线为1其余全为0的矩阵，否则，会使仿射变换成为恒等映射，即Affine $(x, I) = x$ ， $\in \mathbb R^{2\times3}$ 表示残差参数，且c和z是在等式 (4)中使用的相同的向量。

几何增强模型可以通过仿射变换以外的变换来定义，类似于[24]。然而，仿射变换可以表示自增强搜索空间中的所有几何变换。因此，我们在本工作中只考虑了仿射变换。

除了 $\varphi_c$ 和 $\varphi_g$ ，我们还用梯度方法计算了概率 $p_c$ 和 $p_g$ 。然而，对于 $p_c$ 和 $p_g$ 应用增强的决策过程是不可微分的。为了使其概率值可微，我们使用了与之前的文章[17,29]相同的方法。详细的pipeline在附录。

5.实验

我们通过三个任务评估我们的方法。为了进行消融研究并与自动数据增强搜所方法作比较，我们在图像分类任务上评估所提出方法。我们在CIFAR-10和CIFAR-100 [27]上用 ShakeDrop正则化训练WideResNet-40-2(WRN-40-2)、WideResNet-28-10 (WRN-28-10)、 Shake-Shake (26 2×96d)和PyramidNet，在ImageNet上训练ResNet-50。训练和评估条件设定均与之前的工作[30]相同。

除上述试验外，我们在语义分割和非监督表示学习上测试了我们的方法。对于语义分割任务，我们在Cityscapes上训练了FCN-32s、PSPNet和Deeplabv3。训练条件设定与[62]相同。对于非监督表示学习，在ImageNet上用SImSiam和大量数据增强预训练ResNet50，然后根据线性评价协议[7]来评价模型。

详细内容见附录

5.1 实施细节

我们通过多层感知机（MLP）构建几何数据增强，并用两个MLP构建颜色数据增强，分别用于接收颜色RGB向量和一个噪音向量的输入，最后把他们加在一起作为输出。我们将sigmoid函数应用于每个增强模型的输出，并使输出标准化到 $\in (-0.25,0.25)^{2 \times 3},\alpha \in (0.6,1.4),\beta \in (-0.5,0.5)$ 。噪音向量 $z$ 的维度设置成128。为了随机，除输出层外，在线性层之后应用Dropout[48]。为了在初始状态下的恒等映射，我们将输出层的权重初始化为零。使用AdamW优化器训练增强模型。所有AdamW的超参数（例如学习率、权值衰减）都被设置成Pytorch默认参数。详细内容见附录

5.2消融实验

教师模型选择的影响我们首先检查教师模型选择的影响。用两种教师模型训练WRN-40-2，一个是基于基本增强预训练后的教师模型，另一个是EMA教师模型（它是目标模型的指数移动平均数），即 $\hat{ \theta} \gets \xi \hat{ \theta} +(1-\xi )\theta$ 。根据[52]设置衰减率 $\xi$ 为0.999。对于预训练教师模型来说，我们预训练了与目标模型相同的WRN-40-2和WRN-28-10，该模型比目标模型强。

结果在表1中展示。对于两个数据集，EMA教师模型比其他模型取到了更低的错误率。当使用预先训练过的教师模型时，增强模型可能会导致对教师模型的过拟合，因为训练过程中不能更新。EMA教师在训练过程中通过与目标模型同时更新参数来防止过拟合，比预先训练过的教师模型带来更多的改进。

有趣的是，我们发现更强的教师模型却不是效果最好的。事实上WRN-28-10的错误率与CIFAR-10的教师相当，但在CIFAR_100中，其错误率低于WRN-40-2。

在余下的实验中，我们在TeachAugment中使用EMA教师模型，因为它不仅能够降低错误率，而且消除了教师模型的架构选择。

稳定技巧的影响。我们接下来研究在本文3.3中所介绍的稳定技术的效果。除了每种技术之外，我们在CIFAR-10和CIFAR-100上对WRN-28-10进行了训练。
在这里插入图片描述
训练结果详见表2.除了CIFAR-100上的颜色正则化外，所有的技术都有助于提高错误率。

我们在图4中可视化了颜色正则化的效果。可见，颜色分布通过颜色正则化来对齐。特别是，没有正则化的增强图像在使用CIFAR-100的许多像素当中失去了亮度信息。然而，颜色分布的对齐只能提高CIFAR-10的错误率。这可能是由于CIFAR-10的颜色多样性比CIFAR-100要窄，从图4中的颜色布中分可以看出。换句话说，在没有颜色正则化的情况下，颜色增强将产生样本分布外的颜色，获得的图像损害了目标模型对分布样本的识别精度。CIFAR-10转换后的图像由于颜色多样性低，倾向于这种分布样本。

我们用各种平滑参数值来评估标签平滑，结果详见图5。对于CIFAR-10的简单任务，更大的 $\epsilon$ 效果更好。正如已经在3.3中缪奥数的，对于简单的任务或较强的模型，非饱和损失的梯度往往很大，这意味着模型的预测往往非常有信心。因此，一个更大的 $\epsilon$ 避免了梯度爆炸，并稳定了CIFAR-10的训练。

对所提出的目标函数评估我们评估了所提出的目标函数，方程1的有效性。作为基线方法，我们将框架中的目标函数替换为对抗性的自增强[61]和点增强(PA)[28]的损失函数。为了公平对比，所有模型都是在相同的条件下进行训练，它们之间的差异是目标函数。细节设定详见附录。

结果在表3中显示。自增强目标函数的错误率高于基线，因为增强模型产生了使目标函数迷惑的不可识别图像。对于Adv.AA来说，我们需要仔细调整搜索空间的大小，以保证收敛性[61]，但我们不调整目标函数。此外，对于这种不稳定性，所提出的增强模型由于其特性而不合适，即颜色增强模型可以将输入的图像转换为任何图像。换言之，所提出的增强方法只能适用于保证转换后的图像可识别的方法。我们的方法比点增强有更低的错误率。点增强用一个动态参数控制增广数据的损失上界，但我们的方法没有这样的限制。因此，我们的方法提供了更多样化的转换和更好的错误率改进。增强的图像在附录中可见。

省略了一些

6.结论

我们提出了一种线上数据增强优化方法，称为教师增强，它在对抗性数据增强中引入了一个教师模型，无需谨慎调参就可以获得丰富的图像信息。我们也提出了基于神经网络的数据增强，简化了搜索空间的设计并能通过梯度方法更新数据增强。实验中，我们的方法优于现有的数据增强搜索框架(包括最先进的方法)，在图像分类、图像分割和非监督表示学习任务中不用针对不同的任务调整超参数。

**局限性.**由于缺少输入的全局信息，所提出的颜色增强法不能利用目标图像的全局信息来表示变换，如均衡化和自动对比度。如此的转换方法可以使用颜色直方图作为上下文向量来实现，但是会有大量计算，特别是对于高分辨率图像来说。而且，我们只关注几何和颜色两类增强，但有许多更高级的增强并没有被分类，如Cutout和Mixup。考虑到其他增强将是未来的工作。

教师增强的训练时间几乎是传统训练进程的3倍，因为更新数据增强模型需要对目标网络进行前向和后向训练，除此之外还要更新目标网络。然而，教学增强的训练时间几乎与其他在线方法[28,51]相同，实际上训练与自增强差不多。我们认为，在目前的先进计算机算力面前，这种差距是可以忽略不计的。

星辰阁

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
TeachAugment Data Augmentation Optimization Using Teacher Knowledge翻译

文章目录摘要1.引入2. 相关工作3. 用Teacher knowledge 数据增强优化3.1 准备工作3.2 TeachAugment3.3 改进技术4.用神经网络数据增强5.实验5.1 实施细节5.2消融实验6.结论论文原文：https://arxiv.org/abs/2202.12513论文原码：https://github.com/DensoITLab/TeachAugment出处：2022.3.7 CVPR摘要为了增强数据而优化图像变换函数已被深入研究。特别是对抗性数据增强策略（搜索增
复制链接

扫一扫