深度学习中的数据增强方法（Data Augumentation）总结

最新推荐文章于 2023-01-16 15:24:07 发布

不吃

最新推荐文章于 2023-01-16 15:24:07 发布

阅读量4.3k

点赞数 5

文章标签：计算机视觉机器学习

本文链接：https://blog.csdn.net/weixin_44111292/article/details/107367676

版权

数据增强从现有数据中生成更多有用数据的重要技术，用于训练实用的、通用的卷积神经网络，在不改变神经网络结构的前提下能有效降低过拟合，是一种有效的正则方法。目前深度学习中的数据增强方法大致有三类：
空间变换
颜色失真
信息丢弃
空间变换涉及到一组基本的数据扩充方法，如随机尺度、裁剪、翻转和随机旋转等，在模型训练中得到了广泛的应用。颜色失真，包括亮度、色调等的变化，也用于一些模型。这两种方法的目的是通过改变一些信息通道，将训练数据转化为更好地模拟真实世界的数据。
近年来，信息丢弃因其有效性和/或高效性而得到广泛应用。它包括random erasing、CutOut和hide-and-seek （HaS）。众所周知，通过删除图像中的某一级别信息，CNNs可以学习原来不那么敏感或重要的信息，增加感受野，从而显著提高模型的鲁棒性。
避免对连续区域的过度删除和保留是信息丢弃方法的核心要求。有趣的是，一个成功的信息丢弃方法应该在图像区域信息的删除和保留之间达到合理的平衡。
一方面，过多地删除一个或几个区域会导致完全的对象删除和上下文信息的删除。因此，剩余信息不足以被分类，图像更像是噪声数据。另一方面，过多的保存区域会使一些对象保持不变。它们都是微不足道的图像，可能会导致网络鲁棒性的降低。
random erasing和CutOut只删除图像的一个连续区域，由于删除区域是一个区域，因此两个条件的不平衡是显而易见的。它有很好的机会覆盖整个物体，或者完全不覆盖，这取决于大小和位置。
HaS的方法是将图片均匀地分成小块，然后随机删除。它更有效，而且仍然有很大的机会不断删除或保留区域。CutOut和HaS例子如下图所示。

在统计上能够更好地平衡这两个条件的非常简单的策略是使用结构化的丢弃区域，例如删除均匀分布的正方形区域。信息删除方法GridMask，就是扩展结构化删除。它的结构非常简单，如下图所示，使其易于、快速和灵活地实现并融入所有现有的CNN模型中。
在这里插入图片描述
GridMask既不会像Cutout那样移除一个连续的大区域，也不会像HaS那样随机选择方块。删除区域只是一组空间均匀分布的正方形。在这种结构中，通过控制删除区域的密度和大小，在统计学上我们有更高的机会在两种情况之间取得良好的平衡。因此，我们使用非常简单的GridMask以极低的计算预算很好地改进了许多最先进的CNN基线模型。
但是GridMask方法在细粒度分类时，很有可能还是会遮挡重要的特征，其对小对象的保留效果很差，基于此，我们设计了一种具有重要稀疏性和规律性的数据增强方法——FenceMask，如下图所示。虽然该方法破坏了图像中物体的连续性，但损伤是可以接受的。FenceMask是一个简单的设计，易于实现，并且不会生成任何额外的计算。它可以应用于所有卷积神经网络和各种计算机视觉任务，特别是在一些包含更多小物体或特征的数据集中表现出特别好的性能。
在这里插入图片描述
一些数据增强方法，如Hide and Seek， Random Erasing ， GridMask，虽然它们可以在粗粒度的图像面前实现更好的遮挡。然而，在面对细粒度的图像时，它们很可能会阻塞重要的特征

FenceMask会生成连续块，而不是随机删除一些像素图像或生成矩形块，它产生连续的fence block并以确定值填充。与其他方法不同，该方法具有更好的稀疏性和规律性，有助于分割更多的物体特征，减少物体的总遮挡。我们的方法的形状看起来像一个栅栏。
信息丢弃方法可以有效地引导模型关注对象的不那么区分的部分（例如腿，而不是人的头部），从而使网络更好地泛化并具有更好的对象定位能力。另一方面，现有的信息丢弃方法通过叠加一块黑色像素或随机噪声来去除训练图像上的信息像素。这种删除是不可取的，因为它会导致信息丢失和训练集效率低下。
虽然信息丢弃在一定程度上改善了分类和定位性能，但删除的区域通常被置零或填充随机噪声，这大大降低了训练图像中信息像素的比例。我们认识到这是一个严重的概念限制，因为cnn通常需要大量的数据。我们如何最大限度地利用删除的区域，同时利用更好的泛化和本地化利用区域丢弃？
因此提出了一种简单且与数据无关的数据增强方式，被称作 mixup 。简而言之，mixup 构建了虚拟的训练样本。mixup邻域分布可以被理解为一种数据增强方式，它令模型在处理样本和样本之间的区域时表现为线性。我们认为，这种线性建模减少了在预测训练样本以外的数据时的不适应性
由于mixup通过线性插值的方法得出的图像不够自然，接着提出了CutMix增强策略：在训练集图像中剪切和粘贴补丁，其中ground truth label也与补丁的面积成比例混合。通过有效地利用训练像素并保留区域丢失的正则化效果。
在CutMix中我们不是简单地删除像素，而是用另一幅图像中的补丁替换移除的区域（见下表）。地面真实标签也与合并图像的像素数成比例混合。CutMix现在具有在训练过程中不存在非信息像素的特性，使得训练效率更高，同时保留了信息丢弃的优点，可以处理对象的非歧义部分。添加的面片通过要求模型从局部视图识别对象，进一步增强了定位能力。训练和推理预算保持不变。
CutMix与Mixup有相似之处，Mixup通过插值图像和标签来混合两个样本。虽然可以提高分类性能，但混合样本往往不自然。CutMix通过将图像区域替换为另一个训练图像中的补丁来克服这个问题
在这里插入图片描述