GridMask Data Augmentation-文献阅读笔记

最新推荐文章于 2021-08-18 23:04:20 发布

不吃

最新推荐文章于 2021-08-18 23:04:20 发布

阅读量698

点赞数 1

文章标签：计算机视觉算法 python

本文链接：https://blog.csdn.net/weixin_44111292/article/details/107135197

版权

摘要
本文提出了一种新的数据扩充方法GridMask。它利用信息丢弃来实现各种计算机视觉任务的最新成果。分析了信息丢弃的需求。然后，我们指出了现有信息丢弃算法的局限性，并提出了一种简单而有效的结构化方法。它基于对输入图像区域的删除。我们的大量实验表明，我们的方法优于最新的自动增强算法，后者由于使用强化学习来寻找最佳策略，计算成本更高。在用于识别的ImageNet数据集、COCO2017目标检测和用于语义分割的城市景观数据集上，我们的方法都比基线显著提高了性能。大量的实验表明了新方法的有效性和通用性。
引言
数据扩充技术是从现有数据中生成更多有用数据的重要技术，用于训练实用的、通用的cnn，减少过拟合。
现有的数据增强方法大致可分为三类：空间变换、颜色失真和信息丢弃。
空间变换涉及到一组基本的数据扩充方法，如随机尺度、裁剪、翻转和随机旋转等，在模型训练中得到了广泛的应用。
颜色失真，包括亮度、色调等的变化。
这两种方法的目的是通过改变一些信息通道，将训练数据转化为更好地模拟真实世界的数据。
近年来，信息丢弃因其有效性和/或高效性而得到广泛应用。它包括随机擦除、CutOut和hide-and-seek （HAS）。众所周知，CNNs通过删除图像中的一级信息，可以学习到原本不那么敏感或重要的信息，增加感受野，从而显著提高模型的鲁棒性。

动机
避免对连续区域的过度删除和保留是信息丢弃方法的核心要求。有趣的是，一个成功的信息删除方法应该在图像区域信息的删除和保留之间达到合理的平衡。从直觉上讲，原因是双重的。
一方面，过多地删除一个或几个区域会导致完全的对象删除和上下文信息的删除。因此，剩余信息不足以被分类，图像更像是噪声数据。另一方面，过多的保存区域会使一些对象保持不变。它们都是微不足道的图像，可能会导致网络鲁棒性的降低。因此，设计一个简单的方法来减少引起这两个问题的机会就变得至关重要了
现有的信息丢弃算法在连续区域的删除和保留之间取得合理平衡的机会不同。
cutout和随机擦除只删除图像的一个连续区域，由于删除区域是一个区域，因此这两个条件的不平衡是显而易见的。它有很好的机会覆盖整个物体，或者完全不覆盖，这取决于大小和位置。HaS的方法是将图片均匀地分成小块，然后随机删除。它更有效，而且仍然有很大的机会不断删除或保留区域。现有方法的一些不成功的例子如图1所示。
在这里插入图片描述
与以前的方法相反，我们惊奇地发现，在统计上能够更好地平衡这两个条件的非常简单的策略是使用结构化的丢弃区域，例如删除均匀分布的正方形区域。因此，我们提出的信息删除方法GridMask，就是扩展结构化删除。它的结构非常简单，如图2所示，使其易于、快速和灵活地实现并融入所有现有的CNN模型中。
在这里插入图片描述
我们的GridMask既不删除连续的大区域，如cutout，也不随机选择正方形，如HaS。删除区域只是一组空间均匀分布的正方形。在这种结构中，通过控制删除区域的密度和大小，我们在统计上有更高的机会在这两个条件之间实现良好的平衡，如图5所示。因此，我们使用我们非常简单的网格掩码，以极低的计算预算，对许多最先进的CNN基线模型进行了很好的改进。
在这里插入图片描述
为了证明GridMask的有效性，我们设计并进行了大量的实验，如表1所示，在使用数据集ImageNet进行图像分类时，GridMask可以将ResNet50的准确率从76.5%提高到77.9%，比Cutout和HaS更有效率，他们的准确率分别提高到了77.1%和77.2%。我们的结果也优于AutoAugment（77.6%），后者是通过强化学习将现有的几种策略结合在一起。请注意，我们的方法只是一个简单的策略，它也可以合并到AutoAugment中。
在这里插入图片描述
相关工作
数据扩充也是一种有效的正则化方法。与其他方法相比，数据扩充具有许多优点。例如，它只需要对输入数据进行操作，而不需要改变网络结构。而且数据扩充很容易应用于许多任务，而其他基于损失函数或标签的方法可能需要额外的设计。
GridMask
GridMask是一种简单、通用、高效的策略。给定一幅输入图像，我们的算法会随机删除其中的一些像素。与其他方法不同，我们的算法去除的区域既不是连续的区域，也不是随机的丢失像素。相反，我们的算法删除了一个像素集不连续的区域，如图3所示。
在这里插入图片描述
结果与讨论
提出了一种基于简单有效的信息丢弃策略。它删除均匀分布的区域，最后形成网格形状。使用此形状删除信息比设置完全随机位置更有效。在不同的任务和模式上都取得了显著的改进。在ImageNet数据集上，它将基线增加了1.4%。在2017年的任务中，我们对任务的语义进行了8%的改进。这种效果一直强于其他基于信息删除的数据扩充方法。
此外，我们的方法可作为未来资料扩充搜寻演算法的新基线原则。我们的方法是使用结构化信息丢弃的一种成功的方法，并且我们相信还有更多结构优良的方法。我们希望对信息丢弃方法的研究能启发更多的人去理解设计有效结构的重要性，甚至有助于强化学习得到改进。