论文笔记：RandAugment

最新推荐文章于 2024-01-16 09:44:43 发布

Zerg Wang

最新推荐文章于 2024-01-16 09:44:43 发布

阅读量9.1k

点赞数 15

分类专栏： Machine Learning 文章标签：深度学习 augment autoaugment 数据增强机器学习

转载请注明出处，谢谢合作！

本文链接：https://blog.csdn.net/zerg_wang/article/details/105030503

版权

Machine Learning 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

梗概

自动数据增强方法（AutoAugment、Fast AutoAugment、PBA等）针对网络和数据集，自动搜索出最为适合的数据增强方式。然而在本篇论文中，作者对以上这些方法表示了怀疑。一方面，以上方法使用“代理任务”或“子实验”，即使用子模型在部分数据集上搜索策略的做法，作者认为是不够“全面”的，认为这种搜索方法只能得到次优的结果，且无法根据模型或数据集大小调整正则化强度；另一方面，以上任务计算量过大、运行时间过长，效率较低。对此，作者提出了新的自动增强方法“RandAugment”，应用该方法，作者在图像分类和目标检测任务中都取得了较好的成绩。

RandAugment方法

自动数据增强方法的随机性

首先讲讲自动数据增强方法中的”随机性“。以AutoAugment为例，通过搜索得出的最佳增强策略中，有多个（假设有K个）子策略，然后在训练时，对于某一批次的数据，从这K个中随机选择一个进行应用（这是随机性的第一层体现）。每个子策略由两种增强操作构成，每个操作有概率和幅度两个参数，也就是说，即使选中了这个子策略，这一批次的数据有没有被增强，或者经过这两个操作中哪个的增强，都由该子策略中的这两个概率参数控制（这是随机性的第二层体现）。即使应用了某一操作，比如旋转，虽然幅度参数指定了增强的幅度（比如说旋转45度），但具体是逆时针还是顺时针同样也是随机的（这是随机性的第三层体现）。

RandAugment方法

对此，作者舍弃掉这一系列的随机性（按我的理解是，这些反复的随机性，其实是削弱了AutoAugment中概率和幅度参数的作用。因此作者认为舍弃掉概率参数，或者说，将这些参数设为统一的值，从而免去搜索这些值的时间，换来效率的提高是值得的），直接将每种操作的应用概率设置为一样。因此，RandAugment方法为：

1. 设定一个操作集，例如作者的操作集由14种操作构成：Identity、AutoContrast、Equalize、Rotate、Solarize、Color、Posterize、Contrast、Brightness、Sharpness、ShearX、ShearY、TranslateX、TranslateY。

2. RandAugment只有两个参数：N和M。其中N为在每次增强时使用N次操作（使用的这N个操作，都是从操作集中等概率抽取的，例如操作集中有14种操作，则每种操作被选中的概率为1/14，每张图像的N次增强中，选到的操作可能是一样的），M为正整数，表示所有操作在应用时，幅度都为M。

3. 使用网格搜索，或者更为高端的方法（如反向传播等）在完整数据集、完整网络上实验，找到最适合的N和M。这样一来，假如说N的搜索空间为1和2，M为1至10，则搜索空间仅为10^2，远小于之前的自动增强方法。

通过更改N、M的值，便能控制训练时的正则化强度。N、M越大，正则化强度则越高。

猜想与实验

对“代理任务”的质疑

作者在论文开篇就质疑了之前的自动数据增强方法使用”代理任务“，即为了提高效率，在子网络、子数据集上搜索增强策略。作者认为藉由”代理任务“搜索得来的策略不是最适合完整网络和完整数据集的。对此，作者使用RandAugment进行了实验：

在CIFAR10数据集上，设置N=1，使用不同宽度的Wide-ResNet网络，得出了：不同的网络经过增强及训练后，达到最佳精度所用的M不同。也就是说，如果使用的”代理任务“中，所使用的子网络与最后应用完整增强策略的原网络不同，则通过子网络搜索得到的“最佳策略”，仅仅是对子网络而言的。则也验证了作者通过“代理任务”只能得到次优结果的猜想。

同样的，“代理任务”如果使用子数据集（在AutoAugment和Fast AutoAugment中，是各种Reduced数据集），得到的也很有可能是次优结果。作者的实验如下：

同样的网络，N均设为1，在不同大小的数据集上达到最佳精度时的M并不一致。值得一提的是，实验表明，越大的数据集（CIFAR10）达到最佳精度，所需要的幅度越大，这与以往的经验是相悖的。对于这种现象，其中一种解释是：对于小数据集而言，过于激进的增强操作会带来较低的信噪比，从而导致效果不佳。

对14种增强操作的研究

RandAugment使用默认的14种操作，在不同任务的多个数据集上达到了SOTA精度，一定程度上说明了该方法对于操作的选择是不敏感的。对此，作者进行了更深入的实验，探究每种操作对于整体精度的影响。（以下实验使用Wide-ResNet-28-2以及CIFAR10数据集，N=3，M=4）

左上角图a，作者从14种操作中，分别随机选出1、2、3……14种操作，来探究操作集数量（不是操作数量）对精度的影响。可以看出，在使用默认的14种操作的情况下，操作集越大，对精度的提升越高。

对于探究单一操作对整体精度的影响，作者的做法是：在随机采样操作而形成的操作集中，通过对比加入某种操作和不加入该操作，来探究单一操作对整体精度的影响：

通过该图可知，在CIFAR10数据集上，最有效的增强操作为rotate，而posterize效果最差（甚至起到了反效果）。

对概率的考量

将所有操作的选择概率设为相同的值，相比于对概率值进行搜索，两种方法在效果上会有怎样的差距？作者做了以下实验：

首先引入 $\LARGE \alpha_{ij}$ ，表示第i次采取增强操作时，使用第j种操作的概率。假设采取N次增强，操作集中有K种操作，则 $\LARGE \alpha_{ij}$ 共有参数K*N个。

由于大多增强操作是可微分的（如Posterize、Equalize以及AutoContrast），因此可采用反向传播方法。首先将 $\LARGE \alpha_{ij}$ 初始化为相同的值（即每种操作被选中的概率相同），然后通过评判经过 $\LARGE \alpha_{ij}$ 增强及训练后的网络精度，来更新 $\LARGE \alpha_{ij}$ 中的参数。

作者称该方法为“1st-order density matching approximation”，并与其他方法进行对比：

可以看出，提升效果还是很明显的，但作者也说，该方法计算量太大，对于小数据集尚有应用意义，对于大数据集，作者表示“reserve explorations for the future”……

另外，作者在论文附录A.1.提出了Second order term，详细推导这里不再赘述（我看不懂……）

对幅度的考量

将所有操作的幅度设为相同的固定值，效果好不好呢？作者做了以下两个实验：

1. 其他操作幅度一致，但单独改变一个操作的幅度，然后对在该条件训练的网络精度进行测量：

图中折线中，正方形表示幅度取该值的时候精度最大，菱形表示操作的幅度取值与其他操作一致。其中，使用Wide-ResNet-28-2网络的实验，M=4，使用Wide-ResNet-28-10的M=5。从最终实验结果看，在采用全部统一的幅度的条件下得到的精度，和通过实验找到的最佳精度，之间的差距是非常小的。Rotate + Wide-ResNet-28-2下，两者之差为0.19%，Rotate + Wide-ResNet-28-10为0.18%，TranslateX + Wide-ResNet-28-2为0.07%，TranslateX + Wide-ResNet-28-10为0.05%。

2. 训练过程中操作幅度的取值方式，作者设置了四种：在限定范围内随机取值；统一的固定值；线性递增的值；在范围内随机取值，但随着训练进行，范围会越来越大。实验结果如图：（实验条件均为CIFAR10 + Wide-ResNet-28-10）