Attentive CutMix: An Enhanced Data Augmentation Approach for Deep Learning Based Image Classification
文章目录
摘要
之前的区域丢弃方法(cutout、cutmix等)通过部分遮挡对象的区分部分来促进网络更好地泛化,但都随机丢弃,而没有捕获对象中最重要的区域。本文提出了Attentive CutMix,训练过程中基于来自特征提取器的中间注意力图来选择最具描述性的区域,搜索图像中最具区别性的部分。
1 引言
图1比较了涉及到的相关策略:
本文的动机:**之前的区域丢弃策略都是随机选择区域,但是最具区别性的部分可能有更好的效果。**为此,在CutMix基础上增加了注意力机制,也就是本文的Attentive CutMix方法。
2 相关研究
数据增广
- 朴素数据增广:翻转,旋转,缩放,裁切,对比度,平移,添加高斯噪声等。
- 针对自然数据数据增广:不同季节的效果
- 本文首先从对象中识别出最重要的部分,然后剪切和粘贴来生成新图像。
CutMix
将一个图像中的块随机剪切并粘贴到另一个图像上,同时将真实标签按块大小成比例地混合在一起
注意力机制
本文介绍了一种简单的基于注意力的区域选择,可以在空间上找出最有区别的部分。
3 方法
3.1 算法
x ~ = B ⊙ x 1 + ( 1 − B ⊙ x 2 ) y ~ = λ y 1 + ( 1 − λ ) y 2 \tilde{x}=\mathbf{B}\odot x_1+(\mathbf1-\mathbf{B}\odot x_2)\\ \tilde{y}=\lambda{y_1}+(1-\lambda)y_2 x~=B⊙x1+(1−B⊙x2)y~=λy1+(1−λ)y2
B \mathbf{B} B是二进制掩模。
- 将图像A经过预训练分类模型,获得热力图(以7×7为例)。
- 从7×7网格中选择top“ N”个块作为注意力区域色块,从给定图像中剪切出来。
- 从图像A中剪切出这些选中的块,粘贴到图像B上的相应位置。
- 对于组合标签 y ~ \tilde{y} y~,假设从7×7网格中挑选出前6个注意块,则λ将为 6 49 \frac{6}{49} 496。
3.2 对CutMix的理论改进
Attentive CutMix不是随机选择块,而是借助预训练网络确定图像中最具区分性的区域。这项技术的有效性与预训练模型直接相关。
Attentive CutMix通过使用注意力消除随机性使图像融合更加健壮,在块选择和粘贴两方面得到了改善。
4 实验
top6可以取得最佳平均性能,6个以下不能为第二张图像中的对象提供足够的遮挡,6个以上可能会给图像中的对象提供过多的遮挡。
方法的缺点是:除了要训练的实际网络之外,还需要预训练的特征提取器。但是,根据分类任务以及模型和数据集的训练复杂性,可以更改在数据增强中使用的预训练提取器的大小。
5 结论
- 提出了Attentive CutMix,基于注意力的数据增强方法,自动找到对象的最有区别的部分,将其替换为从其他图像切出的块。
- 在CIFAR-10/100上进行的实验评估验证了方法的有效性,对各种网络体系结构均有改进。
6 思考
算法很简单,在cutmix基础上加了注意力块。但是还是没有解决标签构造的问题。将图A中最有区别性的区域放到了图B中,但是标签还是按照面积占比进行计算,感觉是不合理的。而且,生成的图像不会像图2中那么好,高响应的位置往往集中在一起。