RICAP: Random Image Cropping and Patching Data Augmentation for Deep CNNs
文章目录
摘要
random image cropping and patching(RICAP),随机裁剪四张图片并拼接构成一个新的训练图片。
1 引言
RICAP 裁剪四张训练图像并拼接起来以构建新的训练图像,它随机选择图像并确定裁剪尺寸,其中最终图像的尺寸与原始图像的尺寸相同,以与四个图像的面积成比例的比率混合类标签。
与 mixup 相比,RICAP 具有三个明显的区别:在空间上混合图像、通过裁剪部分使用图像、除了块边界外不会创建原始数据集中不存在的特征。
3 方法
3.1 RICAP
步骤:
- 从训练集随机选择四张图片
- 对每个图片分别进行裁剪
- 修补裁剪后的图像以构建新图像并输入到CNN中
将四张图像的类别标签与与图像区域成正比的比率混合在一起。
从训练集中随机选择四张图像 k ∈ { 1 , 2 , 3 , 4 } k\in \{1,2,3,4\} k∈{1,2,3,4}并在左上、右上、左下和右下打补丁。
I x I_x Ix和 I y I_y Iy 分别表示训练图像的宽度和高度,服从均匀分布画出四个图像 k k k的边界位置 ( w , h ) (w,h) (w,h) 。自动获得图像 k k k的裁剪尺寸 ( w k , h k ) (w_k, h_k) (wk,hk),即 w 1 = w 3 = w w_1 = w_3 = w w1=w3=w、 w 2 = w 4 = I x − w w_2 = w_4 = I_x − w w2=w4=Ix−w、 h 1 = h 2 = h h_1 = h_2 = h h1=h2=h和 h 3 = h 4 = I y − h h_3 = h_4 = I_y − h h3=h4=Iy−h。
为了按照计算出的尺寸裁剪四个图像,随机确定裁剪区域左上角的坐标 ( x k , y k ) (x_k, y_k) (xk,yk) 为 x k ∼ U ( 0 , I x − w k ) x_k\sim \mathcal U(0, I_x − w_k) xk∼U(0,Ix−wk) 和 y k ∼ U ( 0 , I y − h k ) y_k \sim \mathcal U(0,I_y - h_k) yk∼U(0,Iy−hk)。
通过混合四个图像的独热编码类标签 c k c_k ck来定义目标标签 c c c,其比率 W i W_i Wi与它们在新图像中的面积成正比。
3.2 优化
方案一:anywhere-RICAP。最简单,左上角可以位于任何位置。
w
∼
U
(
0
,
I
x
)
h
∼
U
(
0
,
I
y
)
w\sim\mathcal U(0,I_x)\\ h\sim\mathcal U(0,I_y)
w∼U(0,Ix)h∼U(0,Iy)
方案二:center-RICAP。将边界位置 (w, h) 限制在修补图像的中心。
w
∼
U
(
t
I
x
,
(
1
−
t
)
I
x
)
h
∼
U
(
t
I
y
,
(
1
−
t
)
I
y
)
t
∈
[
0
,
0.5
]
w\sim\mathcal U(tI_x,(1-t)I_x)\\ h\sim\mathcal U(tI_y,(1-t)I_y)\\ t\in[0,0.5]
w∼U(tIx,(1−t)Ix)h∼U(tIy,(1−t)Iy)t∈[0,0.5]
可以看出,
t
t
t等于0时,就是anywhere-RICAP,
t
t
t很大时,坐标被限制在很窄的范围。这有过度平滑标签的风险不利于正确分类(每个图象都占1/4)。
方案三:corner-RICAP。将边界位置 (w, h) 限制在图像的四个角。
w
∼
1
2
(
U
(
0
,
u
I
x
)
+
U
(
1
−
u
)
I
x
,
I
x
)
h
∼
1
2
(
U
(
0
,
u
I
y
)
+
U
(
1
−
u
)
I
y
,
I
y
)
u
∈
[
0
,
0.5
]
w\sim\frac{1}{2}(\mathcal U(0,uI_x)+\mathcal U(1-u)I_x,I_x)\\ h\sim\frac{1}{2}(\mathcal U(0,uI_y)+\mathcal U(1-u)I_y,I_y)\\ u\in[0,0.5]
w∼21(U(0,uIx)+U(1−u)Ix,Ix)h∼21(U(0,uIy)+U(1−u)Iy,Iy)u∈[0,0.5]
u
=
0.5
u=0.5
u=0.5时就是anywhere-RICAP。
4 实验
(CIFAR10和CIFAR100)。
- baseline:没有RICAP
- anywhere-RICAP没有超参数。看不太懂上面这个图,anywhere指标怎么看。
- corner-RICAP。无论u的范围如何,都比基线好
- center-RICAP。t比较小时比基线好
ImageNet