Localization-Aware Adaptive Pairwise Margin Loss for Fine-Grained Image Recognition
用于细粒度图像识别的定位感知自适应成对边距损失
文章目录
摘要
- 解决CutMix会产生无效图像的问题,并利用定位方法扩展CutMix
- 使用改进CutMix生成的图像,通过成对的边际损失提高了联合优化的识别精度
- 生成的图像中有一些与参考图像相似的图像,它们是通过替换参考图像中的相似部分生成的。这些生成图像不应该比嵌入空间中的边距值更远,因为这些生成的图像和参考图像具有相似语义。 但传统的边距损失不能考虑那些比边距更远的图像。为了解决这个问题,提出了一个额外的边际损失来考虑那些生成的图像。
- 所提出的框架由两个阶段组成:部分定位感知CutMix和自适应成对边际损失
1 引言
两种途径:数据增广和深度度量学习(图像之间的语义相似性,联合优化损失)。
本文提出的方法分两步:第一步生成图像,第二步用损失拉近相似样本
- 结合现有的局部定位方法,克服CutMix的局限性。现有的部分定位方法使用通道分组网络从输入图像中定位三个部分。为了防止失败,将部分图像替换为与同一部分对应的其他图像的判别性部分,而不是在合并两个不同图像时裁剪随机区域。
- 成对损失。使用从改进的CutMix生成的负样本的分布提出了一个自适应margin。在成对边际损失中提出了一个额外的损失项,将样本和参考图像拉近。
文章贡献:
- 克服CutMix方法的缺点,使用现有的弱监督定位方法,通过“部分定位感知 CutMix模块”增强CutMix
- 提出了自适应边际和额外的成对损失项
- 实验
3 方法
3.1 部分定位感知CutMix
从一张参考图片使用其他的图片生成多张图片。
三张图片 x A , x B , x C x_A,x_B,x_C xA,xB,xC,应用目标定位方法CAM分别获得三个部分 M p a r t 1 , M p a r t 2 , M p a r t 3 M_{part1},M_{part2},M_{part3} Mpart1,Mpart2,Mpart3。通过用其他图片的部分改变参考图像的部分,确定性地替换同一部分中的图像。这样有两种生成图片:
- 同类别不同图像SCDI:参考图像中的一或两个部分替换成同一类的图片的对应部分
- 不同类别不同图像DCDI:参考图像中的一或两个部分替换成不同类的图片的部分
x ~ = M p a r t 1 ⊙ x A + M p a r t 2 ⊙ x B + M p a r t 3 ⊙ x c y ~ = B A y A + B B y B + B C y C s . t . B A + B B + B C = 1 \tilde{x}=M_{part1}\odot x_A+M_{part2}\odot x_B+M_{part3}\odot x_c\\ \tilde{y} = B_Ay_A+B_By_B+B_Cy_C\\ s.t.B_A+B_B+B_C=1 x~=Mpart1⊙xA+Mpart2⊙xB+Mpart3⊙xcy~=BAyA+BByB+BCyCs.t.BA+BB+BC=1
根据上面图的表示,结合公式看。 x A x_A xA就是参考图像,生成的图像中背景和其中一个部分是参考图像保留下来的。
由于参考图像被替换为判别部分,而不是随机裁剪,因此生成的图像中不会出现失败案例。
3.2 自适应成对边距损失
传统边际损失
L
c
o
n
v
L_{conv}
Lconv根据一个指标训练同类或不同类:
L
c
o
n
v
=
{
d
(
f
(
r
)
,
f
(
p
)
)
i
f
P
o
s
i
t
i
v
e
S
e
t
max
(
0
,
m
−
d
(
f
(
r
)
,
f
(
n
)
)
)
i
f
N
e
g
a
t
i
v
e
S
e
t
L_{conv}=\left\{ \begin{aligned} d(f(r),f(p)) & & if\quad Positive\quad Set \\ \max(0,m-d(f(r),f(n))) & & if\quad Negative\quad Set \\ \end{aligned} \right.
Lconv={d(f(r),f(p))max(0,m−d(f(r),f(n)))ifPositiveSetifNegativeSet
r
,
p
,
n
r,p,n
r,p,n分别是参考图像、正例图像、负例图像。
d
(
⋅
)
d(\cdot)
d(⋅)是两个特征向量之间的欧氏距离。(负例当
d
d
d大于
m
m
m之后就不需要优化了)。传统的边际损失遇到负例时,使用的是一个确定的margin。
本文提出了一个自适应边距和负集中额外的成对损失,以改善手动边距,并分别考虑传统成对损失中未考虑的具有相似语义的样本。
正集合
同类别不同图像SCDI,交换的是同一类的具有同一语义的部分。
- S C D I 1 SCDI_1 SCDI1交换一个部分
- S C D I 2 SCDI_2 SCDI2交换两个部分
所以生成图像和参考图像有相同的语义、相同的类别,提出的损失被设计为将三个样本嵌入到嵌入空间中的一个点上。
s
i
m
(
i
,
j
)
sim(i,j)
sim(i,j)定义为两个样本之间的欧氏距离。三个图像之间的正例关系定义为:
p
o
s
i
t
i
v
e
r
e
l
a
t
i
o
n
s
h
i
p
=
s
i
m
(
r
e
f
,
S
C
D
I
1
)
+
s
i
m
(
r
e
f
,
S
C
D
I
2
)
+
s
i
m
(
S
C
D
I
1
,
S
C
D
I
2
)
positive\quad relationship = sim(ref,SCDI_1)+sim(ref,SCDI_2)+sim(SCDI_1,SCDI_2)
positiverelationship=sim(ref,SCDI1)+sim(ref,SCDI2)+sim(SCDI1,SCDI2)
负集合
负集合包括四个图像。
- r e f ref ref:参考图像
- D C D I C DCDI_C DCDIC:另一个类别的图像
- D C D I 1 DCDI_1 DCDI1:三个部分中的一个部分被换掉
- D C D I 2 DCDI_2 DCDI2:三个部分中的两个部分被换掉
负集合的四个对:
- r e f ref ref、 D C D I 1 DCDI_1 DCDI1
- r e f ref ref、 D C D I 2 DCDI_2 DCDI2
- D C D I 1 DCDI_1 DCDI1、 D C D I 2 DCDI_2 DCDI2
- r e f ref ref、 D C D I C DCDI_C DCDIC
为了确定每对的自适应余量值,需要它们的大量样本 (ni),除了参考图像。在每一对中,使用 n i n_i ni个图像的分布来定义 m 1 m_1 m1。在这个过程中,许多 D C D I DCDI DCDI 图像是通过将部分随机替换为其他图像而生成的。
在参考图像和
D
C
D
I
1
DCDI_1
DCDI1 的情况下,通过替换来自不同类别的随机图像的一个部分来生成大量样本
m
1
=
1
N
∑
i
=
1
∣
∣
f
(
r
)
−
f
(
n
i
)
∣
∣
2
m_1=\frac{1}{N}\sum_{i=1}||f(r)-f(n_i)||_2
m1=N1i=1∑∣∣f(r)−f(ni)∣∣2
(显然,
m
1
m_1
m1是参考图像和所有
D
C
D
I
1
DCDI_1
DCDI1的距离的均值,这样做随训练进行,
m
1
m_1
m1会越来越大)
虽然类别不同,但替换的是相同语义的部分,他们不应该无理由远。因此增加一个损失项,由于大多数样本位于嵌入空间中 DCDI 图像的质心附近,因此设置了与质心的间隙
σ
\sigma
σ:
max
(
0
,
∣
∣
f
(
r
)
−
f
(
n
)
∣
∣
−
m
2
)
m
2
=
m
1
+
α
σ
\max(0,||f(r)-f(n)||-m_2)\\ m_2=m_1+\alpha \sigma
max(0,∣∣f(r)−f(n)∣∣−m2)m2=m1+ασ
距离要比
m
2
m_2
m2小,
m
2
m_2
m2与
m
1
m_1
m1相关。
不相似项:
d
i
s
s
i
m
(
r
,
n
)
=
max
(
0
,
m
1
−
∣
∣
f
(
r
)
−
f
(
n
)
∣
∣
)
+
max
(
0
,
∣
∣
f
(
r
)
−
f
(
n
)
∣
∣
−
m
2
)
dissim(r,n)=\max(0,m_1-||f(r)-f(n)||)+\max(0,||f(r)-f(n)||-m_2)
dissim(r,n)=max(0,m1−∣∣f(r)−f(n)∣∣)+max(0,∣∣f(r)−f(n)∣∣−m2)
前面保证距离比
m
1
m_1
m1大,后面保证距离比
m
2
m_2
m2小。
因此可以得到负例关系:
n
e
g
a
t
i
v
e
r
e
l
a
t
i
o
n
s
h
i
p
=
d
i
s
s
i
m
(
r
e
f
,
D
C
D
I
1
)
+
d
i
s
s
i
m
(
r
e
f
,
D
C
D
I
2
)
+
d
i
s
s
i
m
(
D
C
D
I
1
,
D
C
D
I
2
)
+
max
(
0
,
m
1
−
∣
∣
f
(
r
e
f
)
−
f
(
D
C
D
I
C
)
∣
∣
)
negative\quad relationship = dissim(ref,DCDI_1)+dissim(ref,DCDI_2)+dissim(DCDI_1,DCDI_2)\\ +\max(0,m_1-||f(ref)-f(DCDI_C)||)
negativerelationship=dissim(ref,DCDI1)+dissim(ref,DCDI2)+dissim(DCDI1,DCDI2)+max(0,m1−∣∣f(ref)−f(DCDIC)∣∣)
成对损失:
L
p
a
i
r
=
{
p
o
s
i
t
i
v
e
r
e
l
a
t
i
o
n
s
h
i
p
i
f
P
o
s
i
t
i
v
e
S
e
t
n
e
g
a
t
i
v
e
r
e
l
a
t
i
o
n
s
h
i
p
i
f
N
e
g
a
t
i
v
e
S
e
t
L_{pair}=\left\{ \begin{aligned} positive\quad relationship & & if\quad Positive\quad Set \\ negative\quad relationship & & if\quad Negative\quad Set \\ \end{aligned} \right.
Lpair={positiverelationshipnegativerelationshipifPositiveSetifNegativeSet
最终损失:
L
=
λ
L
c
l
s
+
(
1
−
λ
)
L
p
a
i
r
L=\lambda L_{cls}+(1-\lambda)L_{pair}
L=λLcls+(1−λ)Lpair
4 实验
4.1 SOTA
4.2 消融实验
目标函数的影响
m1图像数量的影响
正负集的比例
5 结论
提出了一种改进的Cutmix方法和定位感知自适应成对边际损失:第一阶段利用现有的部件定位方法并生成图像来改进CutMix。 在第二阶段,使用第一阶段生成的图像提出了一种自适应成对边际损失。
提出的附加损失考虑了与参考图像具有相似语义并且比现有成对边缘损失中未考虑的边缘更远的样本。