论文阅读：Localization-Aware Adaptive Pairwise Margin Loss for Fine-Grained Image Recognition

最新推荐文章于 2024-05-29 00:56:07 发布

Z字君

最新推荐文章于 2024-05-29 00:56:07 发布

阅读量350

点赞数

分类专栏： # 细粒度图像分析文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/zzc_zhuyu/article/details/117821875

版权

细粒度图像分析专栏收录该内容

16 篇文章 25 订阅

订阅专栏

本文介绍了一种改进的CutMix方法，结合定位技术生成定位感知图像，提出自适应成对边际损失，考虑语义相似样本间的距离，从而提高细粒度图像识别的精度。通过实验验证了该方法在SOTA中的优势和关键组件的效果。

摘要由CSDN通过智能技术生成

Localization-Aware Adaptive Pairwise Margin Loss for Fine-Grained Image Recognition

用于细粒度图像识别的定位感知自适应成对边距损失

文章目录

Localization-Aware Adaptive Pairwise Margin Loss for Fine-Grained Image Recognition

摘要

解决CutMix会产生无效图像的问题，并利用定位方法扩展CutMix
使用改进CutMix生成的图像，通过成对的边际损失提高了联合优化的识别精度
生成的图像中有一些与参考图像相似的图像，它们是通过替换参考图像中的相似部分生成的。这些生成图像不应该比嵌入空间中的边距值更远，因为这些生成的图像和参考图像具有相似语义。但传统的边距损失不能考虑那些比边距更远的图像。为了解决这个问题，提出了一个额外的边际损失来考虑那些生成的图像。
所提出的框架由两个阶段组成：部分定位感知CutMix和自适应成对边际损失

1 引言

两种途径：数据增广和深度度量学习（图像之间的语义相似性，联合优化损失）。

本文提出的方法分两步：第一步生成图像，第二步用损失拉近相似样本

结合现有的局部定位方法，克服CutMix的局限性。现有的部分定位方法使用通道分组网络从输入图像中定位三个部分。为了防止失败，将部分图像替换为与同一部分对应的其他图像的判别性部分，而不是在合并两个不同图像时裁剪随机区域。
成对损失。使用从改进的CutMix生成的负样本的分布提出了一个自适应margin。在成对边际损失中提出了一个额外的损失项，将样本和参考图像拉近。

文章贡献：

克服CutMix方法的缺点，使用现有的弱监督定位方法，通过“部分定位感知 CutMix模块”增强CutMix
提出了自适应边际和额外的成对损失项
实验

3 方法

3.1 部分定位感知CutMix

从一张参考图片使用其他的图片生成多张图片。

三张图片 $x_A,x_B,x_C$ ，应用目标定位方法CAM分别获得三个部分 $M_{part1},M_{part2},M_{part3}$ 。通过用其他图片的部分改变参考图像的部分，确定性地替换同一部分中的图像。这样有两种生成图片：

同类别不同图像SCDI：参考图像中的一或两个部分替换成同一类的图片的对应部分
不同类别不同图像DCDI：参考图像中的一或两个部分替换成不同类的图片的部分

$\tilde{x}=M_{part1}\odot x_A+M_{part2}\odot x_B+M_{part3}\odot x_c\\ \tilde{y} = B_Ay_A+B_By_B+B_Cy_C\\ s.t.B_A+B_B+B_C=1$

根据上面图的表示，结合公式看。 $x_A$ 就是参考图像，生成的图像中背景和其中一个部分是参考图像保留下来的。

由于参考图像被替换为判别部分，而不是随机裁剪，因此生成的图像中不会出现失败案例。

3.2 自适应成对边距损失

传统边际损失 $L_{conv}$ 根据一个指标训练同类或不同类：
$L_{conv}=\left\{ \begin{aligned} d(f(r),f(p)) & & if\quad Positive\quad Set \\ \max(0,m-d(f(r),f(n))) & & if\quad Negative\quad Set \\ \end{aligned} \right.$
$r, p, n$ 分别是参考图像、正例图像、负例图像。 $d(\cdot)$ 是两个特征向量之间的欧氏距离。（负例当 $d$ 大于 $m$ 之后就不需要优化了）。传统的边际损失遇到负例时，使用的是一个确定的margin。

本文提出了一个自适应边距和负集中额外的成对损失，以改善手动边距，并分别考虑传统成对损失中未考虑的具有相似语义的样本。

正集合

同类别不同图像SCDI，交换的是同一类的具有同一语义的部分。

$SCDI_1$ 交换一个部分
$SCDI_2$ 交换两个部分

所以生成图像和参考图像有相同的语义、相同的类别，提出的损失被设计为将三个样本嵌入到嵌入空间中的一个点上。 $s i m (i, j)$ 定义为两个样本之间的欧氏距离。三个图像之间的正例关系定义为：
$positive\quad relationship = sim(ref,SCDI_1)+sim(ref,SCDI_2)+sim(SCDI_1,SCDI_2)$

负集合

负集合包括四个图像。

$r e f$ ：参考图像
$DCDI_C$ ：另一个类别的图像
$DCDI_1$ ：三个部分中的一个部分被换掉
$DCDI_2$ ：三个部分中的两个部分被换掉

负集合的四个对：

$r e f$ 、 $DCDI_1$
$r e f$ 、 $DCDI_2$
$DCDI_1$ 、 $DCDI_2$
$r e f$ 、 $DCDI_C$

为了确定每对的自适应余量值，需要它们的大量样本 (ni)，除了参考图像。在每一对中，使用 $n_i$ 个图像的分布来定义 $m_1$ 。在这个过程中，许多 $D C D I$ 图像是通过将部分随机替换为其他图像而生成的。

在参考图像和 $DCDI_1$ 的情况下，通过替换来自不同类别的随机图像的一个部分来生成大量样本
$m_1=\frac{1}{N}\sum_{i=1}||f(r)-f(n_i)||_2$
（显然， $m_1$ 是参考图像和所有 $DCDI_1$ 的距离的均值，这样做随训练进行， $m_1$ 会越来越大）

虽然类别不同，但替换的是相同语义的部分，他们不应该无理由远。因此增加一个损失项,由于大多数样本位于嵌入空间中 DCDI 图像的质心附近，因此设置了与质心的间隙 $\sigma$ :
$\max(0,||f(r)-f(n)||-m_2)\\ m_2=m_1+\alpha \sigma$
距离要比 $m_2$ 小， $m_2$ 与 $m_1$ 相关。

不相似项：
$dissim(r,n)=\max(0,m_1-||f(r)-f(n)||)+\max(0,||f(r)-f(n)||-m_2)$
前面保证距离比 $m_1$ 大，后面保证距离比 $m_2$ 小。

因此可以得到负例关系：
$negative\quad relationship = dissim(ref,DCDI_1)+dissim(ref,DCDI_2)+dissim(DCDI_1,DCDI_2)\\ +\max(0,m_1-||f(ref)-f(DCDI_C)||)$
成对损失：
$L_{pair}=\left\{ \begin{aligned} positive\quad relationship & & if\quad Positive\quad Set \\ negative\quad relationship & & if\quad Negative\quad Set \\ \end{aligned} \right.$
最终损失：
$L=\lambda L_{cls}+(1-\lambda)L_{pair}$