论文阅读：(InPS) Intra-class Part Swapping for Fine-Grained Image Classification

Z字君

已于 2024-09-27 17:35:48 修改

阅读量175

点赞数

分类专栏： # mix 文章标签：深度学习计算机视觉

于 2021-06-19 21:16:25 首次发布

本文链接：https://blog.csdn.net/zzc_zhuyu/article/details/118059284

版权

mix 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Intra-class Part Swapping for Fine-Grained Image Classification

2021 WACV

文章目录

Intra-class Part Swapping for Fine-Grained Image Classification

0 摘要

mix类方法的局限性：混合随机图像内容可能会产生包含破坏对象结构的图像。由于类别差异主要存在于小部分区域，与混合像素的数量成比例地混合标签可能会导致标签噪声问题。

为了增加更合理的训练数据，提出了类内部分交换（InPS），通过对来自同一类的输入对执行注意力指导的内容交换来产生新数据，避免了引入噪声标签（因为是同一类）并确保生成图像中对象的整体结构（交换同语义）。

通过结合中级特征学习，达到了最先进的性能。

1 引言

mix这一系列的数据增广方法对于细粒度图像来说存在很大的局限性。

本文提出了InPS，对要混合的图像内容和标签对施加了限制。

从同一类中随机选择输入对，然后构建一个注意力池来指导两个潜在部分区域之间的内容交换。

3 方法

给定图片根据特征定位到目标，将图片分成两个区域，包含关键信息的内部注意力区域和外部保留区域。

给定注意区域，目标是驱动网络在更多样化的上下文中理解细粒度对象，需要解决以下两个问题：

仅给定图像级标签，如何定义和获取确定的区域。
将图像混合成新样本时如何保留监督信息

3.1 注意力先验

使用CAM得到初始注意力图 $M_a$ ，规定一个阈值 $\delta$ ，得到二进制掩模 $B_a$ （大于阈值的地方为1，反之亦然）。

架构包含一个共享主干网络，这样可以从不同层生成注意力图。以两个attention为例，对应的两个子网络分别用 $S_a$ 和 $S_b$ 表示。 $S_a$ 和 $S_b$ 的区别在于卷积层数和线性分类器之前的池化方法。两个子网络都从一个卷积块开始，其目标是确定初始注意力。

通过结合初始注意力图，引入了注意力池。通过从指定分布中采样阈值 $\delta$ ，注意力空间被扩展到一个更大的空间。训练阶段，随机采样注意力对来指导交换操作。

3.2 类内部分交换

图像对： $I_1,l_1),(I_2,l_2)$ ，其中 $l_1=l_2$ 。为了在同类中执行交换操作，在源图像的注意力块中应用一个仿射变换 $T$ （缩放和平移）。

从 $I_2$ 的一部分交换到 $I_1$ 为例，合成图像计算为：
$\tilde{I_1}=S(F(G(I_2),T_{\theta}),B_2*I_2)+(1-B_1)*I_1$
其中， $F$ 由二维坐标系中大小为2 × 3 的增广矩阵 $T_\theta$ 进行参数化，由于仿射变换适用于像素的协调，因此使用采样器 $S$ 将采样变换后的裁剪区域从旧坐标网格化为新坐标。由于只对空间缩放和平移感兴趣，仿射矩阵可以简化为：
$T_{\theta}=\begin{bmatrix} a_x & 0 & c_x\\ 0 & a_y & c_y \end{bmatrix}= \begin{bmatrix} 1 & 0 & c_x\\ 0 & 1 & c_y \end{bmatrix} \cdot \begin{bmatrix} a_x & 0 & 0\\ 0 & a_y & 0\\ 0 & 0 & 1 \end{bmatrix}$
也就是： $I_1$ 提供的是外围区域， $I_2$ 提供的是内部注意力区域。

应用阈值选定注意区域，公式化为一个矩形框，由左上点和右下点确定，即 $(x^{tl}_1,y^{tl}_1),(x^{br}_1,y^{br}_1)$ 。

缩放矩阵 $A_\theta$ ：
$a_x=\frac{x^{br}_1-x^{tl}_1}{x^{br}_2-x^{tl}_2},a_y=\frac{y^{br}_1-y^{tl}_1}{y^{br}_2-y^{tl}_2}$
假设， $(x, y)$ 是 $I_2$ 的一个坐标，应用缩放矩阵后，
$\begin{bmatrix} a_x & 0\\ 0 & a_y \\ \end{bmatrix} \cdot \begin{bmatrix} x\\ y \end{bmatrix} = \begin{bmatrix} a_xx\\ a_yy \end{bmatrix}$
然后在新的坐标系下应用平移因子 $c_x,c_y$ 。在坐标向量中引入额外的维度1后，坐标表示为 $a_xx, a_yy, 1)$ 。求解以下方程：
$\begin{bmatrix} 1 & 0 & c_x\\ 0 & 1 & c_y \\ \end{bmatrix} \cdot \begin{bmatrix} a_xx\\ a_yy \end{bmatrix}= \begin{bmatrix} x_1\\ y_1 \end{bmatrix}$
即： $c_x=a_xx_2-x_1,c_y=a_yy_2-y_1$ 。

为了在图像对之间执行交换变换，采样器必须采用采样点集 $F(G(\cdot),T_{\theta})$ 和 $I_2$ 并产生采样输出图像 $\tilde{I_1}$ 。

输出表示为 $V$ ，然后将采样写为：
$V^{(T_\theta\cdot G(I_2)_{x,y}}=(B_2*I_2)^{x,y}, \forall x \in[1 ...w],y\in[1...h]$
仿射矩阵是直接从选定的注意力中计算出来的。通过将仿射矩阵乘以掩码源图像，将源补丁的大小和位置与目标位置对齐，然后与目标图像的外部区域线性组合。

交换操作仅用于训练阶段，在测试期间网络的行为与使用的主干相同。实际上，这种变换是通过将目标图像大小的网格变换并在结果坐标处插入源图像来应用的。

InPS同时利用了类内交换和注意力信号。来自正面示例的内部区域和外部区域的合理组合创建了一个大的上下文空间，使其更不容易过拟合。当在不同的上下文中识别对象时，局部部分的贡献不同，有更多的上下文可供探索，InPS 理解具有更好知识优势的类别。这有助于网络通过准确使用来自更多对象部分的信息来识别细粒度对象，从而有利于定位能力。