RA-CNN论文的个人理解

最新推荐文章于 2024-05-11 16:01:05 发布

而塞过

最新推荐文章于 2024-05-11 16:01:05 发布

阅读量509

点赞数

分类专栏：论文文章标签： cnn 深度学习神经网络

本文链接：https://blog.csdn.net/weixin_45742100/article/details/127989014

版权

论文专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Look Closer to See Better

Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition

从论文的名称来看是看的更近看的更好，在通读了论文之后确实如此，看需要关注的区域，看的更加精细，结果的正确率也更加高。

文章中的创新点

提出了APN注意力建议网络，可通过网络来自动生成最具判别性特征的精细化区域，并优化区域
交替的优化方式，先将分类的损失在3个尺度上的结果优化至收敛再修正卷积和分类层上的参数，最后来优化APN网络
结合特征和特征的区域的相互作用对网络的学习
提出Lrank函数，计算两个不同尺度之间的准确率损失

个人看法：

相比之前人工的标注，网络自动生成的区域准确性高，且可以对区域的合理调整
这种优化方式，可以降低训练时间，APN的参数才是网络的只要开销，再其他参数收敛的情况下，训练APN更快了
合理的将两个主要问题进行结合，且这俩个问题本来就具备相关性
使精细化的尺寸准确率更高

主要结构

网络结构

分类网络
1. 将一张未经过处理的图片（A1）放入网络（VGG19的conv5_4）来提取特征features
2. 将 features经过pooling，full-connection,softmax来获取预测分类结果 $Y^{1}$
3. 将经过裁剪的图片A2放入神经网络，获取更精细的特征features_scale_2，再次获取预测结果 $Y^2$
4. 将经过裁剪的图片A3放入神经网络，获取更精细的特征features_scale_3，再次获取预测结果 $Y^3$
注意力建立网络
1. 将features放入 $A P N$ 中获取区域参数信息 $t_{x},t_{y}，t_{l}$
2. 通过位置信息对原始图片(A1)进行裁剪，放大至原始比例，得到图片A2
3. 将features_scale_2放入 $A P N$ 获取更加精细的区域参数 $t_{x1},t_{y1}，t_{l1}$
4. 通过获取的更加精细的区域参数信息，对A2进行裁剪，放大，得到图片A3

损失函数：

$L_{cls}$ :分类损失（优化卷积层和分类层的参数）
$L_{rank}$ :正确类别标签上的预测概率
- 比较相邻的两个尺度的分类，且要求在尺度放大的情况下，准确率提高（比margin多），否则损失为0( 来保证精细尺度下的图像更具有可高准确率)

区域裁剪

裁剪的图像框位置
假设原始图像的左上角是坐标系的原点
$t_{x(tl)} = t_{x} - t_{l} \ ,t_{y(tl)} = t_{y} - t_{l} \\t_{x(br)} = t_{x} + t_{l} \ ,t_{y(br)} = t_{y} + t_{l} \\ tl：top-left \\ br：bottom- right \\（t_{x},\ t_{y}）：（中心点x ，中心点y）, \ t_{l}：中心点到四周的垂直距离$

注意力掩码公式
$\\h(x) = \frac{1}{\{1+e^{-kx}\}} \\M(·)=[h(x-t_{x(tl)})-h(x-t_{x(br)})]·[h(y-t_{y(tl)})-h(y-t_{y(br)})]$

$h (x)$ 公式
- 当 $x > 0$ 时， $e^{-kx}=0$ ,所以 $h (x) = 1$
- 当 $x < 0$ 时， $e^{-kx}=+\infty$ ,所以 $h (x) = 0$
$M (\cdot)$ 公式

$M(·)=1\begin{cases} & \text{ if } x \in[t_{x(tl),x(br)}] \\ & \text{ if } y \in[t_{y(tl),y(br)}] \end{cases}$

用于区分图像是否属于建议区域中，只有当属于建议区域的时候，掩码值趋向于1，其余为0

相比于分段函数， $M (\cdot)$ 是连续可导的，故可以对位置的参数进行优化

放大
通过双线性插值法，对关注的区域放大至原始图像大小

注意力区域位置的参数优化

通过计算 $t{x},t{y},t{l}$ 导数来说明注意力机制，并展示了对区域裁剪的影响。文中提到导数范数的负平方是与人们感知的优化方向一致，故可以通过此来进行位置区域的优化。

导数的矩阵示意图

$M^{'} (x)$
$\begin{bmatrix} -1&-1 &-1 \\ 0& 0& 0\\ 1& 1 &1 \end{bmatrix}$
通过对x的求导来确定关注区域的左右位置移动
$M^{'} (y)$
$\begin{bmatrix} -1&0 &1 \\ -1& 0& 1\\ -1& 0 &1 \end{bmatrix}$
通过对y的求导来确定关注区域的上下位置移动
$M^{'} (l)$
$\begin{bmatrix} 1&1 &1 \\ 1& -1& 1\\ 1& 1 &1 \end{bmatrix}$
通过对l的求导来确定关注区域的放大缩小