论文阅读：Focus Longer to See Better

最新推荐文章于 2023-04-04 19:41:13 发布

Z字君

最新推荐文章于 2023-04-04 19:41:13 发布

阅读量510

点赞数

分类专栏： # 细粒度图像分析文章标签：深度学习卷积

本文链接：https://blog.csdn.net/zzc_zhuyu/article/details/117124478

版权

细粒度图像分析专栏收录该内容

16 篇文章 25 订阅

订阅专栏

该文提出了一种递归注意力网络，用于在细粒度图像分类中聚焦和聚合关键细节。网络采用双分支架构，全局分支进行常规分类，局部分支通过LSTM逐步细化注意力。通过循环处理图像块，网络能够从粗略到精细地关注图像差异，提高区分性。实验和可视化结果表明，这种注意力机制能有效提升模型性能，并提供了可解释性。网络设计简单，可直接插入现有分类器中使用。

摘要由CSDN通过智能技术生成

Focus Longer to See Better: Recursively Refined Attention for Fine-Grained Image Classification

文章目录

Focus Longer to See Better: Recursively Refined Attention for Fine-Grained Image Classification

摘要

关注边缘视觉差异提取区别特征，网络重复关注图像的各个部分，以发现类之间的细微差别。并通过可解释性技术展示了网络关注点如何从粗到细的。
实验证明，简单的注意力模型可以聚合（加权）细节，以专注于图像的最主要区分部分。
网络简单，即插即用
代码开源：https://github.com/TAMU-VITA/Focus-Longer-to-See-Better

1 引言

本文提出了一种基于注意力的循环卷积神经网络（这个名字特别像RA-CNN，后面用的单词都是recurrently），循环地从图像的较粗区域到较细区域，集中于区分区域。

模型动机：在循环处理图像的过程中，可以通过移除重要细节和背景噪声来专注于最具区分性的细节。通过适当的注意力机制将细小区域整合，可以指明图像中最有区别的区域。

网络：弱监督块提取网络提取与图像所对应的不同块，通过LSTM周期性地处理每个块，使用注意力层聚合得到更精细的表示。该网络可以附加到基线分类器上形成二流架构。将区别性特征融合在一起，传递给最终分类器。

本文的主要贡献：

提出了递归注意力网络，逐渐关注并聚集更精细的图像细节，以实现更具区分性的表现。
消融实验可解释性
两个基准数据集，性能提升

3 方法

论文中循环地处理图像块的说法和Transformer很像。

3.1 双分支架构

从图像的块的集合中选择一个块，图像及其选中的块作为双分支架构的输入，块由坐上坐标和右下坐标定义。

双分支架构包括：一个全局架构（就是正常的卷积全连接分类器），第二个分支从图像中获取块，通过CNN提取特征表示，送到LSTM中传递。

全局分类

原始图像经过CNN、GAP、FC、softmax进行分类预测。全局表示 $\mathbf {G_I}$

局部分支

通过弱监督方法得到块 $P=[P_1,P_2,...,P_n]$ ，每个块由一组坐标表示，相应的裁剪出来的图像表示为 $I(P_i)$ 。

块经过CNN得到 $F_i\in R^{w\times h\times c}$ ， $F_i$ 依次通过LSTM，输出表示为： $[\phi(F^1_i),...,\phi(F^T_i) ]$ ， $i$ 表示块序号， $T$ 是时间步长， $\phi$ 是LSTM函数，每个都是 $D$ 维向量。

注意力层的输出可以写成：（这里所谓的注意力实际上就是个加权，用全连接层实现）
$A_i=\sum^T_{t=1}\alpha^t\phi(F^t_i)\\ \alpha^t=\frac{\exp(W^t*\phi(F^t_i))}{\sum^T_{i=1}\exp(W^t*\phi(F^t_i))}$
$W^t$ 是要训练的参数，然后 $A_i$