论文阅读:Focus Longer to See Better

该文提出了一种递归注意力网络,用于在细粒度图像分类中聚焦和聚合关键细节。网络采用双分支架构,全局分支进行常规分类,局部分支通过LSTM逐步细化注意力。通过循环处理图像块,网络能够从粗略到精细地关注图像差异,提高区分性。实验和可视化结果表明,这种注意力机制能有效提升模型性能,并提供了可解释性。网络设计简单,可直接插入现有分类器中使用。
摘要由CSDN通过智能技术生成

Focus Longer to See Better: Recursively Refined Attention for Fine-Grained Image Classification

摘要

  1. 关注边缘视觉差异提取区别特征,网络重复关注图像的各个部分,以发现类之间的细微差别。并通过可解释性技术展示了网络关注点如何从粗到细的。
  2. 实验证明,简单的注意力模型可以聚合(加权)细节,以专注于图像的最主要区分部分。
  3. 网络简单,即插即用
  4. 代码开源:https://github.com/TAMU-VITA/Focus-Longer-to-See-Better

1 引言

本文提出了一种基于注意力的循环卷积神经网络(这个名字特别像RA-CNN,后面用的单词都是recurrently),循环地从图像的较粗区域到较细区域,集中于区分区域。

模型动机:在循环处理图像的过程中,可以通过移除重要细节和背景噪声来专注于最具区分性的细节。通过适当的注意力机制将细小区域整合,可以指明图像中最有区别的区域。

网络:弱监督块提取网络提取与图像所对应的不同块,通过LSTM周期性地处理每个块,使用注意力层聚合得到更精细的表示。该网络可以附加到基线分类器上形成二流架构。将区别性特征融合在一起,传递给最终分类器。

本文的主要贡献:

  1. 提出了递归注意力网络,逐渐关注并聚集更精细的图像细节,以实现更具区分性的表现。
  2. 消融实验可解释性
  3. 两个基准数据集,性能提升

3 方法

论文中循环地处理图像块的说法和Transformer很像。

image-20210520212409468

3.1 双分支架构

从图像的块的集合中选择一个块,图像及其选中的块作为双分支架构的输入,块由坐上坐标和右下坐标定义。

双分支架构包括:一个全局架构(就是正常的卷积全连接分类器),第二个分支从图像中获取块,通过CNN提取特征表示,送到LSTM中传递。

全局分类

原始图像经过CNN、GAP、FC、softmax进行分类预测。全局表示 G I \mathbf {G_I} GI

局部分支

通过弱监督方法得到块 P = [ P 1 , P 2 , . . . , P n ] P=[P_1,P_2,...,P_n] P=[P1,P2,...,Pn],每个块由一组坐标表示,相应的裁剪出来的图像表示为 I ( P i ) I(P_i) I(Pi)

块经过CNN得到 F i ∈ R w × h × c F_i\in R^{w\times h\times c} FiRw×h×c F i F_i Fi依次通过LSTM,输出表示为: [ ϕ ( F i 1 ) , . . . , ϕ ( F i T ) ] [\phi(F^1_i),...,\phi(F^T_i) ] [ϕ(Fi1),...,ϕ(FiT)] i i i表示块序号, T T T是时间步长, ϕ \phi ϕ是LSTM函数,每个都是 D D D维向量。

注意力层的输出可以写成:(这里所谓的注意力实际上就是个加权,用全连接层实现)
A i = ∑ t = 1 T α t ϕ ( F i t ) α t = exp ⁡ ( W t ∗ ϕ ( F i t ) ) ∑ i = 1 T exp ⁡ ( W t ∗ ϕ ( F i t ) ) A_i=\sum^T_{t=1}\alpha^t\phi(F^t_i)\\ \alpha^t=\frac{\exp(W^t*\phi(F^t_i))}{\sum^T_{i=1}\exp(W^t*\phi(F^t_i))} Ai=t=1Tαtϕ(Fit)αt=i=1Texp(Wtϕ(Fit))exp(Wtϕ(Fit))
W t W^t Wt是要训练的参数,然后 A i A_i Ai

3.2 分类损失

总损失是全局图像的交叉熵损失局部块的交叉熵损失的加权,权重是超参数,控制块表示对全局表示的影响程度。

3.3 联合特征

全局特征表示: G I \mathbf G_I GI和局部特征表示 L I \mathbf L_I LI。加权合并两分支的特征输出,提升性能,权重和分类损失的超参一致。

4 实验

4.2 分析

分类正确率:在CUB上正确率还不到80%,效果一般,不知道用Resnet50会怎么样

image-20210520215139579

image-20210520215147728

可视化:

image-20210520215457834

随时间推移,热力图上的注意力变好。 初始LSTM中的隐藏表示集中在块的广泛区域,但块周期性地传递通过更深的LSTM单元时,注意力会变得更细、更具区分性。较高时间步长的表示更具区别性,从而产生较高的响应。

定量分析时间的影响:

image-20210520215156761

随着细节的不断重复,对细节的特征表示变得越来越没有区别性。重复处理一个块,会变得过拟合。

4.3 消融实验

image-20210520214646192

image-20210520214919116

image-20210520215005547

5 结论

  1. 提出了一个基于循环注意力的简单模块,提取细节,提供区分特征
  2. 将细节聚合为一个有代表性的互补特征向量
  3. 模块简单,即插即用
  4. 可视化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值