Focus Longer to See Better: Recursively Refined Attention for Fine-Grained Image Classification
文章目录
摘要
- 关注边缘视觉差异提取区别特征,网络重复关注图像的各个部分,以发现类之间的细微差别。并通过可解释性技术展示了网络关注点如何从粗到细的。
- 实验证明,简单的注意力模型可以聚合(加权)细节,以专注于图像的最主要区分部分。
- 网络简单,即插即用
- 代码开源:https://github.com/TAMU-VITA/Focus-Longer-to-See-Better
1 引言
本文提出了一种基于注意力的循环卷积神经网络(这个名字特别像RA-CNN,后面用的单词都是recurrently),循环地从图像的较粗区域到较细区域,集中于区分区域。
模型动机:在循环处理图像的过程中,可以通过移除重要细节和背景噪声来专注于最具区分性的细节。通过适当的注意力机制将细小区域整合,可以指明图像中最有区别的区域。
网络:弱监督块提取网络提取与图像所对应的不同块,通过LSTM周期性地处理每个块,使用注意力层聚合得到更精细的表示。该网络可以附加到基线分类器上形成二流架构。将区别性特征融合在一起,传递给最终分类器。
本文的主要贡献:
- 提出了递归注意力网络,逐渐关注并聚集更精细的图像细节,以实现更具区分性的表现。
- 消融实验可解释性
- 两个基准数据集,性能提升
3 方法
论文中循环地处理图像块的说法和Transformer很像。
3.1 双分支架构
从图像的块的集合中选择一个块,图像及其选中的块作为双分支架构的输入,块由坐上坐标和右下坐标定义。
双分支架构包括:一个全局架构(就是正常的卷积全连接分类器),第二个分支从图像中获取块,通过CNN提取特征表示,送到LSTM中传递。
全局分类
原始图像经过CNN、GAP、FC、softmax进行分类预测。全局表示 G I \mathbf {G_I} GI
局部分支
通过弱监督方法得到块 P = [ P 1 , P 2 , . . . , P n ] P=[P_1,P_2,...,P_n] P=[P1,P2,...,Pn],每个块由一组坐标表示,相应的裁剪出来的图像表示为 I ( P i ) I(P_i) I(Pi)。
块经过CNN得到 F i ∈ R w × h × c F_i\in R^{w\times h\times c} Fi∈Rw×h×c, F i F_i Fi依次通过LSTM,输出表示为: [ ϕ ( F i 1 ) , . . . , ϕ ( F i T ) ] [\phi(F^1_i),...,\phi(F^T_i) ] [ϕ(Fi1),...,ϕ(FiT)], i i i表示块序号, T T T是时间步长, ϕ \phi ϕ是LSTM函数,每个都是 D D D维向量。
注意力层的输出可以写成:(这里所谓的注意力实际上就是个加权,用全连接层实现)
A
i
=
∑
t
=
1
T
α
t
ϕ
(
F
i
t
)
α
t
=
exp
(
W
t
∗
ϕ
(
F
i
t
)
)
∑
i
=
1
T
exp
(
W
t
∗
ϕ
(
F
i
t
)
)
A_i=\sum^T_{t=1}\alpha^t\phi(F^t_i)\\ \alpha^t=\frac{\exp(W^t*\phi(F^t_i))}{\sum^T_{i=1}\exp(W^t*\phi(F^t_i))}
Ai=t=1∑Tαtϕ(Fit)αt=∑i=1Texp(Wt∗ϕ(Fit))exp(Wt∗ϕ(Fit))
W
t
W^t
Wt是要训练的参数,然后
A
i
A_i
Ai
3.2 分类损失
总损失是全局图像的交叉熵损失局部块的交叉熵损失的加权,权重是超参数,控制块表示对全局表示的影响程度。
3.3 联合特征
全局特征表示: G I \mathbf G_I GI和局部特征表示 L I \mathbf L_I LI。加权合并两分支的特征输出,提升性能,权重和分类损失的超参一致。
4 实验
4.2 分析
分类正确率:在CUB上正确率还不到80%,效果一般,不知道用Resnet50会怎么样
可视化:
随时间推移,热力图上的注意力变好。 初始LSTM中的隐藏表示集中在块的广泛区域,但块周期性地传递通过更深的LSTM单元时,注意力会变得更细、更具区分性。较高时间步长的表示更具区别性,从而产生较高的响应。
定量分析时间的影响:
随着细节的不断重复,对细节的特征表示变得越来越没有区别性。重复处理一个块,会变得过拟合。
4.3 消融实验
5 结论
- 提出了一个基于循环注意力的简单模块,提取细节,提供区分特征
- 将细节聚合为一个有代表性的互补特征向量
- 模块简单,即插即用
- 可视化