论文阅读:Fine-Grained Classification via Hierarchical Feature Covariance Attention Module

论文标题: Fine-Grained Classification via Hierarchical Feature Covariance Attention Module
翻译: 基于层次特征协方差关注模块的细粒度分类

摘要

细粒度视觉分类(FGVC)在航空和动物品种等多个领域一直面临挑战。这主要是由于FGVC的标准差异相当小的范围或微妙的模式差异。在深度卷积神经网络中,特征映射之间的协方差正向影响特征的选择,从而自动学习判别区域。在这项研究中,我们提出了一种细粒度分类模型的方法,通过插入一个使用协方差特征的注意力模块。
具体来说,我们引入了特征映射注意模块(FCA)来提取卷积块之间的特征映射,从而构成了现有的分类模型。然后,FCA模块将协方差矩阵的相应值应用于信道,以聚焦于显著区域。我们通过关注不同的尺度表示来证明以分层方式进行细粒度分类的必要性。
我们的方法比最先进的模型分别高出0.4%、1.1%和1.4%。

方法

在本研究中,我们提出了一个由三个带有注意模块的卷积块和四个分类器组成的模型,如图2所示。为了分层地关注每个特征映射尺度,输入图像被密集编码成块单元并进行分类。最终的分类输出是四个值的平均值,包括三个分类器融合后的重分类值。

在这里插入图片描述
总体的结构。我们的模型首先从主干的卷积块生成特征映射。生成的特征映射通过注意模块,并分别输入到分类器和下一个块。将三个分类器连接起来,最后通过第四个分类器进行分类。

A.协方差矩阵的初值

首先,协方差矩阵模拟全局数据分布。数据通常使用协方差矩阵去相关,以发现特征值分解的最佳基础,例如PCA(图3)和线性判别分析,它们紧凑地表示数据。我们将协方差矩阵应用于分类任务中,以轻计算的方式提取基本信息。
异构统计可以对有关联合分布的信息进行编码。协方差矩阵利用具有不同物理意义和单位的特征向量元素,有效地对数据依赖关系进行建模。不同统计量(如像素强度、位置、一阶导数和二阶导数)之间的依赖关系使用传统的协方差描述符来表示。这项研究启发了一个想法,即协方差矩阵可以用来将它们合并到众所周知的深度学习框架中,而不是丢弃传统的手工特征。
协方差矩阵可以作为一个新的关注点模块在深度学习中建模具有全局和局部依赖关系的特征映射。此外,基于异构性的第二个特性,手工特征可以成功地与学习特征相结合。在这项工作中,我们证明了带有协方差矩阵的注意力模块不仅在的分割任务中表现良好,而且可以有效地提取FGVC中的鲜明特征。

B.通过协方差矩阵构建注意力模块

在本节中,我们提出了一个FCA模块,该模块强调基本特征映射通道,并使用特征映射的协方差矩阵减少不相关信息。与之前的注意力模块[43]不同,该模块将每个通道特征图中的所有上下文语义信息聚合为近似标量值,而特征图中的每列或每行元素被认为是每个通道函数的表示。然后使用协方差矩阵组的平均值作为每个通道的最终关系描述符。注意模块使用这个通道协方差,并且位于整个模型结构中。
图4显示了FCA模块的具体实现方法。每个块的输出特征图记为X∈R C×HW,其中C为通道数,H和W分别为特征图的高度和宽度。将X归一化,然后将逆矩阵乘以特征映射的行和列大小,并除以它们,形成C×C形状。
最后,对每个特征映射进行矩阵积运算,重点关注协方差矩阵。
然后带注意力的特征图被用作下一个卷积块的输入。
注意,通道协方差注意矩阵直接应用于特征映射,而不是通道之间关系的卷积操作。信道协方差注意模块利用协方差矩阵对信道函数之间的依赖关系进行建模,从而获得更加一致的语义信息。
在这里插入图片描述
图4。阐述了FCA模块的具体实现方法。每个特征映射通过协方差值进行集中。

C.使用多尺度块进行分类

采用基于标签平滑的简易监督信号与浅子网相结合,引入了用于图像分类的一般课程监督。粗糙和精细的监督促进了学习方法的判别功能,其中浅层子网络补充了深度网络的尺度敏感性。由于骨干网在不同深度的多个中间特征映射被馈送到不同的卷积块中,因此我们采用骨干网(如VGG和ResNet)分块的方式进行分层学习,以充分利用多层特征信息。利用这一概念,我们采用了三个块来关注每个块的特征映射,并使用这些特征执行分类任务。从前端块提取的特征图包含宏观特征,从后端提取的特征图包含微观特征。通过这种方式,我们强调了表示的鲁棒性,同时补充了全局和局部特征。

1)损失函数

为了稳定集成学习的泛化性能,提出了平滑交叉熵损失(Lsce),它比常规交叉熵损失(Lce)多一个平滑因子。

2)分类标签

对于分类部分,我们使用了四个分类器,clfi∈{1,2,3,4},在图2中表示为CLF。在每个块后面放置一个全局最大池化层,获得图像表示并输入clfi,clfi是一个用于更好分类目的的卷积块,而⊕是一个连接函数。每个clf由两个多层感知器和两个以ELU为激活函数的批处理归一化函数组成。当产生三个分类性能时,最后一个分类使用clf4,其三个串联特征。
然后通过对每个分类结果分配权重来计算最终的分类分数。每个块特征的分类得分权重λ1、λ2、λ3、λ4分别为0.7、0.8、0.9、1.0。
我们借鉴了已有工作中提出的基于图的定位方法,在已有工作之后实现了更高的性能。该方法通过在patch基础上裁剪需要注意的部分来引入对比损失函数。当每个补丁作为节点插入图中时,我们根据补丁的属性重新排列顺序。与使用随机进入注意力的模型相比,该方法可以应用更稳定的注意力。
在这里插入图片描述

图5。一个基于块的注意区域和热图的例子。最左边的图片用彩色方框显示了4个最受关注的区域。由于每个块都有一个需要关注的不同区域,因此使用所有这些块对于获得更好的分类结果非常重要。最后一列描述了四个出席框的连接图像。

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值