【论文阅读笔记】——CBAM阅读笔记

2018-CBAM: Convolutional Block Attention Module

基本信息:

期刊:ECCV2018

摘要:我们提出了卷积块注意力模块(CBAM),这是一个简单而有效的前馈卷积神经网络注意力模块。给定一个中间特征图,我们的模块沿着两个独立的维度(通道和空间)顺序推断注意力图,然后将注意力图乘以输入特征图进行自适应特征细化。由于CBAM是一个轻量级通用模块,它可以无缝集成到任何CNN架构中,开销可以忽略不计,并且可以与基本CNN一起进行端到端训练。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上的大量实验验证了我们的CBAM。我们的实验表明,各种模型在分类和检测性能方面都有了一致的改进,证明了CBAM的广泛适用性。代码和模型将公开。


1. 简介

最近的网络主要研究网络的三个重要因素:宽度、深度、基数。一些网络通过增加网络的深度来提高网络的表示能力,一些网络通过增加宽度来提高网络的表示能力。还有增加网络基数的方法,一些实验表明它不仅可以减少参数的总量,并且有可能比其他两个因素(深度、宽度)具有更强的表示能力。

除了这些因素,我们还研究了结构设计的另一个方面,即注意力。注意力不仅告诉应该关注哪里,还可以提高特征的代表性。我们的目标是通过使用注意力机制来提高表现力:关注重要特征,抑制不必要的特征。我们的主要贡献有三方面:

1.我们提出了一种简单而有效的注意力模块(CBAM),可以广泛应用于提高卷积神经网络的表示能力。

2.我们通过广泛的消融研究验证了注意力模块的有效性。

3.我们验证了通过插入我们的轻量级模块,在多个基准测试(ImageNet-1K、MS COCO和VOC 2007)上大大提高了各种网络的性能。


2.相关工作

网络工程、注意力机制


3.卷积块注意力模块

给定一个中间特征图F:C*H*W作为输入,CBAM依次提供一个1D的通道注意力图(Mc:C*1*1),一个2D的空间注意力图(Ms:1*H*W)。

 其中⊗表示逐元素乘法。在乘法过程中,注意力值被相应地广播(复制):通道注意力值沿着空间维度广播,反之亦然。F''是最终的细化输出。图2描述了每个注意力图的计算过程。以下介绍了每个注意力模块的详细信息。 

3.1 通道注意模块

CA:Avg(Max)——MLP(Flaten——Line——Relu——Line)——Sigmoid

3.2 空间注意模块

SA:Avg(Max)——Conv——BN——Sigmoid

3.3 注意力块的布置

给定一个输入图像,两个注意力模块,通道和空间,计算互补注意力,分别关注“什么”和“哪里”。考虑到这一点,可以以并行或顺序的方式放置两个模块。我们发现,顺序排列比平行排列给出更好的结果。对于顺序过程的排列,我们的实验结果表明,通道一阶比空间一阶稍好。 

4. 实验

人们可以在任何CNN架构中无缝集成CBAM,并联合训练组合的CBAM增强网络。图3以ResNet[5]中的ResBlock为例显示了集成了CBAM的示意图。

4.1 消融研究

对于本消融研究,我们使用ImageNet-1K数据集,并采用ResNet-50[5]作为基础架构。学习率从0.1开始,每30个epoch下降一次。我们为90个epoch训练网络。

寻找计算通道注意力的有效方法:Avg+Max+MLP

寻找空间注意力的有效方法:Avg+Max+Conv(7*7)

通道注意力模块和空间注意力模块的结合:串行排列,通道+空间

4.2 ImageNet-1K数据集上的图像分类

我们在各种网络架构中的模块,包括ResNet[5]、WideResNet[6]和ResNext[7]上分别搭建SECBAM模块,比较它们在参数以及TOP1 Error、TOP5 Error上的误检率。具有CBAM的网络显著优于所有基线,表明CBAM可以在大规模数据集中的各种模型上很好地推广。并且与SE相比,CBAM具有更强大的能力来提高基线模型的泛化能力。

我们还发现,CBAM的总体开销在参数和计算方面都很小。这促使我们将我们提出的模块CBAM应用于轻量级网络MobileNet[34]。表5总结了我们基于MobileNet架构进行的实验结果。我们将CBAM分为两个模型,基本模型容量缩减模型(即将宽度乘数(α)调整为0.7)。CBAM不仅显著提高了基线的准确性,而且有利于提高SE的性能[28]。这显示了CBAM在低端设备上的巨大应用潜力。

4.3 基于梯度CAM的网络可视化

对于定性分析,我们使用ImageNet验证集的图像将Grad-CAM[18]应用于不同的网络。梯度CAM是最近提出的一种可视化方法,它使用梯度来计算卷积层中空间位置的重要性。梯度CAM结果清楚地显示了关注区域。

4.4 MS COCO目标检测

主要评估参数为不同阈值下的MAP值以及一些对应的参数,结合CSAM的模型比基线模型有着更好的表现

4.5 VOC 2007 目标检测

主要评估参数为不同阈值下的MAP值以及一些对应的参数,结合CSAM的模型比基线模型有着更好的表现

5. 结论

我们提出了卷积瓶颈注意力模块(CBAM),这是一种提高CNN网络表示能力的新方法。我们将基于注意力的特征细化与通道和空间两个独特的模块相结合,在保持较小开销的同时,实现了显著的性能改进。对于通道注意力,我们建议使用最大池特征和平均池特征,从而产生比SE更精细的注意力[28]。我们通过利用空间注意力来进一步推动表演。我们的最后一个模块(CBAM)学习在哪里强调或抑制什么,并有效地细化中间特征。为了验证其有效性,我们对各种最先进的模型进行了广泛的实验,并证实CBAM在三个不同的基准数据集上优于所有基线:ImageNet-1K、MS COCO和VOC 2007。此外,我们可视化模块如何准确推断给定的输入图像。有趣的是,我们观察到我们的模块诱导网络正确地关注目标对象。我们希望CBAM成为各种网络架构的重要组成部分。

6. 自我总结

提出一种较为轻量级的、即插即用的卷积块注意力模块,是对通道注意力和空间注意力的结合,并且通过一系列的消融实验证明模块结构的最优性能。通过实验验证了CBAM在不同数据集上的图像分类问题、目标检测问题上都比基准模型取得了更加优异的表现。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值