毕设文献15(Related)-CBAM:卷积块注意力模块

CBAM: Convolutional Block Attention Module (CBAM:卷积块注意力模块)

[1] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, ‘CBAM: Convolutional Block Attention Module’, in Computer Vision – ECCV 2018, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds., in Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018, pp. 3–19. doi: 10.1007/978-3-030-01234-2_1.

  • 本研究提出了一种简单而有效的注意力模块,称为卷积块注意力模块(CBAM),用于前馈卷积神经网络。该模块通过沿通道和空间两个独立维度依次推断注意力图,然后将这些注意力图与输入特征图相乘,以实现自适应特征的精细化。通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上进行广泛实验,验证了CBAM的有效性,并展示了其在各种模型上的一致改进,证明了CBAM的广泛适用性。

论文背景: 近年来,卷积神经网络(CNNs)在视觉任务中取得了显著的性能提升,但研究主要集中在网络的深度、宽度和基数等因素上。

过去方案: 过去的研究主要集中在网络的深度、宽度和基数等因素上,而本研究关注了网络设计的另一个方面,即注意力机制。

论文的Motivation: 本研究旨在通过注意力机制增强表示能力,集中关注重要特征并抑制不必要的特征,以提高模型的性能。

  • 理论背景:Convolutional Block Attention Module (CBAM)是一种轻量级的注意力模块,专为前馈卷积神经网络设计。它从中间特征图中顺序推断出通道和空间维度上的注意力图。然后,这些注意力图与输入特征图相乘,以自适应地改进特征。该模块由两个子模块组成:通道注意力和空间注意力,它们学习在特征图中“什么”和“哪里”进行关注。通过强调这些维度上的有意义的特征,CBAM增强了网络内的信息流动。该模块可以无缝地集成到CNN架构中,开销很小,并且可以进行端到端的训练。通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上进行实验证明了CBAM的有效性,显示出在各种模型中分类和检测性能的一致改进。

  • 技术路线:

    • 通道注意力模块通过将特征图的空间维度压缩,并使用平均池化和最大池化操作来聚合空间信息,从而专注于从输入图像中提取有意义的特征。通道注意力使用具有多层感知器(MLP)的共享网络计算,并对输出特征向量进行逐元素求和。

    • 卷积块注意力模块结合了通道和空间注意力。空间注意力模块通过沿通道轴应用平均池化和最大池化操作,并将结果进行级联以进行卷积,从而突出显示特征图中的信息区域。空间注意力图编码了在特征图中强调或抑制的位置。

    • 注意力模块的排列方式可以是并行或顺序的。实验结果表明,顺序排列,以通道优先的顺序,比并行排列产生更好的结果。

实验设置:在MS COCO数据集上,使用Faster R-CNN检测框架和ImageNet预训练的ResNet50和ResNet101作为基线网络进行目标检测实验。模型使用所有训练图像以及一部分验证图像进行训练,保留5,000个样本用于验证。训练代码基于特定的参考,并且网络进行了490K次迭代以进行快速性能验证。

实验结果:

在ImageNet-1K数据集上使用ResNet-50作为基础架构进行的消融研究证明了所提出的设计选择的有效性。通过将平均池化和最大池化特征组合用于通道注意力,该模型的性能优于Squeeze and Excitation方法。此外,结合通道和空间注意力模块可以提高准确性,以通道优先的顺序显示出最佳性能。

实验结果显示,所提出的Convolutional Block Attention Module (CBAM)在ImageNet-1K数据集上显著优于基线方法SE [28]。使用CBAM的模型相对于基线模型表现出更高的准确性,降低了top-1和top-5的错误率。例如,在ResNet50的情况下,使用SE [28]的top-1错误率从23.14%降低到使用CBAM的22.66%。类似地,在宽度乘数为0.7的MobileNet的情况下,使用SE [28]的top-1错误率从32.50%降低到使用CBAM的31.51%。这些结果表明,CBAM可以在不增加显著参数和计算量的情况下在不同的模型和数据集上很好地推广,展示了其提高性能的有效性。

基于Grad-CAM可视化的用户研究结果表明,集成CBAM的网络优于基线方法,展示了更好的可解释性。表格显示,CBAM获得的投票数比基线方法多,表明其增强的可解释性。

  • 18
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值