cv中的注意力机制论文:CBAM and BAM 阅读理解_cbam注意力机制论文-CSDN博客

本文链接：https://blog.csdn.net/weixin_45032769/article/details/110092923

本文介绍了卷积块注意力模块（CBAM）和瓶颈注意力模块（BAM），用于增强CNN的表示能力。CBAM通过通道和空间注意力模块提升性能，适用于多种视觉任务。实验结果显示，CBAM在ImageNet-1K、MS COCO和VOC 2007数据集上的表现优于基准网络，并提高了模型的可解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BAM:
https://blog.csdn.net/xiewenrui1996/article/details/105760359

Abstract

我们提出了卷积-块-注意力-模块（CBAM），这是一种用于前馈卷积神经网络的简单而有效的注意力模块。给定一个中间特征图，我们的模块会沿着两个独立的维度（通道和空间）依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征细化。由于CBAM是轻量级的通用模块，因此可以将其无缝集成到任何CNN架构中，而开销却可以忽略不计，并且可以与基础CNN一起进行端到端训练。我们通过在ImageNet-1K，MS COCO检测和VOC 2007检测数据集上进行的广泛实验来验证CBAM。
我们的实验表明，使用各种模型在分类和检测性能方面的持续改进，证明了CBAM的广泛适用性。该代码和模型将公开提供。
关键字：对象识别，注意力机制，门控卷积

1 Introduction

卷积神经网络（CNN）凭借其丰富的表示能力，极大地推动了视觉任务的性能[1,2,3]。为了提高CNN的性能，最近的研究主要研究了网络的三个重要因素：深度，宽度和基数。
到目前为止，从LeNet架构[4]到残差样式网络[5,6,7,8]，对于丰富的表示，网络已经变得更加深入。 VGGNet [9]显示，具有相同形状的堆叠块可以得出合理的结果。遵循相同的精神，ResNet [5]将残留块的相同拓扑与跳过连接堆叠在一起，以构建一个非常深的体系结构。 GoogLeNet [10]表明宽度是提高模型性能的另一个重要因素。 Zagoruyko和Komodakis [6]提出基于ResNet架构来增加网络的宽度。他们表明，在CIFAR基准测试中，宽度增加的28层ResNet可以胜过具有1001层的极深的ResNet。 Xception [11]和ResNeXt [7]提出来增加网络的基数。他们凭经验表明，基数不仅节省了参数的总数，而且还比其他两个因素（深度和宽度）具有更强的表示能力。
除了这些因素，我们还将研究体系结构设计的另一个方面，即注意。注意的重要性已在先前的文献中进行了广泛的研究[12,13,14,15,16,17]。注意不仅可以告诉我们关注的重点，还可以改善利益的表示。我们的目标是通过使用注意力机制来提高表示能力：关注重要特征并抑制不必要的特征。在本文中，我们提出了一个新的网络模块，名为“卷积块注意模块”。由于卷积运算通过将跨通道和空间信息融合在一起来提取信息特征，因此我们采用我们的模块来强调沿这两个主要维度（通道和空间轴）的有意义的特征。为此，我们依次应用频道和空间关注模块（如图1所示），以便每个分支机构都可以分别学习在频道和空间轴上参加的“内容”和“位置”。结果，我们的模块通过学习要强调或抑制的信息来有效地帮助信息在网络内流动。
在ImageNet-1K数据集中，通过插入我们的微型模块，揭示了CBAM的功效