CBAM注意力机制详解与实现

那年一路北

已于 2025-04-16 12:47:55 修改

阅读量8.1k

点赞数 28

文章标签：人工智能

于 2025-02-28 16:19:33 首次发布

本文链接：https://blog.csdn.net/weixin_52603404/article/details/145930505

版权

前言：

在深度学习领域，注意力机制已成为提升模型性能的重要手段之一。CBAM（Convolutional Block Attention Module）作为一种轻量级且高效的注意力机制，被广泛应用于各种卷积神经网络中。

一、CBAM注意力机制概述

1.1 什么是CBAM

CBAM（Convolutional Block Attention Module）是一种卷积块注意力模块，由通道注意力（Channel Attention）和空间注意力（Spatial Attention）两个子模块组成。CBAM的设计目标是通过显式地建模通道和空间两个维度的注意力，提升卷积神经网络的特征表达能力。

1.2 CBAM的结构

CBAM的结构如图所示：

从图中可以看出，CBAM包含两个主要部分：

通道注意力模块（Channel Attention Module）：用于建模通道之间的依赖关系，生成通道注意力图。
空间注意力模块（Spatial Attention Module）：用于建模空间位置之间的依赖关系，生成空间注意力图。

输入特征首先通过通道注意力模块，生成通道注意力图，然后通过空间注意力模块，生成空间注意力图。最终的输出特征是输入特征与两个注意力图的逐元素相乘结果。

二、通道注意力模块（Channel Attention Module）

2.1 通道注意力的原理

通道注意力模块的主要目标是显式地建模通道之间的依赖关系，生成通道注意力图。具体来说，通道注意力模块通过以下步骤实现：

全局信息聚合：通过全局平均池化（Global Average Pooling, GAP）和全局最大池化（Global Max Pooling, GMP）操作，将输入特征的空间维度压缩为1，生成两个通道描述符。
特征变换：将两个通道描述符通过共享的多层感知机（MLP）进行特征变换，生成通道注意力图。
激活：通过Sigmoid函数将通道注意力图的值归一化到[0, 1]范围内。

2.2 通道注意力的数学公式

设输入特征为 F∈RC×H×WF \in \mathbb{R}^{C \times H \times W}，通道注意力图 Mc∈RC×1×1M_c \in \mathbb{R}^{C \times 1 \times 1} 的计算公式如下：

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))M_c(F) = \sigma(MLP(AvgPool(F)) + MLP(MaxPool(F)))

其中：

AvgPool(F)AvgPool(F) 和 MaxPool(F)MaxPool(F) 分别表示全局平均池化和全局最大池化操作。
MLPMLP 表示多层感知机，通常由两个全连接层组成，中间通过ReLU激活函数。
σ\sigma 表示Sigmoid函数，用于将注意力图的值归一化到[0, 1]范围内。

2.3 通道注意力模块的实现

以下是一个简单的通道注意力模块的实现代码（以PyTorch为例）：

import torch
import torch.nn as nn

class ChannelAttentionModule(nn.Module):
    def __init__(self, in_channels, reduction_ratio=16):
        super(ChannelAttentionModule, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        
        self.fc1 = nn.Conv2d(in_channels, in_channels // reduction_ratio, 1, bias=False)
        self.relu = nn.ReLU()
        self.fc2 = nn.Conv2d(in_channels // reduction_ratio, in_channels, 1, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = self.fc2(self.relu(self.fc1(self.avg_pool(x))))
        max_out = self.fc2(self.relu(self.fc1(self.max_pool(x))))
        out = avg_out + max_out
        return self.sigmoid(out)

三、空间注意力模块（Spatial Attention Module）

3.1 空间注意力的原理

空间注意力模块的主要目标是显式地建模空间位置之间的依赖关系，生成空间注意力图。具体来说，空间注意力模块通过以下步骤实现：

通道-wise池化：对输入特征进行通道-wise的最大池化和平均池化，生成两个空间描述符。
特征融合：将两个空间描述符在通道维度上拼接，然后通过一个卷积层生成空间注意力图。
激活：通过Sigmoid函数将空间注意力图的值归一化到[0, 1]范围内。

3.2 空间注意力的数学公式

设输入特征为 F∈RC×H×WF \in \mathbb{R}^{C \times H \times W}，空间注意力图 Ms∈R1×H×WM_s \in \mathbb{R}^{1 \times H \times W} 的计算公式如下：

Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))M_s(F) = \sigma(f^{7 \times 7}([AvgPool(F); MaxPool(F)]))

其中：

AvgPool(F)AvgPool(F) 和 MaxPool(F)MaxPool(F) 分别表示通道-wise的平均池化和最大池化操作。
f7×7f^{7 \times 7} 表示一个7x7的卷积层。
σ\sigma 表示Sigmoid函数，用于将注意力图的值归一化到[0, 1]范围内。

3.3 空间注意力模块的实现

以下是一个简单的空间注意力模块的实现代码（以PyTorch为例）：

import torch
import torch.nn as nn

class SpatialAttentionModule(nn.Module):
    def __init__(self, kernel_size=7):
        super(SpatialAttentionModule, self).__init__()
        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=kernel_size//2, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        out = torch.cat([avg_out, max_out], dim=1)
        out = self.conv1(out)
        return self.sigmoid(out)

四、CBAM模块的集成

4.1 CBAM模块的实现

将通道注意力模块和空间注意力模块结合起来，形成完整的CBAM模块。以下是一个完整的CBAM模块的实现代码（以PyTorch为例）：

import torch
import torch.nn as nn

class CBAM(nn.Module):
    def __init__(self, in_channels, reduction_ratio=16, kernel_size=7):
        super(CBAM, self).__init__()
        self.channel_attention = ChannelAttentionModule(in_channels, reduction_ratio)
        self.spatial_attention = SpatialAttentionModule(kernel_size)

    def forward(self, x):
        x = x * self.channel_attention(x)
        x = x * self.spatial_attention(x)
        return x

4.2 CBAM模块的应用

CBAM模块可以插入到任何深度卷积神经网络中，以提升模型的特征表达能力。以下是一个将CBAM模块插入到ResNet中的示例：

import torch
import torch.nn as nn
from torchvision.models import resnet50

class ResNet50WithCBAM(nn.Module):
    def __init__(self, num_classes=1000):
        super(ResNet50WithCBAM, self).__init__()
        self.resnet = resnet50(pretrained=True)
        self.cbam = CBAM(2048, reduction_ratio=16, kernel_size=7)
        self.fc = nn.Linear(2048, num_classes)

    def forward(self, x):
        x = self.resnet.conv1(x)
        x = self.resnet.bn1(x)
        x = self.resnet.relu(x)
        x = self.resnet.maxpool(x)

        x = self.resnet.layer1(x)
        x = self.resnet.layer2(x)
        x = self.resnet.layer3(x)
        x = self.resnet.layer4(x)

        x = self.cbam(x)
        x = self.resnet.avgpool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

五、CBAM模块的优势

5.1 提升特征表达能力

CBAM模块通过显式地建模通道和空间两个维度的注意力，能够显著提升模型的特征表达能力。通道注意力模块能够关注重要的通道特征，而空间注意力模块能够关注重要的空间位置特征。

5.2 轻量级设计

CBAM模块的设计非常轻量级，不会显著增加模型的计算量和参数量。这使得CBAM模块可以轻松地插入到各种深度卷积神经网络中，而不会对模型的性能产生负面影响。

5.3 即插即用

CBAM模块具有即插即用的特点，可以轻松地插入到任何深度卷积神经网络中。这使得CBAM模块在实际应用中非常方便，无需对模型进行复杂的修改。

六、CBAM模块的应用场景

6.1 图像分类

CBAM模块可以插入到各种图像分类模型中，如ResNet、VGG、DenseNet等，以提升模型的分类性能。

6.2 目标检测

CBAM模块可以插入到各种目标检测模型中，如Faster R-CNN、YOLO、SSD等，以提升模型的检测性能。

6.3 语义分割

CBAM模块可以插入到各种语义分割模型中，如DeepLab、PSPNet、U-Net等，以提升模型的分割性能。

七、总结

CBAM（Convolutional Block Attention Module）作为一种轻量级且高效的注意力机制，通过显式地建模通道和空间两个维度的注意力，显著提升了卷积神经网络的特征表达能力。CBAM模块的设计非常轻量级，具有即插即用的特点，可以轻松地插入到各种深度卷积神经网络中。在实际应用中，CBAM模块被广泛应用于图像分类、目标检测和语义分割等任务中，取得了显著的效果，接下来将插入到其他模型中应用。