YOLOv11改进,YOLOv11添加CAS-ViT(卷积加自注意力视觉变压器)中AdditiveBlock模块,二次创新C3k2结构


在这里插入图片描述


摘要

CAS-ViT 是一种为高效移动应用设计的视觉Transformer。模型通过结合卷积操作与加性自注意机制,在保持高性能的同时显著减少计算开销,适合资源受限的设备如手机。其核心组件 AdditiveBlock 通过多维度信息交互和简化的加性相似函数,实现了高效的上下文信息整合,避免了传统多头自注意机制(MSA)的复杂运算。
在这里插入图片描述


# 理论介绍

AdditiveBlock 模块结合了卷积操作与加性自注意机制,以提升视觉任务的性能与计算效。AdditiveBlock 的设计如下:

  • 多信息交互:CAS-ViT 认为Token Mixer 获取全局上下文信息的能力依赖于多维度的信息交互,包括空间和通道域。
  • 加性相似函数:引入一种新颖的加性相似函数,通过简单高效的操作实现上下文信息的整合,避免复杂的矩阵运算。

AdditiveBlock 包含 Integration 子网、CATM 和 MLP 三个部分,并使用残差连接。Integration子网由三个 ReLU 激活的深度卷积层组成。通过调整通道数和块的数量,形成了轻量级的ViT模型族。
CAS-ViT结构如下图(摘自论文):

在这里插入图片描述

理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址

下文都是手把手教程,跟着操作即可添加成功


### CAS-ViTAdditiveBlock 的功能与实现详解 #### 功能概述 AdditiveBlockCAS-ViT 架构中的核心组件之一,旨在结合卷积操作与性自注意机制来增强模型在视觉任务上的表现和效率。这一模块特别强调多信息交互以及高效的上下文信息整合能力。 #### 设计原理 为了获取更丰富的全局上下文信息,CAS-ViT 利用了多维度的信息交换方式,不仅限于传统的空间域处理,还扩展到了通道域的分析[^1]。这种设计使得网络能够更好地捕捉图像特征之间的复杂关系,从而提高识别精度。 #### 性相似函数的应用 引入了一种新的性相似度计算方法,它能够在保持较低计算成本的同时有效地融合不同位置间的语义关联。相比于传统基于乘法或点积的方法,这种方法更简洁快速,并且减少了对于大规模矩阵运算的需求。 #### 结合具体框架实例 根据不同版本 YOLOCAS-ViT 的集成情况可以看出: - **YOLOv8 和 YOLOv10**: 这两个版本都采用了 `C2f` 结构作为基础,在原有基础上入了来自 CAS-ViTAdditiveBlock 来优化性能[^3][^4]。 - **YOLOv11**: 此版本则进一步探索了其他可能性,选择了 `C3k2` 结构并同样集成了 AdditiveBlock 模块以期达到更好的效果[^2]。 以下是 Python 代码片段展示了如何在一个典型的 PyTorch 环境中定义这样一个 AdditiveBlock 类: ```python import torch.nn as nn from torchvision.models import resnet50 class AdditiveAttention(nn.Module): def __init__(self, channels): super().__init__() self.query_conv = nn.Conv2d(channels, channels//8, kernel_size=1) self.key_conv = nn.Conv2d(channels, channels//8, kernel_size=1) self.value_conv = nn.Conv2d(channels, channels, kernel_size=1) def forward(self, x): Q = self.query_conv(x).mean(-1).transpose(1, 2) # Bx(C/8)xH*W -> Bx(H*W)x(C/8) K = self.key_conv(x).view(Q.size()) V = self.value_conv(x).view(B, C, H * W) attention_scores = F.softmax(torch.bmm(Q, K.transpose(1, 2)), dim=-1) out = torch.bmm(V, attention_scores).reshape_as(x) return out + x class AdditiveBlock(nn.Module): def __init__(self, in_channels, out_channels): super().__init__() self.conv_layer = nn.Sequential( nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=(3, 3), stride=(1, 1), padding='same'), nn.BatchNorm2d(out_channels), nn.ReLU() ) self.additive_attention = AdditiveAttention(out_channels) def forward(self, inputs): conv_output = self.conv_layer(inputs) attended_features = self.additive_attention(conv_output) output = conv_output + attended_features return output ``` 此段代码实现了基本的 AdditiveBlock 组件,其中包含了卷积层用于提取局部特征图谱,而附的关注机制负责强这些特征表示的学习过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

挂科边缘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值