YOLOv11改进，YOLOv11添加CAS-ViT（卷积加自注意力视觉变压器）中AdditiveBlock模块，二次创新C3k2结构

最新推荐文章于 2024-12-31 09:54:03 发布

挂科边缘

最新推荐文章于 2024-12-31 09:54:03 发布

阅读量870

点赞数 17

分类专栏： YOLOv8/v11改进文章标签： YOLO 计算机视觉目标检测人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44779079/article/details/144082156

版权

YOLOv8/v11改进专栏收录该内容

138 篇文章 ¥199.90 ¥299.90

订阅专栏

在这里插入图片描述

摘要

CAS-ViT 是一种为高效移动应用设计的视觉Transformer。模型通过结合卷积操作与加性自注意机制，在保持高性能的同时显著减少计算开销，适合资源受限的设备如手机。其核心组件 AdditiveBlock 通过多维度信息交互和简化的加性相似函数，实现了高效的上下文信息整合，避免了传统多头自注意机制（MSA）的复杂运算。
在这里插入图片描述

# 理论介绍

AdditiveBlock 模块结合了卷积操作与加性自注意机制，以提升视觉任务的性能与计算效。AdditiveBlock 的设计如下：

多信息交互：CAS-ViT 认为Token Mixer 获取全局上下文信息的能力依赖于多维度的信息交互，包括空间和通道域。
加性相似函数：引入一种新颖的加性相似函数，通过简单高效的操作实现上下文信息的整合，避免复杂的矩阵运算。

AdditiveBlock 包含 Integration 子网、CATM 和 MLP 三个部分，并使用残差连接。Integration子网由三个 ReLU 激活的深度卷积层组成。通过调整通道数和块的数量，形成了轻量级的ViT模型族。
CAS-ViT结构如下图（摘自论文）：

在这里插入图片描述

理论详解可以参考链接：论文地址
代码可在这个链接找到：代码地址

下文都是手把手教程，跟着操作即可添加成功

目录

摘要
# 理论介绍
🎓一、YOLOv11原始版本代码下载
- 🍀🍀1.YOLOv11模型结构图
- 🍀🍀2.环境配置
🎓二、AdditiveBlock代码
🎓三、添加方法

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

挂科边缘 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。