YOLOv10全网最新创新点改进系列：融合StokenAttention模块，将普通全局注意力分解为稀疏关联图和低维注意力的乘法，从而提高捕获全局依赖关系的效率，创新性嘎嘎强！

AI棒棒牛

已于 2024-11-05 09:04:30 修改

阅读量2k

点赞数 14

分类专栏： YOLOv10目标检测全网最新创新点改进文章标签： YOLO 目标检测创新点 YOLOv10 模型优化改进北大核心

于 2024-09-11 20:15:00 首次发布

本文链接：https://blog.csdn.net/weixin_51692073/article/details/142109279

版权

YOLOv10目标检测全网最新创新点改进专栏收录该内容

50 篇文章

订阅专栏

YOLOv10全网最新创新点改进系列：融合StokenAttention模块，将普通全局注意力分解为稀疏关联图和低维注意力的乘法，从而提高捕获全局依赖关系的效率，创新性嘎嘎强！

所有改进代码均经过实验测试跑通！截止发稿时YOLOv10已改进50+！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站up主：Ai学术叫叫兽er！

购买相关资料后畅享一对一答疑！

# YOLOv10全网最新创新点改进系列：融合StokenAttention模块，将普通全局注意力分解为稀疏关联图和低维注意力的乘法，从而提高捕获全局依赖关系的效率，创新性嘎嘎强！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

论文地址戳这里！！！

一、StokenAttention摘要

Vision Transformer 在许多视觉任务中取得了令人印象深刻的性能。然而，它在捕获浅层的局部特征时可能会受到高冗余的影响。因此，利用了局部自注意力或早期卷积，这牺牲了捕获远程依赖性的能力。于是出现了一个挑战：我们能否在神经网络的早期阶段获得高效且有效的全局上下文建模？为了解决这个问题，我们从超像素的设计中汲取灵感，减少了后续处理中图像基元的数量，并将超级标记引入到视觉转换器中。超级令牌试图提供视觉内容的语义上有意义的镶嵌，从而减少自注意力的令牌数量并保留全局建模。具体来说，我们提出了一种简单而强大的超级令牌注意力（STA）机制，分为三个步骤：第一个通过稀疏关联学习从视觉令牌中采样超级令牌，第二个对超级令牌执行自注意力，最后将它们映射回原始代币空间。 STA 将普通全局注意力分解为稀疏关联图和低维注意力的乘法，从而提高捕获全局依赖关系的效率。基于STA，我们开发了一个分层视觉转换器。大量的实验证明了其在各种视觉任务上的强大性能。特别是，在没有任何额外训练数据或标签的情况下，它在 ImageNet1K 上实现了 86.4% 的 top-1 准确率，在 COCO 检测任务上实现了 53.9 box AP 和 46.8 mask AP，在 ADE20K 语义分割任务上实现了 51.9 mIOU。

在这里插入图片描述不同视觉转换器的早期注意力图的可视化。对于 DeiT中的全局注意力和 Swin 中的局部注意力，只有少数相邻标记（用红色填充）适用于锚标记（绿色框），从而产生具有高冗余的局部表示。与此类 ViT 相比，我们的方法甚至可以学习浅层的全局表示。

大量实验证明了 STViT 在广泛的视觉任务上的优越性，包括图像分类、对象检测、实例分割和语义分割。例如，在没有任何额外训练数据的情况下，我们的大型模型 STViT-L 在 ImageNet-1K 图像分类上实现了 86.4% 的 top-1 准确率。我们的基础模型 STViT-B 在 COCO 检测任务上实现了 53.9 框 AP 和 46.8 掩模 AP，在 ADE20K 语义分割任务上实现了 51.9 mIOU，分别超过了 Swin Transformer [32] 对应的 +2.1、+2.1 和 +2.4。

AI学术叫叫兽在这！家人们，给我遥遥领先！！！
AI学术叫叫兽在这！家人们，给我遥遥领先！！！
AI学术叫叫兽在这！家人们，给我遥遥领先！！！

二、亮点（创新点）

基于超级令牌注意力机制，我们在本文中提出了一个名为超级令牌视觉变换器（STViT）的通用视觉主干。
它被设计为具有卷积层的分层 ViT 混合体。采用卷积层来补偿捕获局部特征的能力。

在每个阶段，我们都使用一堆超级令牌转换器（STT）块来进行高效且有效的表示学习。
STT 块由三个关键模块组成，即卷积位置嵌入（CPE）、超级令牌注意力（STA）和卷积前馈网络（ConvFFN）。
所提出的 STA 可以有效地学习全局表示，特别是对于浅层。具有深度卷积的CPE和ConvFFN可以以较低的计算成本增强局部特征的表示能力。

三、改进教程

四、验证是否成功即可

执行命令

python train.py

改完收工！
关注B站：AI学术叫叫兽
从此走上科研快速路
遥遥领先同行！！！！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽er 源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

五、写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通，所以本文作者即B站Up主：Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑，本up主获得过国奖，发表多篇SCI，擅长目标检测领域，拥有多项竞赛经历，拥有软件著作权，核心期刊等经历。因为经历过所以更懂小白的痛苦！因为经历过所以更具有指向性的指导！

祝所有科研工作者都能够在自己的领域上更上一层楼！！！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在动态中有链接，感谢支持！祝科研遥遥领先！