YOLOv10全网最新创新点改进系列:融合StokenAttention模块,将普通全局注意力分解为稀疏关联图和低维注意力的乘法,从而提高捕获全局依赖关系的效率,创新性嘎嘎强!

YOLOv10全网最新创新点改进系列:融合StokenAttention模块,将普通全局注意力分解为稀疏关联图和低维注意力的乘法,从而提高捕获全局依赖关系的效率,创新性嘎嘎强!

所有改进代码均经过实验测试跑通!截止发稿时YOLOv10已改进50+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽er!

购买相关资料后畅享一对一答疑

# YOLOv10全网最新创新点改进系列:融合StokenAttention模块,将普通全局注意力分解为稀疏关联图和低维注意力的乘法,从而提高捕获全局依赖关系的效率,创新性嘎嘎强!


详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

论文地址戳这里!!!

一、StokenAttention摘要

Vision Transformer 在许多视觉任务中取得了令人印象深刻的性能。 然而,它在捕获浅层的局部特征时可能会受到高冗余的影响。 因此,利用了局部自注意力或早期卷积,这牺牲了捕获远程依赖性的能力。 于是出现了一个挑战:我们能否在神经网络的早期阶段获得高效且有效的全局上下文建模? 为了解决这个问题,我们从超像素的设计中汲取灵感,减少了后续处理中图像基元的数量,并将超级标记引入到视觉转换器中。 超级令牌试图提供视觉内容的语义上有意义的镶嵌,从而减少自注意力的令牌数量并保留全局建模。 具体来说,我们提出了一种简单而强大的超级令牌注意力(STA)机制,分为三个步骤:第一个通过稀疏关联学习从视觉令牌中采样超级令牌,第二个对超级令牌执行自注意力,最后将它们映射回 原始代币空间。 STA 将普通全局注意力分解为稀疏关联图和低维注意力的乘法,从而提高捕获全局依赖关系的效率。 基于STA,我们开发了一个分层视觉转换器。 大量的实验证明了其在各种视觉任务上的强大性能。 特别是,在没有任何额外训练数据或标签的情况下,它在 ImageNet1K 上实现了 86.4% 的 top-1 准确率,在 COCO 检测任务上实现了 53.9 box AP 和 46.8 mask AP,在 ADE20K 语义分割任务上实现了 51.9 mIOU。

在这里插入图片描述不同视觉转换器的早期注意力图的可视化。 对于 DeiT中的全局注意力和 Swin 中的局部注意力,只有少数相邻标记(用红色填充)适用于锚标记(绿色框),从而产生具有高冗余的局部表示。 与此类 ViT 相比,我们的方法甚至可以学习浅层的全局表示。

大量实验证明了 STViT 在广泛的视觉任务上的优越性,包括图像分类、对象检测、实例分割和语义分割。 例如,在没有任何额外训练数据的情况下,我们的大型模型 STViT-L 在 ImageNet-1K 图像分类上实现了 86.4% 的 top-1 准确率。 我们的基础模型 STViT-B 在 COCO 检测任务上实现了 53.9 框 AP 和 46.8 掩模 AP,在 ADE20K 语义分割任务上实现了 51.9 mIOU,分别超过了 Swin Transformer [32] 对应的 +2.1、+2.1 和 +2.4。

AI学术叫叫兽 在这!家人们,给我遥遥领先!!!
AI学术叫叫兽 在这!家人们,给我遥遥领先!!!
AI学术叫叫兽 在这!家人们,给我遥遥领先!!!

二、亮点(创新点)

基于超级令牌注意力机制,我们在本文中提出了一个名为超级令牌视觉变换器(STViT)的通用视觉主干。
它被设计为具有卷积层的分层 ViT 混合体。 采用卷积层来补偿捕获局部特征的能力。

在每个阶段,我们都使用一堆超级令牌转换器(STT)块来进行高效且有效的表示学习。
STT 块由三个关键模块组成,即卷积位置嵌入(CPE)、超级令牌注意力(STA)和卷积前馈网络(ConvFFN)。
所提出的 STA 可以有效地学习全局表示,特别是对于浅层。 具有深度卷积的CPE和ConvFFN可以以较低的计算成本增强局部特征的表示能力。

三、 改进教程

3.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

3.2 新建.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

3.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

四、验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:AI学术叫叫兽
从此走上科研快速路
遥遥领先同行!!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

五、写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。因为经历过所以更懂小白的痛苦!因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在动态中有链接,感谢支持!祝科研遥遥领先!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值