YOLOv8改进,YOLOv8添加STA注意机制(超级令牌注意力机制,CVPR2023),并二次创新C2f结构,助力涨点

65 篇文章 33 订阅 ¥199.90 ¥299.90

在这里插入图片描述
改进前训练结果:
在这里插入图片描述
改进后训练结果:
在这里插入图片描述

摘要

在Transformer架构引入“超级令牌”(Super Token)的机制,旨在解决浅层网络中过多冗余的局部特征捕捉问题。传统的Transformer在捕捉长程依赖性方面表现出色,但在浅层网络中,由于局部特征冗余,导致了计算效率的低下。为了解决这一问题,STViT(Super Token Vision Transformer)通过借鉴超像素(superpixels)的设计思想,将视觉内容划分为“超级令牌”,从而降低计算复杂度并保留全局信息建模的能力。因此在 YOLOv8 添加 STA 机制来对视觉内容进行更高效的表征,能够有效捕捉图像中的全局依赖关系,在复杂的场景下,识别物体时也能够处理较远距离的依赖性,有助于提升精度。

理论介绍

Super Token Vision Transformer (STViT)的架构如下;

  • 输入与卷积干层 (Conv Stem),首先,输入通过一个卷积干层(Conv Stem),该层包含多个3×3的卷积层,以提取图像的基本特征。

  • STT(Super Token Transformer)块,在卷积干层之后,输入到 Super Token Transformer (STT) 块中。STT 块是该模型的核心部分,其中每个 STT 块又分为三个子模块:CPE 、Super Token Attention (STA) 和 ConvFFN 。 CPE 模块是通过卷积操作为每个输入特征添加位置信息,用于学习输入图像的绝对位置编码,与传统的绝对位置编码(APE)和相对位置编码(RPE)相比,CPE 能够更灵活地处理不同分辨率的输入图像;STA 模块是 STViT 的核心机制,是提高全局建模能力,首先,视觉令牌(Visual Tokens)通过一个稀疏关联学习过程被聚合成超级令牌(Super Tokens),类似于通过分割减少了视觉内容的冗余。令牌与超级令牌之间通过稀疏关联计算它们的关联度,这个过程的计算复杂度较低,主要是因为只与邻近的超级令牌进行计算,对生成的超级令牌执行多头自注意力操作(MHSA),以捕捉全局依赖,这一步通过减少比较对象来降低计算成本。最后,将超级令牌的表示通过上采样映射回原始的视觉令牌空间,从而完成全局信息的整合; ConvFFN 是 STT 中的最后一步,它增强了局部特征的表征能力。

  • STViT 采用了层次化结构,通过多个 STT 块来进行特征提取:Stage 1 到 Stage 4:每个阶段有若干个 STT 块࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

挂科边缘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值