YOLOv11 改进 - 主干网络| EfficientViT 高效视觉Transformer:硬件感知架构平衡全局感受野与局部细节,提升模型适应性

部署运行你感兴趣的模型镜像

前言

本文介绍了高速度视觉变换器EfficientViT在YOLOv11中的结合应用。现有视觉变换器计算成本高,不适合实时应用,EfficientViT通过采用夹心布局的内存高效模块和级联组注意力操作,减少了多头自注意力中的计算冗余,提高了内存效率和通道间通信。我们将EfficientViT集成进YOLOv11,通过一系列代码修改与配置,经实验验证取得了一定的效果,在速度和准确性之间达成了较好的平衡。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20241104221104141

摘要

视觉变换器凭借其卓越的模型表征能力已在计算机视觉领域取得显著成功,然而其优异的性能表现往往伴随着高昂的计算开销,限制了其在实时应用场景中的部署。本文提出了一种高效视觉变换器系列架构——EfficientViT,旨在解决现有变换器模型的计算效率瓶颈。通过深入分析发现,当前变换器模型的速度主要受限于内存效率低下的操作,特别是在多头自注意力机制(MHSA)中的张量重塑和逐元素运算过程。为此,我们设计了一种新颖的夹心式布局模块,该模块在高效前馈神经网络(FFN)层之间嵌入单一内存受限的MHSA层,不仅显著提升了内存利用效率,同时增强了通道间的信息交互能力。进一步研究发现,不同注意力头之间的注意力图存在高度相似性,导致计算冗余问题。针对此问题,我们提出了级联组注意力模块,采用不同分割的完整特征输入至各注意力头,有效降低了计算复杂度并提升了注意力机制的多样性。综合实验结果表明,EfficientViT在推理速度与模型精度之间实现了优异平衡,性能超越现有高效模型。具体而言,EfficientViT-M5在精度上超越MobileNetV3-Large达1.9个百分点,同时在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别提升40.4%和45.2%;相较于近期高效模型MobileViT-XXS,EfficientViT-M2精度提升1.8%,GPU/CPU运行速度分别加快5.

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo-v8.3

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔改工程师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值