YOLOv11 改进 - 主干网络| EfficientViT 高效视觉Transformer：硬件感知架构平衡全局感受野与局部细节，提升模型适应性

魔改工程师

已于 2025-12-09 20:34:06 修改

阅读量717

点赞数 21

CC 4.0 BY-SA版权

分类专栏：最新YOLOv11改进专栏文章标签： YOLO transformer 深度学习计算机视觉目标检测人工智能

于 2025-11-26 22:56:24 首次发布

本文链接：https://blog.csdn.net/yolochangeworld/article/details/155285507

最新YOLOv11改进专栏专栏收录该内容

该专栏为热销专栏榜第29名

167 篇文章 ¥99.90 ¥299.90

订阅专栏

部署运行你感兴趣的模型镜像

前言

本文介绍了高速度视觉变换器EfficientViT在YOLOv11中的结合应用。现有视觉变换器计算成本高，不适合实时应用，EfficientViT通过采用夹心布局的内存高效模块和级联组注意力操作，减少了多头自注意力中的计算冗余，提高了内存效率和通道间通信。我们将EfficientViT集成进YOLOv11，通过一系列代码修改与配置，经实验验证取得了一定的效果，在速度和准确性之间达成了较好的平衡。

文章目录： YOLOv11改进大全：卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

摘要

视觉变换器凭借其卓越的模型表征能力已在计算机视觉领域取得显著成功，然而其优异的性能表现往往伴随着高昂的计算开销，限制了其在实时应用场景中的部署。本文提出了一种高效视觉变换器系列架构——EfficientViT，旨在解决现有变换器模型的计算效率瓶颈。通过深入分析发现，当前变换器模型的速度主要受限于内存效率低下的操作，特别是在多头自注意力机制（MHSA）中的张量重塑和逐元素运算过程。为此，我们设计了一种新颖的夹心式布局模块，该模块在高效前馈神经网络（FFN）层之间嵌入单一内存受限的MHSA层，不仅显著提升了内存利用效率，同时增强了通道间的信息交互能力。进一步研究发现，不同注意力头之间的注意力图存在高度相似性，导致计算冗余问题。针对此问题，我们提出了级联组注意力模块，采用不同分割的完整特征输入至各注意力头，有效降低了计算复杂度并提升了注意力机制的多样性。综合实验结果表明，EfficientViT在推理速度与模型精度之间实现了优异平衡，性能超越现有高效模型。具体而言，EfficientViT-M5在精度上超越MobileNetV3-Large达1.9个百分点，同时在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别提升40.4%和45.2%；相较于近期高效模型MobileViT-XXS，EfficientViT-M2精度提升1.8%，GPU/CPU运行速度分别加快5.

您可能感兴趣的与本文相关的镜像