前言
本文介绍了轻量级卷积神经网络RepViT相关技术在YOLOv11中的结合应用。RepViT通过将轻量级ViT的高效设计理念融入MobileNetV3架构,采用结构重参数化技术,增强了移动友好性。其核心的RepViT Block分离Token Mixer和Channel Mixer,利用结构重参数化减少推理开销。我们将RepViT Block等代码引入YOLOv11,在tasks.py中注册并配置yaml文件。实验表明,RepViT在多种视觉任务中表现优异,在ImageNet数据集及与SAM结合的应用中都有出色成果。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
近期,轻量级视觉Transformer(Vision Transformers, ViTs)在资源受限的移动设备上呈现出相较于轻量级卷积神经网络(CNNs)更卓越的性能和更低的延迟。尽管研究人员已发现轻量级ViTs和轻量级CNNs之间存在诸多结构性联系,但二者在模块结构、宏观设计和微观设计方面的显著架构差异尚未得到充分探究。本研究从ViT的角度重新审视了轻量级CNN的高效设计,并着重指出其在移动设备上具有广阔的应用前景。具体来说,我们通过融合轻量级ViTs的高效架构设计,逐步提升标准轻量级CNN(如MobileNetV3)对移动设备的友好性,最终提出了一个全新的轻量级CNN家族,命名为RepViT。大量实验显示,RepViT在各类视觉任务中优于现有的轻量级ViTs,且展现出理想的延迟表现。尤其是在ImageNet数据集上,RepViT首次在iPhone 12上以1.0毫秒的延迟实现了超过80%的Top - 1精度,突破了轻量级模型的性能瓶颈。此外,将RepViT与SAM结合后,RepViT - SAM的推理速度较先进的MobileSAM提升了近10倍。代码和模型已开源,详见 https://github.com/THU-MIG/RepViT。
订阅专栏 解锁全文
755

被折叠的 条评论
为什么被折叠?



