YOLOv11改进 - C3k2融合 | C3k2模块融合融合RepViT Block实现多尺度特征交互与上下文感知能力提升

部署运行你感兴趣的模型镜像

前言

本文介绍了轻量级卷积神经网络RepViT相关技术在YOLOv11中的结合应用。RepViT通过将轻量级ViT的高效设计理念融入MobileNetV3架构,采用结构重参数化技术,增强了移动友好性。其核心的RepViT Block分离Token Mixer和Channel Mixer,利用结构重参数化减少推理开销。我们将RepViT Block等代码引入YOLOv11,在tasks.py中注册并配置yaml文件。实验表明,RepViT在多种视觉任务中表现优异,在ImageNet数据集及与SAM结合的应用中都有出色成果。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20241124221659126

摘要

近期,轻量级视觉Transformer(Vision Transformers, ViTs)在资源受限的移动设备上呈现出相较于轻量级卷积神经网络(CNNs)更卓越的性能和更低的延迟。尽管研究人员已发现轻量级ViTs和轻量级CNNs之间存在诸多结构性联系,但二者在模块结构、宏观设计和微观设计方面的显著架构差异尚未得到充分探究。本研究从ViT的角度重新审视了轻量级CNN的高效设计,并着重指出其在移动设备上具有广阔的应用前景。具体来说,我们通过融合轻量级ViTs的高效架构设计,逐步提升标准轻量级CNN(如MobileNetV3)对移动设备的友好性,最终提出了一个全新的轻量级CNN家族,命名为RepViT。大量实验显示,RepViT在各类视觉任务中优于现有的轻量级ViTs,且展现出理想的延迟表现。尤其是在ImageNet数据集上,RepViT首次在iPhone 12上以1.0毫秒的延迟实现了超过80%的Top - 1精度,突破了轻量级模型的性能瓶颈。此外,将RepViT与SAM结合后,RepViT - SAM的推理速度较先进的MobileSAM提升了近10倍。代码和模型已开源,详见 https://github.com/THU-MIG/RepViT

</

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo-v8.3

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔改工程师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值