YOLOv11 改进 - 主干网络| SwinTransformer 移位窗口层次化视觉变换器:层次化特征提取增强多尺度目标感知,优化复杂场景检测

部署运行你感兴趣的模型镜像

前言

本文介绍了Swin Transformer在YOLOv11中的结合,Swin Transformer是一种新型视觉Transformer,可作为计算机视觉通用骨干网络。它通过分层Transformer和移位窗口方案,解决了将Transformer应用于视觉领域时的尺度变化和高分辨率挑战,具有高效性和多尺度建模能力。其创新点包括类似CNN的层次化构建和局部自注意力计算。我们将Swin Transformer的相关模块,如PatchMerging、PatchEmbed和SwinStage,集成到YOLOv11的骨干网络中,并对模型配置和注册进行了相应修改。实验表明,结合Swin Transformer的YOLOv11在目标检测任务中表现优异。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20240126102941733

摘要

本文提出了一种新型视觉Transformer架构——Swin Transformer,旨在构建适用于计算机视觉领域的通用骨干网络。将Transformer从自然语言处理领域迁移至视觉领域面临的核心挑战源于两个领域间的本质差异,包括视觉实体尺度变化显著以及图像像素分辨率远高于文本词汇量级。为解决这些差异,我们设计了一种分层Transformer架构,其表征通过移位窗口计算机制实现。移位窗口方案将自注意力计算约束于非重叠的局部窗口内,同时保持跨窗口连接能力,从而显著提升计算效率。该分层架构具备多尺度建模的灵活性,且计算复杂度与输入图像尺寸呈线性关系。Swin Transformer的架构特性使其能够兼容广泛的视觉任务,包括图像分类(在ImageNet-1K数据集上达到87.3%的top-1准确率)以及密集预测任务,如目标检测(在COCO test-dev数据集上实现58.7%的框准确率和51.1%的掩码准确率)和语义分割(在ADE20K val数据集上获得53.5%的mIoU)。实验结果表明,该模型性能显著超越先前最佳水平,在COCO数据集上框准确率和掩码准确率分别提升2.7和2.6个百分点,在ADE20K数据集上mIoU提升3.2个百分点,充分证明了Transformer架构作为视觉骨干网络的巨大潜力。此外,所提出的分层设计和移位窗口方法也被证实对所有MLP架构具有普适性增益。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔改工程师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值