前言
本文介绍了Swin Transformer在YOLOv11中的结合,Swin Transformer是一种新型视觉Transformer,可作为计算机视觉通用骨干网络。它通过分层Transformer和移位窗口方案,解决了将Transformer应用于视觉领域时的尺度变化和高分辨率挑战,具有高效性和多尺度建模能力。其创新点包括类似CNN的层次化构建和局部自注意力计算。我们将Swin Transformer的相关模块,如PatchMerging、PatchEmbed和SwinStage,集成到YOLOv11的骨干网络中,并对模型配置和注册进行了相应修改。实验表明,结合Swin Transformer的YOLOv11在目标检测任务中表现优异。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
本文提出了一种新型视觉Transformer架构——Swin Transformer,旨在构建适用于计算机视觉领域的通用骨干网络。将Transformer从自然语言处理领域迁移至视觉领域面临的核心挑战源于两个领域间的本质差异,包括视觉实体尺度变化显著以及图像像素分辨率远高于文本词汇量级。为解决这些差异,我们设计了一种分层Transformer架构,其表征通过移位窗口计算机制实现。移位窗口方案将自注意力计算约束于非重叠的局部窗口内,同时保持跨窗口连接能力,从而显著提升计算效率。该分层架构具备多尺度建模的灵活性,且计算复杂度与输入图像尺寸呈线性关系。Swin Transformer的架构特性使其能够兼容广泛的视觉任务,包括图像分类(在ImageNet-1K数据集上达到87.3%的top-1准确率)以及密集预测任务,如目标检测(在COCO test-dev数据集上实现58.7%的框准确率和51.1%的掩码准确率)和语义分割(在ADE20K val数据集上获得53.5%的mIoU)。实验结果表明,该模型性能显著超越先前最佳水平,在COCO数据集上框准确率和掩码准确率分别提升2.7和2.6个百分点,在ADE20K数据集上mIoU提升3.2个百分点,充分证明了Transformer架构作为视觉骨干网络的巨大潜力。此外,所提出的分层设计和移位窗口方法也被证实对所有MLP架构具有普适性增益。
订阅专栏 解锁全文
7934

被折叠的 条评论
为什么被折叠?



