本改进已集成到YOLOv8-Magic框架!
论文名称:《Scaling Local Self-Attention for Parameter Efficient Visual Backbones》
自注意力因为参数独立的感受野缩放和内容依赖的交互作用,有望改善计算机视觉系统,这与参数依赖的缩放和内容独立的卷积交互形成对比。自注意力模型最近在精度与参数之间的权衡上显示出与基线卷积模型(如ResNet-50
)相比的鼓舞人心的改进。在这项工作中,我们的目标是开发可以不仅超越规范的基线模型,甚至超越高性能的卷积模型的自注意力模型。我们提出了两种自注意力的扩展,与更高效的自注意力实现相结合,提高了这些模型的速度、内存使用和准确性。我们利用这些改进来开发一个新的自注意力模型家族,HaloNets
,在ImageNet
分类基准的参数限制设置上达到了最先进的准确性。在初步的迁移学习实验中,我们发现HaloNet
模型的表现超过了更大的模型,并具有更好的推理性能。在更难的任务如目标检测和实例分割上,我们简单的局部自注意力和卷积混合体显示了对比非常强的基线的改进。这些结果标志着自注意力模型在传统上由卷积模型主导的设置中展示其有效性的另一步。
在当前的深度学习研究中,如何有效处理图像和视频这类高维数据是一个持续探索的重要议题。自注意力(self-attention
)技术,尤其是在自然语言处理(