前言
本文介绍了Coordinate Attention(坐标注意力)机制及其在YOLOv11中的结合应用。坐标注意力机制将位置信息嵌入通道注意力,通过坐标信息嵌入和坐标注意力生成两个步骤,实现通道关系和长距离关系的编码,解决了传统通道注意力忽略位置信息的问题。该机制通过两个1D特征编码过程聚合特征,捕获长距离依赖并保留精确位置信息,生成方向感知和位置敏感的注意力图,增强感兴趣对象的表示。我们将CoordAtt模块集成进YOLOv11,替代部分原有模块。实验表明,该机制在ImageNet分类及目标检测、语义分割等下游任务中表现出色。
文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总
专栏链接: YOLOv11改进专栏
文章目录
介绍

摘要
近期移动网络架构研究表明,通道注意力机制(如压缩-激励注意力)在提升模型性能方面展现出显著成效,然而此类方法普遍忽视了位置信息的重要性,而空间选择性注意力图的生成恰恰需要精确的位置感知能力。针对这一局限性,本文提出了一种创新性的坐标注意力机制,通过将位置信息有效嵌入到通道注意力框架中,为移动网络设计提供了新的解决方案。与传统的通过二维全局池化将特征张量转换为单一特征向量的通道注意力方法不同,坐标注意力机制将通道注意力分解为沿两个正交空间方向分别进行特征聚合的一维特征编码过程。这种设计策略使得模型能够沿一个空间方向捕获长距离依赖关系,同时在另一个空间方向上保持精确的位置信息。随后,生成的特征图被分别编码为一对具有方向感知和位置敏感特性的注意力图,这两种互补的注意力图可协同作用于输入特征图,从而显著增强目标对象的表征能力。所提出的坐标注意力机制具有结构简洁、易于实现的优势,能够灵活集成到经典移动网络架构(如MobileNetV2、MobileNeXt和EfficientNet)中,且几乎不引入额外计算开销。大量实验验证表明,该注意力机制不仅在ImageNet图像分类任务中表现优异,更值得注意的是,在下游任务包括目标检测和语义分割中展现出更为突出的性能提升。
创新点
- 将位置信息嵌入到通道注意力中,提升了移动网络
订阅专栏 解锁全文
1527

被折叠的 条评论
为什么被折叠?



