原论文摘要
随着注意力机制在计算机视觉任务中的广泛研究和应用,利用构建通道或空间位置之间的相互依赖性的能力,轻量级但有效的注意力机制得到了深入研究。在本文中,提出了一种新颖的注意力机制——三重注意力(Triplet Attention),该方法通过使用三分支结构捕捉跨维度的交互来计算注意力权重。
对于输入张量,三重注意力通过旋转操作结合残差变换来构建维度间的依赖性,并以极低的计算开销编码通道和空间信息。我们的方法不仅简单且高效,而且可以轻松地作为附加模块插入经典的骨干网络中。
Triplet介绍
Triplet注意力机制(三重注意力)的抽象表示通过三条分支捕捉跨维度交互。对于给定的输入张量,三重注意力通过旋转输入张量并结合残差变换来捕捉维度间的依赖性。如图所示:
如下图所示,不同注意力模块的对比: (a) 压缩激励 (SE) 模块; (b) 卷积块注意力模块 (CBAM); © 全局上下文 (GC) 模块; (d) 三重注意力模块 (我们的). 特征图表示为特征维度,例如,C × H × W 表示具有通道数 C、高度 H 和宽度 W 的特征图。⊗ 表示矩阵乘法, 表示广播元素逐个乘法,⊕ 表示广播元素逐个加法。
Triplet理论详解可以参考链接:论文地址
Triplet代码可在这个链接找到:代码地址
本文在YOLOv10中引入Triplet注意力机制(三重注意力)与C2f结构融合,代码已经整理好了,跟着文章复制粘贴,即可直接运行