AiATrack: Attention in Attention for Transformer Visual Tracking学习笔记（自用+未完成）-CSDN博客

摘要

变压器跟踪器最近取得了令人印象深刻的进展，其中注意力机制发挥了重要作用。然而，注意机制中的独立关联计算会导致注意权重的噪声和模糊，从而抑制了性能的进一步提高。为了解决这一问题，我们提出了注意中的注意(AiA)模块，该模块通过在所有相关向量之间寻求共识来增强适当的相关性并抑制错误的相关性。我们的AiA模块可以很容易地应用于自注意块和交叉注意块，以促进视觉跟踪的特征聚合和信息传播。此外，我们提出了一个流线型的变压器跟踪框架，称为AiATrack，通过引入有效的特征重用和目标背景嵌入来充分利用时间引用。实验表明，我们的跟踪器在以实时速度运行时，在六个跟踪基准上达到了最先进的性能。代码和模型可在https://github.com/Little-Podi/AiATrack上公开获得。

Introduction：

视觉跟踪是计算机视觉的基本任务之一。它因其广泛的应用范围而受到越来越多的关注[40,18]。给定视频初始帧中带有边界框注释的目标，视觉跟踪的目标是在连续帧中对目标进行定位。在过去的几年里，Siamese跟踪器[2,35,34,67]将视觉跟踪任务视为一个单次匹配问题，得到了极大的普及。最近，一些跟踪器[53,8,61,6,58,57]已经探索了Transformer[52]架构的应用，并取得了很好的性能。
典型Transformer跟踪框架中的关键组件[53,8,61]是注意力块。如图1所示，通过自注意块增强参考框架和搜索框架的特征表示，并通过交叉注意块桥接它们之间的相关性，用于搜索框架中的目标预测。Transformer注意力[52]接受查询和一组键值对作为输入和输出值的线性组合，其权重由查询和相应键之间的相关性决定。关联映射由查询和键之间的缩放点积计算。但是，每个查询键对的相关性是独立计算的，这忽略了其他查询键对的相关性。由于不完美的特征表示或背景杂波场景中存在分散的图像补丁，这可能会引入错误的相关性，从而导致如图4所示的噪声和模糊的注意权重。

为了解决上述问题，我们提出了一种新的注意中的注意(AiA)模块，它通过插入一个内部注意模块来扩展传统的注意[52]。引入的内部注意模块旨在通过寻求所有相关向量之间的一致性来细化相关性。AiA模块的动机如图1所示。通常，如果一个键与查询有高相关性，那么它的一些相邻键也将与该查询有相对高的相关性。否则，相关性可能是噪声。在此激励下，我们引入了内部注意模块来利用这些信息线索。具体而言，内部关注模块将原始关联作为查询、键和值，并对其进行调整，以增强相关查询键对的适当关联，抑制不相关查询键对的错误关联。我们的研究表明，AiA模块可以很容易地插入到自关注块中以增强特征聚合，也可以插入到交叉关注块中以促进信息传播，这两者在Transformer跟踪框架中都是非常重要的。因此，可以提高整体跟踪性能。

如何引入长期参考和短期参考仍然是视觉跟踪的一个开放性问题。利用AiA模块，我们提出了AiATrack，一个用于视觉跟踪的流线型Transformer框架。与之前的实践[63,19,53,58]不同，在模型更新期间需要额外的计算成本来处理所选择的参考帧，我们直接重用之前编码的缓存特征。介绍了一种用于选择高质量短期参考的借据预测头。此外，我们引入了可学习的目标-背景嵌入，在保留上下文信息的同时将目标与背景区分开来。通过这些设计，提出的AiATrack可以有效地更新短期参考，并有效地利用长期和短期参考进行视觉跟踪。

我们通过在涵盖各种跟踪场景的六个主流基准上进行综合实验来验证我们方法的有效性。提议的AiATrack在这些基准测试中以每秒38帧(fps)的实时速度设定了新的最先进的结果。
总之，我们工作的主要贡献有三个方面:

•我们提出了一种新的注意中的注意(AiA)模块，它可以减轻传统注意机制中的噪声和模糊性[52]，并显著提高跟踪性能。
•我们提出了一个整洁的Transformer跟踪框架，该框架重用了编码特征，并引入了目标背景嵌入，以高效地利用时间引用。
•我们进行广泛的实验和分析，以验证我们设计的有效性。拟议的AiATrack在六个广泛使用的基准测试中达到了最先进的性能。

Related Work

Visual Tracking

Attention Mechanism

Correlation as Feature

Method

Attention in Attention

为了展示我们在注意模块中的注意，我们首先简要回顾一下视觉中的传统注意块[14,7]。如图2(a)所示，它接受一个查询和一组键值对作为输入，并产生一个输出，该输出是这些值的加权和。分配给这些值的权重是通过获取查询和相应键之间缩放后的点积的softmax来计算的。分别用Q, K, V∈R HW×C表示查询，键和值。传统的注意力可以表述为：

其中Q¯= QWq, K¯= KWk, V¯= VWv是不同的线性变换
这里，Wq、Wk、Wv和Wo分别表示查询、键、值和输出的线性转换权重。

然而，在传统的注意块中，关联映射M =¯QK¯T√C∈R HW×HW中每个查询键对的相关性是独立计算的，忽略了其他查询键对的相关性。这种相关计算过程可能会由于不完美的特征表示或在背景杂波场景中存在分散的图像补丁而引入错误的相关性。如图4所示，这些错误的相关性可能导致嘈杂和模糊的注意。它们可能对自注意中的特征聚合和交叉注意中的信息传播产生不利影响，导致变压器跟踪器的性能不理想。

为了解决上述问题，我们提出了一种新的注意中的注意(AiA)模块来提高相关映射m的质量。通常，如果一个键与查询具有高相关性，那么它的一些相邻键也将与该查询具有相对较高的相关性。否则，这种相关性可能只是一种噪音。基于此，我们引入AiA模块来利用m中关联之间的信息线索，AiA模块寻求每个键周围的关联一致性，以增强相关查询键对的适当关联，抑制不相关查询键对的错误关联。

具体来说，我们在softmax操作之前引入另一个注意力模块来细化相关图M，如图2(b)所示。当新引入的注意模块被插入传统的注意模块时，我们称之为内注意模块，在注意结构中形成注意。内部注意模块本身是常规注意的一种变体。我们将M中的列视为一系列相关向量，这些相关向量被内部注意力模块作为查询Q '，键K '和值V '来输出残差相关图。

给定输入Q′，K′和V′，我们首先生成转换后的查询Q′和键K′，如图2(b)右块所示。具体来说，为了提高计算效率，首先采用线性变换将Q′和K′的尺寸减小到HW × D (D≪HW)。在归一化后[1]，我们添加了二维正弦编码[14,7]来提供位置线索。然后，Q¯'和K¯'由两个不同的线性变换生成。我们还将V '归一化以生成归一化的相关向量V¯'，即V¯' = LayerNorm(V ')。内部注意模块通过Q¯'，K¯'和V¯'生成残差相关图。

其中W ' o表示用于调整聚合相关性和相同连接的线性变换权重。

本质上，对于相关映射M中的每个相关向量，AiA模块通过对原始相关向量进行聚合，生成残差相关向量。它可以被看作是在与全球接受域的相关性中寻求共识。利用残差相关图，我们的AiA模块注意块可以表示为

对于多头注意块，我们在并行注意头之间共享AiA模块的参数。值得注意的是，我们的AiA模块可以很容易地插入到Transformer跟踪框架中的自注意和交叉注意模块中。

Proposed Framework

利用提出的AiA模块，我们设计了一个简单而有效的用于视觉跟踪的Transformer框架，称为AiATrack。我们的跟踪器由一个网络骨干、一个Transformer架构和两个预测头组成，如图3所示。给定搜索帧，将初始帧作为长期参考，将若干中间帧的集合作为短期参考。网络骨干网提取长期参考和短期参考的特征以及搜索框架，然后用Transformer编码器对其进行增强。我们还引入了可学习的目标-背景嵌入来区分目标和背景区域。Transformer解码器将参考特征以及目标背景嵌入映射传播到搜索框架。然后将Transformer的输出分别馈送到目标预测头和IoU预测头，用于目标定位和短期参考更新。

Tracking with AiATrack

给定带有ground truth注释的初始帧，我们将初始帧裁剪为长期和短期参考，并预计算其特征和目标背景嵌入图，从而初始化跟踪器。对于随后的每一帧，我们估计目标预测头预测的边界框的IoU分数，用于模型更新。更新过程比以前的实践[19,53,58]更有效，因为我们直接重用了编码的特征。

具体来说，如果预测边界框的估计IoU分数高于预定义的阈值，我们将为当前搜索框架生成目标背景嵌入映射，并将嵌入映射与其编码特征一起存储在内存缓存中。对于每个新帧，我们统一采样几个短期参考帧，并从内存缓存中连接它们的特征和嵌入映射以更新短期参考集合。内存缓存中最新的参考帧总是被采样，因为它最接近当前的搜索帧。如果达到最大缓存大小，内存缓存中最老的参考帧将被弹出

Experiments

。。。。。。

Conclusion

在本文中，我们提出了一个注意中的注意(AiA)模块来改进Transformer视觉跟踪的注意机制。所提出的AiA模块通过寻求所有相关向量之间的一致性，可以有效地增强适当的相关性，抑制错误的相关性。此外，我们提出了一个流线型的变压器跟踪框架，称为AiATrack，通过引入有效的特征重用和嵌入分配机制来充分利用时间引用。大量的实验证明了该方法的优越性。我们认为所提出的AiA模块也可以用于其他相关任务，其中Transformer架构可以用于执行特征聚合和信息传播，例如视频对象分割[60,33,15,39]，视频对象检测[23]和多目标跟踪[51,42,64]。