基于transformer的单目标跟踪算法学习笔记

大泽泽的小可爱

已于 2024-08-06 23:47:16 修改

阅读量4.6k

点赞数 34

分类专栏：卫星图像目标跟踪文章标签： transformer 目标跟踪算法计算机视觉

于 2024-08-02 19:20:45 首次发布

本文链接：https://blog.csdn.net/zhangzhao147/article/details/140843135

版权

卫星图像目标跟踪专栏收录该内容

4 篇文章

订阅专栏

基于transformer的单目标跟踪算法学习笔记

基于transformer的目标跟踪的几种基本架构
2021
2022
2023
2024
总结
未来方向

基于transformer的目标跟踪的几种基本架构

在这里插入图片描述

2021

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet（引入cnn提升transformer提取局部特征的能力）

HiFT: Hierarchical Feature Transformer for Aerial Tracking（针对无人机视频）

创新点：
高分辨率特征编码和低分辨率特征解码。前者旨在学习不同特征层之间的相互依赖关系和空间信息，以引起对不同尺度（特别是低分辨率对象）对象的关注。而后者则聚合低分辨率特征图中的语义信息。

具体：
在这里插入图片描述

我们采用来自深层（第5层）的低分辨率特征来替代对象查询。同时，我们还将浅层（3，4层）特征输入Transformer，通过端到端训练，发现具有强辨别力的跟踪定制特征空间，该空间隐式地建模了高分辨率层的空间信息和低分辨率层的语义线索之间的关系。
总结：
使用的是一个标准的编码-解码结构，将卷积网络不同层的特征作为transformer的输入.。transformer的输出特征，经过分类和回归得到目标的位置。一个优点是使用轻量化的特征提取网络。
结果：
在这里插入图片描述

Learning spatio-temporal transformer for visual tracking（简称STARK）

为什么：
捕捉视频序列中空间和时间信息的全局特征依赖关系能有效提升跟踪性能
创新点：
1.一个模板更新策略
2.编码器建模目标和追踪区域之间的全局时空特征依赖，解码器学习一个query embedding来预测目标对象的空间位置。将目标追踪看作一个直接的边界框预测问题
具体：
在这里插入图片描述

架构包含三个关键组件：编码器、解码器和预测头。
编码器接受初始目标对象、当前图像和动态更新的模板作为输入。
编码器中的自注意模块通过特征依赖关系学习输入之间的关系。由于模板图像在视频序列中不断更新，编码器可以捕捉目标的空间和时间信息。
解码器学习查询嵌入以预测目标对象的空间位置。基于角点的预测头用于估计当前帧中目标对象的边界框。同时，得分头被用来控制动态模板图像的更新。

总结：
cnn提取搜索帧，模板帧，动态模板帧特征，融合为一个包含时空信息的特征输入编码器。编码器输出和解码器输出融合形成一个强化特征然后去进行回归和分类得到目标位置，同时根据解码器的输出去更新一个动态模板。
解码器输入可以是模板帧。引导解码器关注特定的目标对象。

Transformer Tracking（简称TransT）

为什么：互相关操作本身是一个局部线性匹配过程，容易丢失语义信息，陷入局部最优，这可能是设计高精度跟踪算法的瓶颈。
具体：
在这里插入图片描述
结果：

总结：本质上就是提取模板帧和搜索帧特征通过特征融合模块形成一个强化特征，然后进行回归与分类

High-Performance Discriminative Tracking with Transformers(简称DTT)

具体：
在这里插入图片描述
总结：就是使用了一个简单的编码-解码结构，解码器的输入是测试帧。

transformer的输入输出解释

Transformer meets tracker:Exploiting temporal context for robust visual tracking（简称TrDiMP/TrSiam）

为什么：相邻帧间存在着丰富的时空上下文信息，但这一宝贵的资源尚未在现有的追踪算法中得到充分利用。本文通过引入Transformer架构，成功地将这些被忽视的上下文信息转化为强大的追踪优势。
具体：
在这里插入图片描述

将本文框架用于孪生网络/相关滤波框架如下，也就是编码器和解码器分别输出一个强化的特征，然后siamfc对这两个特征进行相关运算。

后续马丁大神的TOMP则是使用transformer去获预测一个跟踪模型（在相关滤波中也就是通过数据去获得滤波器w，而不是通过传统的优化目标函数来获得了）

TrTr: Visual Tracking with Transformer

解决问题：基于Siamese的和基于DCF的跟踪器已经统治了目标跟踪领域，但是它们都使用cross-correlation操作来获得模板特征和搜索区域特征之间的联系，但这个操作只能获得两个特征中局部区域之间的联系，而不能获得全局的联系
具体：
在这里插入图片描述

==总结：==还是遵循以下模式
cnn提取特征--------------编码器输入模板特征，解码器输入搜索帧特征——>>transfomer解码器输出一个强化特征----------------->>>>对强化特征进行回归分类
此外还设计了一个在线优化模块，具体后面再看是怎么实现的
甚至还没有利用多帧的时序信息,前面几篇文章，TrDiMP和stark都利用了，编码器输入是多帧图片提取特征然后融合得到的包含时间信息的特征

Learning Tracking Representations via Dual-Branch Fully Transformer Networks（简称DualTFR）

为什么：大多数方法仍然在很大程度上依赖CNN来提取特征，并仅在最后一层使用Transformer通过全局注意力进行特征融合。尽管这些方法在基准数据集上的跟踪精度得到了显著提升，但一个自然的问题随之而来——既然Transformer能够建模不同区域之间的结构依赖，它是否也能提升早期特征提取步骤的效果？我们旨在本研究中回答这个问题。
下面是本文和cnn+transformer架构的对比：
在这里插入图片描述

具体：
在这里插入图片描述
下面是文中定义的局部注意力和全局注意力：

总结：首次提出了不适用cnn提取特征，而使用自己设计的局部注意力+全局注意力提取特征，还设计了一个交叉注意力模块将特征融合，然后进行回归与分类。

感觉这种特征提取方法在卫星图像上或许有效，后面试一下用在卫星视频的目标跟踪

结果：
在这里插入图片描述
超过STARK,transT

2022

SwinTrack: A simple and strong baseline for transformer tracking（简称SwinTRACK）

为什么：
现有的基于Transformer的跟踪器大多使用Transformer来融合和增强CNN生成的特征。相比之下，在本文中提出了一种完全基于注意力的Transformer跟踪算法，Swin-Transformer Tracker(SwinTrack)。SwinTrack使用Transformer进行特征提取和特征融合，允许目标对象和搜索区域之间的完全交互以进行跟踪

具体：
在这里插入图片描述
总结：
使用transformer提取特征，然后concate 输入编码器，将编码器输出和运动token结合输入解码器，形成一个强化特征，然后进行分类回归。
作者在解码器这一块没有使用输入查询，还进行了消融实验具体分析，作者做了一大堆解释，还没有看懂，后面再仔细研究

结果：
在这里插入图片描述

ProContEXT: Exploring Progressive Context Transformer for Tracking

为什么：
由于形变、遮挡、快速变化和拥挤的场景、相似等问题，跟踪器必须动态学习目标形状变化信息，Transformer的方法(，由于缺乏上下文信息，它们的性能在快速变化的场景中受到影响。为了解决这个问题，空间上下文学习）被提出、发展。此外，动态模板更新已被用于各种视觉任务（包括感知、分割、跟踪和密度估计），用于空间上下文建模。然而，对跟踪任务的时间和空间上下文的全面研究仍有待实现。
具体：
在这里插入图片描述
动态模板是在不同帧生生成的，关注目标外形变化。静态模板是同一张图上不同尺度下形成的，关注周围相似目标，然后和搜索帧共同输入一个类似于VIT的结构。作者设计了一个上下文感知注意力

$[ \omega = \phi(\text{softmax}(Q_s K_x^T / \sqrt{d_k}) + \text{softmax}(Q_d K_x^T / \sqrt{d_k})) \in \mathbb{R}^{1 \times N_x}](https://i-blog.csdnimg.cn/direct/b8e9f52065dc4e5a9010f96a8f98d97d.png)$

==总结：==所谓时间信息实际上也就是不同帧提取的模板信息，然后输入到VIT结构中，本文的VIT自己设计了一个上下文感知注意力来融合输入的三种信息。

结果：
在这里插入图片描述

Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework(简称OStrack)

为什么：
然而，特征提取和关系建模的分离存在以下局限性。首先，由传统的双流两阶段框架提取的特征与目标无关。换句话说，每张图像的提取特征在离线训练后就已确定，因为模板和搜索区域之间没有交互。这与目标的持续变化和任意性质相违背，导致目标和背景的辨别能力有限。在目标对象的类别不在训练数据集中（即一次性跟踪）时，上述问题尤为严重。其次，双流两阶段框架容易受到性能与速度的权衡影响。根据特征融合模块的计算负担，通常采用两种不同的策略。第一种，如图2(a)所示，简单地采用交叉相关[1,27]或判别相关滤波器[2,7]等单一算子，这种方法高效但效果较差，因为简单的线性操作会导致辨别信息的丢失[5]。第二种，如图2(b)所示，通过复杂的非线性交互（Transformer[44]）解决信息丢失问题，但由于参数众多且使用迭代优化（例如，对于每个搜索图像，STARK-S50[50]在RTX2080Ti GPU上花费7.5毫秒进行特征提取和14.1毫秒进行关系建模），效率较低。

在这项工作中，我们通过一个统一的单流单阶段跟踪框架来解决上述问题。单流框架的核心思想是在早期阶段（即原始图像对）桥接模板和搜索区域之间的自由信息流，从而提取面向目标的特征并避免辨别信息的丢失。具体来说，我们将展平的模板和搜索区域连接起来，输入堆叠的自注意力层[44]（我们在实现中选择了广泛使用的视觉Transformer（ViT）[12]），生成的搜索区域特征可以直接用于目标分类和回归而无需进一步匹配。堆叠的自注意力操作使模板和搜索区域之间能够迭代特征匹配，从而允许相互指导进行目标导向的特征提取。因此，模板和搜索区域的特征都可以动态提取，具有很强的辨别力。此外，所提出的框架在性能和速度之间达到了良好的平衡，因为模板和搜索区域的连接使得单流框架高度并行化，并且不需要额外的复杂关系建模网络。

此外，所提出的单流框架提供了一个关于目标和搜索区域每个部分（即候选者）相似性的强先验，如图4所示，这意味着模型甚至在早期阶段就可以识别背景区域。这一现象验证了单流框架的有效性，并促使我们提出了一个网络内的早期候选者消除模块，以便及时逐步识别和剔除属于背景的候选者。所提出的候选者消除模块不仅显著提高了推理速度，还避免了无信息背景区域对特征匹配的负面影响。尽管结构简单，所提出的跟踪器在多个基准上取得了令人印象深刻的性能，并且保持了可爱的推理效率，显示出比现有Transformer跟踪器更快的收敛速度。如图1所示，我们的方法在精度和推理速度之间取得了良好的平衡。
创新点：
这项工作的主要贡献有三点：（1）我们提出了一个简单、整洁且有效的单流单阶段跟踪框架，通过结合特征提取和关系建模。（2）受目标和搜索区域每个部分之间早期获取的相似性得分的先验启发，提出了一个网络内的早期候选者消除模块，以减少推理时间。（3）我们进行了全面的实验，验证了单流框架在性能、推理速度和收敛速度方面优于之前的SOTA双流跟踪器。最终的跟踪器OSTrack在多个跟踪基准上创造了新的最先进水平。

具体：
在这里插入图片描述

网络内的早期候选者消除模块的大致思想：

1.search图像中的每个patch都可以被看作是一个目标候选区域。
2.在每个候选消除模块中，每个候选区域会被计算一个与template图像的相似度作为其得分，得分最高的k个候选区域会被保留下来，其他的候选区域则会被丢弃。
3.为了避免template中背景区域的影响，在本文中作者并没有使用候选区域与每个template patch计算相似度并取均值，而是直接计算其与template最中心位置的patch之间的相似度作为其得分。可以这样做的原因在于经过self-attention操作之后，中心的template
patch已经聚集了足够的目标信息。
4.由于这些背景区域不会对分类和回归操作造成影响，因此在Transformer输出之前，这些中途被丢弃的区域直接做zero-padding （作者想法）即可将特征恢复成原尺寸。
（感觉这个作者写的非常好直接拿过来了，https://blog.csdn.net/qq_44799766/article/details/131074627）

结果：
在这里插入图片描述

MixFormer: End-to-end tracking with iterative mixed attention

b站，作者讲解视频
=为什么：
目前大度哦基于Transformer的跟踪器仍然依赖于CNN进行通用特征提取，并且仅在后期高层和抽象表示空间中应用注意力操作。我们分析认为，这些CNN表示有限，因为它们通常是为通用对象识别预训练的，可能会忽略跟踪的更精细结构信息。此外，这些CNN表示使用局部卷积核，缺乏全局建模能力。因此，CNN表示仍然是其瓶颈，阻碍了它们在整个跟踪管道中充分发挥自注意力的威力。

为了克服上述问题，我们提出了一种新的跟踪框架设计观点，即通用特征提取和目标信息集成应在一个统一的框架内结合在一起。这种耦合处理范式具有几个关键优势。首先，它将使我们的特征提取更加针对相应的跟踪目标，捕捉更多目标特定的辨别特征。其次，它还允许目标信息更广泛地集成到搜索区域，从而更好地捕捉它们之间的关联。此外，这将导致一个更紧凑和整洁的跟踪管道，仅使用一个主干和跟踪头，而没有显式的集成模块。

（感觉和ostrack差不多，都是将特征提取+特征融合集成在一个框架里）
具体：
在这里插入图片描述

注意在输入后并没有将模板特征和搜索帧特征concat，而是各自过一个MAM模块，最后再concat，然后进行分类回归

结果：
在这里插入图片描述

Backbone is all your need: A simplified architecture for visual object tracking

具体：
在这里插入图片描述
结果：

结构差不多，但看效果远不弱swintrack和Mixformer

Transforming Model Prediction for Tracking（简称Tomp）

SparseTT: Visual Tracking with Sparse Transformers

为什么：
transformer中的自注意力机制专注于建模长距离依赖关系，使其擅长捕捉全局信息，但在搜索区域中缺乏对最相关信息的关注。为了进一步提升变压器跟踪器的性能，我们通过稀疏注意力机制缓解了自注意力机制的上述缺点。该想法受 [Zhao et al., 2019] 启发。我们调整了 [Zhao et al., 2019] 中的稀疏变压器，以适应视觉跟踪任务，并提出了一种新的端到端孪生跟踪器，使用编码器-解码器稀疏变压器。在稀疏注意力机制的驱动下，稀疏变压器专注于搜索区域中最相关的信息，从而更有效地抑制干扰跟踪的背景

[Zhao et al., 2019] ：Explicit sparse transformer: Concentrated attention through explicit selection.

具体：
在这里插入图片描述

主要工作在于引入sparse transformer，2022投了cvpr貌似没中？？

CSWinTT: Transformer Tracking with Cyclic Shifting Window Attention（简称CSWinTT）

为什么：

然而，我们观察到这些变压器跟踪器只是将模板和搜索区域的扁平化特征投入到像素级注意力中，每个扁平化特征的像素（查询）以完全无序的方式匹配另一个扁平化特征的所有像素（键），如图1b所示。这种像素级注意力破坏了目标对象的完整性，导致像素之间相对位置的信息丢失。

为了解决这一问题，我们提出了一种新颖的多尺度循环移动窗口变压器用于视觉对象跟踪，以进一步将像素级注意力提升到窗口级注意力，通过将每个窗口作为一个整体计算不可分割窗口之间的注意力，从而保持窗口内的位置信息。我们的方法受到开创性工作Swin Transformer [25] 的启发，该工作采用了层次化变压器结构，从小尺寸补丁开始，通过合并逐渐增大尺寸，以实现更广的感受野。与Swin Transformer不同，我们直接计算模板和搜索区域之间的跨窗口注意力，这有助于通过确保对象的完整性来区分目标和背景。此外，我们提出了多头多尺度注意力，其中变压器的每个头在特定尺度上测量分区窗口之间的相关性。关键思想是在每个窗口上应用循环移动策略，如图1a所示，以生成更准确的注意力结果。为了应对循环移动操作引起的边界处性能下降，我们设计了一个空间正则化注意力掩码，事实证明它在缓解边界伪影方面非常有效。最后，我们提出了一些高效的计算策略，以避免多尺度循环移动窗口引入的冗余计算，从而大大减少了时间和计算成本。大量实验表明，我们的跟踪器性能显著优于其他最先进的算法
在这里插入图片描述
（a）该方法首先通过窗口划分实现查询和键之间的窗口级注意力，然后对每个窗口应用循环移位（从红色框中的基准样本到由橙色框包围的生成样本），以极大地扩展窗口样本的数量，同时保持对象的完整性。（b）以前的transformer产生像素级注意力，这削弱了像素之间的位置信息并忽略了对象的完整性。

换句话说，所提的方法通过窗口分割和循环移位来实现窗口级关注，这样可以更好地保持目标的完整性，而不是像之前的转换器那样仅仅关注像素级别。

具体：
在这里插入图片描述
这个循环移位操作还没看懂，有个帖子讲解的不错，借用一下https://blog.csdn.net/m0_37412775/article/details/125131481

结果:
在这里插入图片描述
指标上还是比不过mixformer

‘AiATrack: Attention in attention for transformer visual tracking

b站，原作讲解

解决问题：
典型的Transformer跟踪框架中的关键组件是注意力块。如图1所示，参考帧和搜索帧的特征表示通过自注意力块增强，二者之间的相关性通过交叉注意力块建立，以在搜索帧中进行目标预测。Transformer注意力机制[52]将查询和一组键值对作为输入，输出由查询和相应键之间的相关性决定的值的线性组合。相关性图通过查询和键之间的缩放点积计算得出。然而，每个查询-键对的相关性是独立计算的，这忽略了其他查询-键对之间的相关性。这可能会由于特征表示不完美或背景杂乱场景中存在干扰图像块而引入错误的相关性，从而导致噪声和模糊的注意力权重，如图4所示。
在这里插入图片描述

为了解决上述问题，我们提出了一种新颖的注意力中注意力（AiA）模块，它通过插入一个内部注意力模块扩展了传统的注意力机制[52]。引入的内部注意力模块旨在通过在所有相关性向量中寻求共识来优化相关性。AiA模块的动机在图1中说明。通常情况下，如果一个键与查询具有较高的相关性，那么它的一些相邻键也会与该查询具有相对较高的相关性。否则，该相关性可能是噪声。基于此动机，我们引入了内部注意力模块来利用这些信息线索。具体而言，内部注意力模块将原始相关性作为查询、键和值，并调整它们以增强相关查询-键对的适当相关性，并抑制不相关查询-键对的错误相关性。我们展示了所提出的AiA模块可以轻松插入到自注意力块中以增强特征聚合，并插入到交叉注意力块中以促进信息传播，这两者在Transformer跟踪框架中都非常重要。结果是，整体跟踪性能得到了提升。
创新：
如何引入长期和短期参考仍然是视觉跟踪的一个开放问题。借助提出的AiA模块，我们提出了AiATrack，一种简化的Transformer视觉跟踪框架。不像以前的方法[63,19,53,58]，它们在模型更新过程中需要额外的计算成本来处理选择的参考帧，我们直接重用之前编码的缓存特征。我们引入了一个IoU预测头来选择高质量的短期参考。此外，我们引入了可学习的目标-背景嵌入来区分目标和背景，同时保留上下文信息。通过这些设计，提出的AiATrack可以高效更新短期参考，并有效利用长期和短期参考进行视觉跟踪。

具体：
在这里插入图片描述
图注：方法动机。图的左部分展示了一个典型的Transformer跟踪框架。右侧，节点表示特征图中不同位置的特征。这些节点作为自注意块中的查询和键。节点之间的链接表示注意力机制中查询和键之间的相关性。绿色节点的一些相关性是错误的，因为它链接到不相关位置的节点。通过将所提出的模块应用于原始相关性，我们可以从其他节点（例如棕色节点）的相关性中寻求共识，这些节点可以提供支持线索以获得适当的相关性。通过这种方式，可以改进相关性的质量。
在这里插入图片描述

结果：

总结：设计了AiA模块可以轻松插入到自注意力块中以增强特征聚合，并插入到交叉注意力块中以促进信息传播。这个模块对于目标中的节点从其他节点（例如棕色节点）的相关性中寻求共识，这些节点可以提供支持线索以获得适当的相关性，以改进注意力中相关性的质量

Unified Transformer Tracker for Object Tracking （这是一个mot和sot统一的跟踪器）

Siamese Transformer Pyramid Networks for Real-Time UAV Tracking（无人机实时跟踪）

具体：
在这里插入图片描述
结果：

走的轻量化道路，精度自然会被牺牲。我需要的是能在卫星视频上的跟踪器，无硬件限制，这篇就不细看了。

2023

Generalized Relation Modeling for Transformer Tracking（改进ostrack）

为什么：
现有的单流跟踪器总是让模板在所有编码器层中与搜索区域内的所有部分交互。这可能会在提取的特征表示不够区分时导致目标与背景混淆。
在这里插入图片描述

图1. Transformer跟踪器中不同关系建模流水线的比较。双流流水线使用并行自注意力块来建模每组令牌（模板令牌或搜索令牌）内部的关系。单流流水线通过统一的注意力块整合了两个令牌集合之间的交叉关系建模和每个令牌集合内部的自关系建模。相比之下，我们提出的流水线对搜索令牌进行自适应划分，如果没有搜索令牌被选择与模板令牌交互，则退化为双流形式；如果所有搜索令牌都被选择用于交叉关系建模，则退化为单流形式

具体：

图2，跟踪框架与我们提出的广义关系建模方法。对于三类令牌，注意力操作是同时进行的，使用了提出的注意力掩码策略。我们仅展示了不同令牌类别的注意力操作中的查询和键。值与相应的键相同，因此为了清晰起见，值被省略。

具体看这篇文章，结合代码分析的比较好。
结果：

DropMAE:Masked autoencoders with spatial-attention dropout for tracking tasks

为什么：
在本文中，我们研究了用于匹配基础下游任务的视频掩码自编码器（MAE）预训练，包括视觉目标跟踪（VOT）和视频目标分割（VOS）。MAE的一个简单扩展是随机掩码掉视频中的帧补丁，并重建帧像素。然而，我们发现这种简单的基线方法过度依赖空间线索，同时忽略了帧重建的时间关系，从而导致VOT和VOS的时间匹配表示不理想。为了解决这个问题，我们提出了DropMAE，它在帧重建过程中自适应地执行空间注意力丢弃，以促进视频中的时间对应学习。我们展示了DropMAE作为一个强大而高效的时间匹配学习器，在匹配基础任务上的微调结果优于基于ImageNet的MAE，并且预训练速度提高了2倍。此外，我们还发现，在预训练视频中的运动多样性对于提升VOT和VOS的性能比场景多样性更为重要。我们预训练的DropMAE模型可以直接加载到现有的基于ViT的跟踪器中进行微调，无需进一步修改。值得注意的是，DropMAE在9个高度竞争的视频跟踪和分割数据集中的8个上设置了新的最先进性能。

原文链接：https://blog.csdn.net/qq_44802369/article/details/129968765
具体：
在这里插入图片描述

Representation learning for visual object tracking by masked appearance transfer

摘要：
视觉表征在视觉目标跟踪中起着重要作用。然而，很少有工作研究专门用于跟踪的表征学习方法。大多数跟踪器直接使用ImageNet预训练的表征。在本文中，我们提出了掩码外观转移，这是一种基于编码器-解码器架构的简单但有效的跟踪表征学习方法。首先，我们联合编码模板和搜索区域的视觉外观，然后分别对其进行解码。在解码过程中，重建原始搜索区域图像。然而，对于模板，我们让解码器重建搜索区域内的目标外观。通过这种目标外观转移，学习到专门用于跟踪的表征。我们随机掩码输入，从而使学习到的表征更具辨别力。为了充分评估，我们设计了一个简单且轻量级的跟踪器，可以评估表征在目标定位和边框回归中的效果。大量实验表明，该方法是有效的，学习到的表征可以使简单的跟踪器在六个数据集上获得最新的性能。
https://github.com/difhnp/MAT
为什么：
虽然我们有明确的学习目标，但关于孪生跟踪（Siamese Tracking）有效表征学习方法的研究仍然缺乏。常见的做法是简单地微调预训练的ImageNet [33]表征。然而，这些表征是为分类任务而学习的，而不是为跟踪任务学习的。高ImageNet准确率并不意味着在视觉目标跟踪中有好的表现[43]。没有好的表征，简单的相似性匹配不能带来好的跟踪性能。因此，大多数工作都集中在跟踪器的颈部[7, 36, 47, 50]和头部[25, 40, 46]的设计上。在这些工作中，我们可以注意到整个模型总是端到端训练的，表征学习与边框回归任务和目标定位任务相耦合。这意味着表征学习完全由其他跟踪器组件驱动。为了提高跟踪性能，我们不得不使颈部或头部变得越来越复杂。

基于上述观察，我们尝试通过学习好的表征来提高跟踪性能，并在本文中提出了一种简单但有效的表征学习方法。**该方法旨在将表征学习与跟踪器训练分离开来，从而使其成为一种无跟踪器的方法。**它采用基于变压器的自动编码器来学习更具辨别力的视觉特征以进行目标跟踪。这是通过为自动编码器设定一个非平凡的学习目标来实现的，如图1b所示。模板的嵌入目标外观可以被推近到搜索区域中的外观。我们通过掩盖输入图像使得学习到的表征更具辨别力。

为了评估所学习到的表征在目标定位和边框回归中的效果，我们设计了一个非常简单的跟踪器，具有一个匹配算子和一个轻量级头部。我们用不同的模型架构和初始权重评估了所提出的方法。我们还将我们的简单跟踪器与许多最新的跟踪器在流行的LaSOT [14]、TrackingNet [31]、GOT10k [20]和其他许多跟踪数据集[15, 30, 41]上进行了比较。实验结果表明了我们所提出的表征学习方法的有效性和泛化能力。比较结果显示，我们的简单跟踪器可以通过使用学习到的表征获得最新的性能。
在这里插入图片描述

总结起来，我们的贡献如下：

我们提出了掩盖外观转移（MAT），一种新颖的视觉目标跟踪表征学习方法，它联合编码模板和搜索区域图像，并通过一个简单的编码器-解码器管道学习到特定于跟踪的表征。提出了一个非平凡的训练目标使得该方法有效。
我们设计了一个简单且轻量级的跟踪器用于特定于跟踪的评估，具有很少的参数和没有超参数。它可以评估表征不仅用于目标定位，还用于边框回归。
广泛的实验表明了所提出方法的有效性和泛化能力。广泛的比较显示，所提出的简单跟踪器可以通过使用学习到的特定于跟踪的表征获得最新的性能。
具体：
在这项工作中，我们仍然将视觉跟踪表述为相似性匹配问题，并且仍然学习一个嵌入函数。不同的是，在我们的假设中，嵌入函数不需要将所有外观嵌入到一起。它期望将模板的嵌入目标表征推近到搜索区域的表征（图2b）。在这个假设下，我们获得了一个明确的监督目标，可以通过一个简单的自动编码器来实现，见下文。
在这里插入图片描述

输入掩码在表征学习中已显示出其有效性[12, 17]。它可以减少冗余，并为自动编码器设置一个难度较大的任务，从而学习到更具辨别力的特征。
基于自注意机制，变压器编码器可以具备长程建模的能力。我们期望它能够捕捉模板和搜索区域之间的目标指定对应关系，生成用于相似性匹配的高质量表征，并带来令人满意的跟踪性能

结果：
在这里插入图片描述

总结：
没有设计复杂的跟踪框架，通过编码-重建实现目标跟踪，感觉和diffusion track很像

SeqTrack

为什么：
目标跟踪的新的建模方式：序列生成式建模。它将目标跟踪建模为了序列生成任务，仅使用简单的Transformer结构和交叉熵损失，简化了跟踪框架。大量实验表明了序列生成建模的优秀性能和潜力。在文章的最后，研究者希望通过本文给视觉目标跟踪和其他视频任务的序列建模提供灵感。在未来工作，研究者将尝试进一步融合时序信息，以及扩展到多模态任务。
具体：
在这里插入图片描述

这篇文章将的很好

结果：
在这里插入图片描述

Autoregressive visual tracking（简称ARtrack）

摘要：
我们提出了ARTrack，一种用于视觉目标跟踪的自回归框架。ARTrack将跟踪视为一个坐标序列解释任务，逐步估计目标轨迹，其中当前估计由先前状态引导，并反过来影响后续序列。这种时间自回归方法对轨迹的顺序演变进行建模，从而在帧间持续跟踪目标，使其优于现有的仅考虑每帧定位精度的模板匹配跟踪器。ARTrack简单直接，消除了定制定位头和后处理步骤。尽管其简单性，ARTrack在主要基准数据集上实现了最先进的性能。
具体：
在这里插入图片描述

结果：
在这里插入图片描述
感觉和seqtrack是一个套路

Foreground-Background Distribution Modeling Transformer for Visual Object Tracking（无人机+轻量化transformer）

摘要：
虽然基于判别相关滤波器（DCF）的跟踪器因其高效性在无人机跟踪中占据主导地位，但使用过滤剪枝的轻量级卷积神经网络（CNN）跟踪器也显示出显著的效率和精度。然而，纯视觉变换器模型（ViTs）在无人机跟踪中的应用尚未探索，这一点令人惊讶，因为ViTs在图像分类中已显示出比CNN更好的性能和更高的效率。

在本文中，我们提出了一种高效的基于ViT的跟踪框架Aba-ViTrack，用于无人机跟踪。在我们的框架中，将特征学习和模板搜索耦合集成到一个高效的一流ViT中，以避免额外的重关系建模模块。所提出的Aba-ViT利用了一种自适应和背景感知的令牌计算方法来减少推理时间。这种方法根据学习到的中止概率自适应地丢弃令牌，其中背景令牌的中止概率先验上高于目标令牌。广泛的实验在六个无人机跟踪基准测试中表明，所提出的Aba-ViTrack在无人机跟踪中实现了最先进的性能。代码可在 https://github.com/xyyang317/Aba-ViTrack 获取。
具体：
在这里插入图片描述

Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual Tracking（轻量化）

摘要：
基于变换器的视觉跟踪器由于其卓越的建模能力，已展示出显著的进步。然而，现有的跟踪器由于速度较低，限制了它们在计算能力有限的设备上的应用。为了解决这个问题，我们提出了HiT，一种新型的高效跟踪模型家族，可以在不同设备上以高速运行，同时保持高性能。HiT的核心思想是桥接模块（Bridge Module），它弥合了现代轻量级变换器和跟踪框架之间的差距。桥接模块将深层特征的高层信息融入浅层的大分辨率特征中，从而为跟踪头生成更好的特征。我们还提出了一种新颖的双图像位置编码技术，它同时编码搜索区域和模板图像的位置信息。HiT模型实现了令人满意的速度和竞争力的性能。例如，它在Nvidia Jetson AGX边缘设备上以每秒61帧（fps）的速度运行。此外，HiT在LaSOT基准测试中达到了64.6%的AUC，超过了所有以前的高效跟踪器。代码和模型可在 https://github.com/kangben258/HiT 获取。
具体：
在这里插入图片描述

2024

RTracker: Recoverable Tracking via PN Tree Structured Memory（简称RTtracker）

解决问题：
现有的跟踪方法主要集中于学习更好的目标表示或开发更强健的预测模型以提高跟踪性能。虽然跟踪性能已有显著改善，但由于跟踪失败、完全遮挡或视野外情况，目标丢失问题频繁发生。然而，关于跟踪方法的自我恢复问题得到的关注相对较少，但这对实际应用至关重要。为此，我们提出了一个可恢复的跟踪框架——RTracker，它利用树状结构的记忆动态地关联跟踪器和检测器，以实现自我恢复能力。

具体：
具体来说，我们提出了一种正负树状记忆（Positive-Negative Tree-structured memory），用以按时间顺序存储和维护正负目标样本。在PN树记忆的基础上，我们开发了相应的行走规则以确定目标状态，并定义了一组控制流程，以在不同的跟踪场景中将跟踪器和检测器结合起来。我们的核心思想是利用正负目标类别的支持样本建立基于相对距离的标准，以可靠地评估目标丢失。在众多具有挑战性的基准测试中，与最先进的方法相比，我们的算法表现出色，证明了其有效性。所有源代码和训练模型将发布在 https://github.com/NorahGreen/RTracker。
在这里插入图片描述
我们方法的目标是动态地将跟踪器与检测器关联，以实现基于目标状态（即存在或缺失）的可恢复跟踪，其中跟踪器负责连续帧中精确的目标定位，而检测器负责全局搜索。为此，我们提出了一种正负树（PN树）结构的记忆，配备了一组行走规则，以实现对目标状态的可靠判断。然后，根据目标状态使用预定义的控制流程将跟踪器和检测器关联起来进行跟踪。图3展示了提出方法的总体流程，包括正常情况、目标丢失情况和目标恢复情况的控制流程。
在这里插入图片描述

没看懂贴一下原文后面再仔细研究

3.1 正负树结构记忆

自我恢复跟踪的主要问题是确定目标在测试帧中是存在还是缺失。我们的方法不是基于固定阈值来判断目标状态，而是构建一种基于正负目标样本的相对测量，以实现对目标状态的更可靠评估。正负树（PN树）旨在维护正负目标样本的“支持向量”，这类似于支持向量机（SVM）算法。此外，我们提出了一组行走规则，用于利用PN树记忆来确定当前目标状态。图2展示了提出的PN树的结构和更新操作。

PN树定义

我们将PN树定义为一种特殊的二叉树变体，具有一个根节点和两个不同的分支：正分支和负分支。根节点存储初始帧中给定的目标模板特征，其两个分支分别维护与目标相关的信息（正分支）和与目标无关的样本（负分支）。树结构中的每个节点存储了在特定阶段通过相似性感知模型提取的代表性目标样本的特征。

PN树的操作

为了满足视觉跟踪的目标建模需求，我们定义了PN树的初始化、更新和删除操作。

初始化：PN树的根节点和第一个正子节点使用初始帧中目标模板的特征进行初始化。同时，构建初始负节点，包含与目标无关的信息（即背景样本的特征）。

更新：为了实现高效的PN树记忆，我们根据目标样本是否包含新目标外观采用了两种不同的样本更新策略。对于没有新目标外观的更新样本，我们通过公式（1）将新节点与现有子节点（不包括根节点）合并。合并后，我们将节点移动到正分支中的最深处。对于具有新目标外观的更新样本，我们直接将新节点作为PN树中的最深正节点附加。合并过程公式如下：
$F_{\text{new}} = \frac{F_x + F_{\text{old}} \times N}{N + 1} )$

其中， $F_{\text{new}} )$ 和 $F_{\text{old}} )$ 分别是合并操作前后的节点特征，N
表示对该节点应用的更新次数， $F_x )$
是要更新的新样本的特征。对于负分支，我们将新的负样本添加为最深的负节点。因此，在PN树中，节点的深度作为其时间更新顺序的指示器，位于较深处的节点对应于最近的更新。

删除：当一个分支超过 N 个节点时，最早的节点将被删除。本研究将 N 设置为 10，以平衡记忆效率和跟踪精度。

PN树的行走规则

我们的关键思想是根据测试节点与PN树中节点的相似性来识别节点类型（正或负）。为此，我们定义了行走规则，包括三部分：行走操作、停止条件和行走路径。

行走操作：对于每个行走到的节点，我们计算其与测试节点的相似性，使用的余弦相似性定义为：

$\text{cos}(F_x, F_{\text{node}}) )$

其中， $F_x )$ 和 $F_{\text{node}} )$ 分别表示测试节点和候选节点的特征。

行走路径：我们定义正路径来识别节点是否从正标签转换到负标签，负路径来识别节点是否从负标签转换到正标签。正路径从正分支的叶节点经过根节点到达负分支的叶节点。负路径则相反。

停止条件：对于正案例，行走过程在遇到一个比根节点更类似于测试节点的节点时停止，此时根据行走停止的分支的标签来确定测试节点的标签。如果未遇到这样的节点，则测试节点的标签被确定为正标签。对于负路径，行走过程继续直到完成整个路径，测试节点的标签预测为沿路径中相似度最高的节点的标签。行走规则通过利用正负节点之间的相对相似性测量来确保节点的可靠分类。
3.2 跟踪与检测的关联

在本节中，我们使用提出的PN树来预测目标状态，并根据目标状态动态地将跟踪器和检测器关联起来。根据不同的跟踪场景，我们定义了三种流程，包括正常情况流程、目标丢失流程和目标恢复流程，以控制跟踪器和检测器的操作，如图3所示。

目标状态预测

我们利用PN树，并结合定义的操作和行走规则，来建模目标外观并识别目标状态。PN树通过形成一个节点来建模跟踪目标，该节点基于跟踪或检测结果提取的特征。然后，我们识别新形成的节点类型，并使用行走规则和更新操作将其更新到PN树中。正节点表示跟踪成功（正常情况），而负节点则表示目标丢失（目标丢失情况）。我们使用以下流程处理这些情况：

正常情况：如图3的顶部所示，我们只使用跟踪器来跟踪目标对象。图3的左上部分展示了正常情况的过程。对于每一帧，我们使用跟踪器预测目标对象的位置，并利用PN树识别目标状态。如果目标存在，我们继续跟踪，并用新的跟踪结果更新PN树记忆。

目标丢失情况：如图3的右上部分所示，如果状态预测推断目标在搜索区域内丢失，跟踪器将停止。这时，我们激活检测器进行全局搜索。同时，将最新的跟踪结果（被分类为负样本）作为新的负节点添加到PN树记忆中。此步骤将最新信息丰富到PN树记忆中，并通过加入失败跟踪的示例来提高状态预测的准确性。

目标恢复情况：对于目标恢复流程，如图3的底部所示，检测任务继续进行直到在某帧中检测到目标。当目标重新出现时，后续帧对应的节点标签将从负变为正。因此，我们选择负路径遍历PN树，以确定目标状态。确认目标恢复后，我们将新目标添加到PN树记忆中。同时，停用检测器，激活跟踪器，并提供当前目标的位置以供后续跟踪。

3.3 可恢复跟踪

我们在图3中展示了提出的可恢复跟踪流程，并在算法1中提供了伪代码。在初始帧中，我们使用给定的目标示例初始化跟踪器、检测器和PN树记忆。对于每一帧，我们执行目标状态预测，然后使用第3.2节中定义的相应流程处理不同情况，以动态执行跟踪、检测和更新。

结果：
把本文模块加载Mixformer跟踪器上
在这里插入图片描述
这篇文章的主要工作在于重检测的设计，包括如何识别目标丢失，以及丢失了如何找回目标

Autoregressive Queries for Adaptive Tracking with Spatio-Temporal Transformers

具体：
在这里插入图片描述
网络结构清晰易懂
结果：

HIPTrack: Visual Tracking with Historical Prompts

摘要：
遵循Siamese范式的跟踪器利用模板和搜索区域特征之间的相似性匹配来进行跟踪。许多方法已经探索了通过引入跟踪历史来增强跟踪性能，以更好地处理目标外观变化（如变形和遮挡）情况。然而，现有方法中对历史信息的利用往往不足且不全面，这通常需要重复训练并引入大量计算。

在本文中，我们展示了通过为遵循Siamese范式的跟踪器提供精确和更新的历史信息，可以在完全不改变参数的情况下实现显著的性能提升。在此基础上，我们提出了一种历史提示网络，利用精细化的历史前景掩膜和目标的历史视觉特征为跟踪器提供全面且精确的提示。我们基于历史提示网络构建了一个新型跟踪器，称为HIPTrack，该跟踪器在不需要重新训练整个模型的情况下，实现了显著的性能提升。我们在七个数据集上进行了实验，实验结果表明，我们的方法在LaSOT、LaSOText、GOT-10k和NfS上超过了当前最先进的跟踪器。此外，历史提示网络可以无缝地作为即插即用模块集成到现有跟踪器中，提供性能提升。源代码可在 https://github.com/WenRuiCai/HIPTrack 获取。
具体：
在这里插入图片描述
如图3所示，我们提出了HIPTrack，它由三个主要组件组成：特征提取网络、历史提示网络和预测头网络。特征提取网络提取与模板交互的搜索区域的特征，同时过滤掉搜索区域中的背景图像补丁。历史提示网络使用历史提示编码器对当前帧中的目标位置和视觉特征进行编码，形成历史目标特征，并将其添加到历史提示解码器中的记忆库中。在后续跟踪中，历史提示解码器为每个搜索区域生成历史提示，并将历史提示与压缩后的搜索区域特征在通道维度上连接。我们采用与OSTrack [48] 相同的预测头结构。由于在引入历史提示后通道数增加，我们在预测头的输入端引入了一个残差卷积层来减少通道数
结果：
在这里插入图片描述

DiffusionTrack: Point Set Diffusion Model for Visual Object Tracking（基于diffusion后面可以仔细看看）

摘要：
现有的Siamese或transformer跟踪器通常将视觉目标跟踪视为单次检测问题，即在单次前向评估方案中定位目标物体。尽管这些跟踪器已经证明了成功，但由于单次前向评估方案缺乏自我纠正，它们可能会轻易地偏向具有相似外观的干扰物。为了解决这个问题，我们将视觉跟踪视为基于点集的去噪扩散过程，并提出了一种新的生成学习跟踪器，称为DiffusionTrack。我们的DiffusionTrack具有两个显著特性：

噪声到目标的跟踪范式：它利用多个去噪扩散步骤以动态搜索的方式在每一帧中定位目标。
基于点集的扩散过程建模：这种方法能够更好地处理外观变化，实现更精确的定位。一个附带的好处是，DiffusionTrack极大地简化了后处理过程，例如去除窗口惩罚方案。
没有额外的复杂配置，我们的DiffusionTrack在实时运行的同时，超越了现有最先进的跟踪器，达到了领先的性能。代码可在https://github.com/VISIONSJTU/DiffusionTrack找到。

在这里插入图片描述

具体：
在这里插入图片描述

结果：
在这里插入图片描述

ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to Describe（简称ARTrackv2）

摘要：
在这里插入图片描述

我们介绍了 ARTrackV2，它集成了追踪的两个关键方面：确定观察目标的位置（定位）和如何描述目标对象在视频帧中的外观（外观分析）。基于其前身的基础，ARTrackV2 通过引入一个统一的生成框架来“读取”对象的轨迹并以自回归的方式“讲述”其外观，从而扩展了这一概念。这种方法促进了一种时间连续的方法，建模了运动和视觉特征的联合演变，受先前估计的指导。此外，ARTrackV2 的高效和简洁性使其不再需要低效的帧内自回归和手动调整的外观更新参数。尽管简单，ARTrackV2 在现有基准数据集上实现了最先进的性能，同时展示了显著的效率提升。特别是，ARTrackV2 在 GOT-10k 上达到了 79.5% 的 AO 分数，在 TrackingNet 上达到了 86.1% 的 AUC，并且比 ARTrack 快 3.6 倍。代码将会发布。

创新点：
在本文中，我们进一步提出了一个联合轨迹-外观自回归追踪器。基于前身 ARTrack 的基础，ARTrackV2 通过实现一个统一的生成框架来扩展这一概念，该框架建模了轨迹和外观的演变。这一想法的直观性很简单：如果追踪器能够成功追踪一个物体，它不仅应“读取”物体的位置，还应“重述”其外观。

在 ARTrack 提出的时间序列轨迹建模的基础上，我们保持一个自回归模型，同时使用一组外观提示来重建物体的外观，如图 1© 所示。这些提示令牌一方面类似于动态模板，通过注意力机制与搜索区域进行交互。除此之外，它们被训练以重建物体的外观，这需要对视觉特征演变的理解。我们设计了一种掩蔽策略，故意防止外观令牌对轨迹令牌的注意，防止外观模型仅仅根据预测轨迹裁剪视觉特征。

此外，ARTrackV2 在操作简洁性和效率方面表现突出。不同于 SeqTrack 和 ARTrack，它利用纯编码器架构并行处理框架中的所有令牌。ARTrackV2 放弃了阻碍追踪效率的帧内自回归，同时保持时间自回归框架（即帧间自回归）。与许多需要多个训练阶段[13, 14, 63]或手动调整参数以更新模板[11, 24]的当代追踪系统不同，ARTrackV2 在一个阶段内进行端到端训练。这种方法在各种基准数据集上表现出色，基础模型在 LaSOT 上达到了令人印象深刻的 AUC 分数 71.6%，在 TrackingNet 上达到了 84.9%。值得注意的是，它在比 ARTrack 快 3.6 倍的情况下实现了这一点，如图 1(d) 所示。我们的顶级模型在 LaSOT 上获得了更高的 AUC 分数 73.6%，在 TrackingNet 上获得了令人印象深刻的 86.1%，显著优于 SeqTrack 和 ARTrack，同时保持了大约 3 倍到 5 倍的速度提升。

总结而言，ARTrackV2 相较于其前身在以下方面进行了增强：

扩展概念：我们将生成框架补充到视觉追踪中，涵盖了轨迹生成和外观重建。
强化帧间自回归：我们坚持时间自回归模型以共同演变轨迹和外观，并引入序列数据增强以提高准确性。
消除帧内自回归：我们采用纯编码器架构，使得框架中的所有令牌能够并行处理，避免了效率较低的帧内自回归解码器。
具体：

在这里插入图片描述
图 2. ARTrackV2 框架。最初，我们利用 Transformer 编码器并行处理帧中的所有标记，如右上角所示的掩码策略。随后，外观标记被送入重建解码器，在那里重建当前搜索区域内对象的外观。同时，置信标记被输入到 MLP 中，用于预测估计的边界框与真实边界框之间的 IoU，作为外观标记质量的度量。
结果：
在这里插入图片描述

ODTrack: Online Dense Temporal Token Learning for Visual Tracking（简称ODTrack）

摘要：
在线上下文推理和连续视频帧之间的关联对视觉跟踪中的实例感知至关重要。然而，大多数当前的顶级跟踪器仍然依赖于通过离线模式来处理参考帧和搜索帧之间的稀疏时间关系。因此，它们只能在每对图像中独立交互，建立有限的时间相关性。

为了解决这个问题，我们提出了一种简单、灵活且有效的视频级跟踪管道，称为 ODTrack，该管道以在线令牌传播的方式密集地关联视频帧的上下文关系。ODTrack 接收任意长度的视频帧，以捕捉实例的时空轨迹关系，并将目标的判别特征（定位信息）压缩为令牌序列，以实现帧间关联。这一新方案带来了以下好处：1) 经过净化的令牌序列可以作为下一视频帧推断的提示，从而利用过去的信息指导未来的推断；2) 通过令牌序列的迭代传播，有效避免了复杂的在线更新策略，从而实现更高效的模型表示和计算。ODTrack 在七个基准测试中实现了新的最先进性能，同时以实时速度运行。代码和模型可在 https://github.com/GXNU-ZhongLab/ODTrack 获取。
在这里插入图片描述

具体：
在这里插入图片描述
结果：

Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

摘要：
受大语言模型中的参数高效微调（PEFT）启发，我们提出了 LoRAT，这是一种在实验室级别资源下揭示更大 Vision Transformers (ViT) 跟踪能力的方法。我们工作的核心在于将 LoRA（一种微调少量模型参数而不增加推理延迟的技术）适应到视觉跟踪领域。然而，独特的挑战和潜在的领域差距使得这种迁移并不像初步直觉那样简单。首先，基于变压器的跟踪器为模板和搜索图像构建了不共享的位置嵌入。这对 LoRA 的迁移提出了挑战，通常需要在应用到预训练骨干网络时保持一致性，以适应下游任务。其次，卷积头中固有的归纳偏差降低了参数高效微调在跟踪模型中的有效性。为了克服这些限制，我们首先将变压器基于的跟踪器中的位置嵌入解耦为共享空间嵌入和独立类型嵌入。共享嵌入描述多分辨率图像的绝对坐标（即模板和搜索图像），从预训练骨干网络继承。相比之下，独立嵌入表示每个令牌的来源，并从头开始学习。此外，我们设计了一种基于多层感知机（MLP）的无锚头，以适应 PETR，实现更好的性能并减少计算开销。通过我们的设计，1) 使得在仅有 25.8GB 内存的 GPU 上训练 ViT-g 骨干网络的跟踪器成为可能（批量大小为 16）；2) 将 L-224 变体的训练时间从 35.0 小时减少到 10.8 小时；3) 将 L-224 变体在 LaSOT 数据集上的 SUC 分数从 0.703 提高到 0.742；4) 将 L-224 变体的推理速度从 52 FPS 提升到 119 FPS。代码和模型可在 https://github.com/LitingLin/LoRAT 获取。
具体：
在这里插入图片描述
图2：LoRAT 的架构。首先，模板和搜索区域被拆分，然后被投影为补丁嵌入。补丁嵌入与共享的位置嵌入和令牌类型嵌入相加，作为输入嵌入，随后送入 Transformer 编码器进行联合特征提取和融合。生成的表示被传递到仅基于 MLP 的头部网络，用于目标分类和无锚框回归。在训练过程中，大多数来自预训练 ViT 模型的网络组件保持冻结，只有应用于 Transformer 编码器中的线性层、令牌类型嵌入和头部网络的 LoRA 模块是可训练的。

结果：
将lora与ostrack结合进行测试
在这里插入图片描述

总结

目前主流的跟踪方法是基于transformer，而主要方向是1.language-vision tracking 2.人体姿态变化的跟踪
3.3d目标跟踪 4.轻量化网络用于无人机端 5.无监督学习＋transformer 6.基于diffusion的目标跟踪 7.大模型辅助sot

未来方向

我们的实验调查清楚地表明，基于One-stream One-stage全Transformer的跟踪器在很大程度上显著优于其他基于Transformer的跟踪器。尽管它们在具有挑战性的基准数据集上表现出色，但仍有一些问题需要解决，并且在未来的工作中需要进一步关注。考虑到这一点，我们仅就基于One-stream One-stage全Transformer的跟踪器提供一些未来方向的建议。

设计一种新的时空Transformer架构以捕捉空间和时间线索
当前所有基于Transformer的跟踪器都利用Vision Transformer（ViT）[37]或其变体作为其骨干网络，并对其进行微调以适应跟踪任务。这些Transformer骨干网络最初是为图像识别或目标分类任务设计的，主要集中在捕捉单个图像内的空间关系。然而，它们缺乏捕捉连续参考帧之间时间线索的内在能力，这对目标跟踪至关重要。这种限制源于目标分类和跟踪任务之间的根本区别。为了克服这一限制，需要设计一种专门为跟踪任务量身定制的新型时空Transformer架构，能够有效地同时捕捉空间和时间线索。这些Transformer可以通过计算帧内图像补丁之间的注意力来捕捉空间线索，并通过计算相邻帧之间的补丁注意力来捕捉时间线索。类似于最近在其他任务中提出的时空Transformer [110]，[111]，一种新型时空Transformer可以用于从连续参考帧序列中捕捉时空线索，从而获得更稳健的结果。
通过使用轻量级Transformer架构、量化技术和特征重用技术提高计算效率
尽管基于全Transformer的跟踪器表现出了出色的跟踪鲁棒性，但它们的计算效率相当差，因此不适用于许多现实世界的应用。最近，提出了几种轻量级Transformer [112]，[113]，[114]，在保持各种计算机视觉任务的准确性的同时展示了出色的效率分数。通过在VOT中使用这些轻量级Transformer，可以提高计算成本。此外，类似于[115]的工作，使用适当的量化技术可以在不影响性能的情况下减少Transformer的计算复杂性。此外，当前的Transformer跟踪器在每一帧中都使用编码器处理模板帧补丁，导致计算成本增加。为了解决这个问题，可以使用一种有效的特征重用机制来减少模型的计算复杂性。
利用基于自监督学习的掩码自动编码器预训练模型来增强跟踪性能
最近的Transformer跟踪器 [62]，[63]，[67]，[69] 通过利用基于自监督学习的掩码自动编码器预训练模型 [108] 初始化跟踪器编码器，增强了跟踪精度。这些预训练模型通过专注于相关特征并丢弃无关或噪声信息，帮助跟踪器提取更多的辨别性特征。此外，使用这些预训练模型的跟踪器在处理未见过的目标对象时表现出更好的性能，这归因于掩码自动编码器的泛化能力。鉴于这些事实，基于自监督学习的掩码自动编码器预训练模型可以作为目标跟踪的潜在未来方向进一步研究。此外，由于当前的掩码自动编码器主要设计用于在图像识别任务中捕捉图像内的空间线索，因此需要开发一种自监督预训练模型，使其能够有效地同时捕捉空间和时间线索。然而，需要注意的是，开发这些强大的预训练掩码自动编码器模型需要显著的计算资源，并且对于实时跟踪任务来说可能会很昂贵。因此，至关重要的是采用一种高效的微调机制，类似于LoRA [116]，在不影响跟踪性能的情况下减少计算复杂性。
提高全Transformer跟踪器的准确性，以跟踪具有较少外观线索的小目标
在UAV123数据集上的实验结果表明，全Transformer基于方法在跟踪具有有限外观线索的小目标时表现不佳，因为其他类型的跟踪器在属性方面的比较中表现更好。特别是，当在完全遮挡、背景混乱和低分辨率场景中跟踪小目标时，其成功率较低。由于Transformer的补丁级注意力机制未能捕捉到小目标的正确外观线索，全Transformer基于跟踪器的性能有限。类似于CSWinTT跟踪器 [55]，结合具有窗口级和目标大小感知的注意力机制的层次结构可以在跟踪小目标时提高全Transformer跟踪器的准确性。
通过目标特定的补丁合并技术提高跟踪器的局部特征学习能力
虽然Transformer在捕捉图像中的长程全局结构方面效果显著，但由于将输入图像划分为大小相等的补丁，导致局部特征（如边缘和线条）信息丢失，因此局部特征学习能力相当差。为了增强Transformer的局部特征学习能力，最近提出了一种称为Tokens-To-Token Vision Transformer（T2T-ViT） [117] 的方法，将相邻的补丁聚合为一个单一补丁。由于许多Transformer跟踪器 [61]，[62]，[63] 使用ViT [37] 骨干网络硬划分输入补丁，因此通过采用类似于T2T-ViT模型中使用的补丁合并技术，可以增强其目标定位能力。通过使用目标特定的补丁合并技术，有可能保留目标的局部特征并提高整体跟踪准确性。
增强令牌选择机制以克服背景干扰和干扰物
在Transformer跟踪方法中，目标模板和搜索区域补丁被转换为令牌，并使用Transformer架构计算这些令牌之间的注意力。由于大多数跟踪器未能去除背景和干扰令牌并计算所有令牌之间的注意力，导致其性能下降。此外，由于不必要的注意力计算，这些跟踪器的效率也降低。虽然一些跟踪器 [62]，[63]，[67] 包含了去除背景令牌的机制，但对令牌选择机制的进一步研究和增强是必要的。一种更先进的令牌选择技术，结合来自前几帧的信息，有可能显著提高跟踪准确性和效率。
快速运动、完全遮挡和低分辨率是Transformer跟踪的主要挑战
根据我们在各种基准数据集上的评估结果，我们发现Transformer跟踪器在快速运动、严重遮挡和低分辨率场景中表现不佳。尽管全Transformer基于方法在这些场景中表现出了显著的改进，但我们在具有挑战性的LaSOT数据集上的评估结果显示，在具有快速运动、完全遮挡和低分辨率的帧中，其成功率较低，表现最好的跟踪器仅分别达到60.1%、64.5%和65.6%。为了应对这些挑战，可以采取几种方法，例如通过干扰物感知机制扩大搜索区域，以处理快速移动的目标，同时减少干扰物体的影响。此外，在遮挡场景中包括目标重新检测方案可以提高跟踪的鲁棒性，并在跟踪中包括时间线索可以处理低分辨率情况。