视频目标跟踪新番 PROCONTEXT: EXPLORING PROGRESSIVE CONTEXT TRANSFORMER FOR TRACKING（阅读笔记）

super菠萝

已于 2024-02-05 17:52:36 修改

阅读量1.2k

点赞数 21

文章标签： transformer 深度学习人工智能计算机视觉目标跟踪学习

于 2024-02-05 15:04:33 首次发布

本文链接：https://blog.csdn.net/weixin_45830603/article/details/135901556

版权

文章介绍了一种新的视觉目标跟踪方法ProContEXT，它通过结合空间和时间上下文，利用Transformer技术改进跟踪性能。通过动态模板更新和上下文感知自注意力机制，ProContEXT在快速变化场景中表现出色，并在TrackingNet和GOT-10k等数据集上达到最先进的性能。

摘要由CSDN通过智能技术生成

原文：https://arxiv.org//pdf/2210.15511v4

Abatract

现有的视觉目标跟踪(VOT)方法仅以第一帧的目标区域为模板。这导致跟踪在快速变化和拥挤的场景中不可避免地失败，因为它无法解释帧之间物体外观的变化。为此，作者使用渐进式上下文编码Transformer跟踪器对跟踪框架进行了改进(ProContEXT)，它连贯地利用空间和时间背景来预测物体的运动轨迹。具体地说,ProContEXT利用上下文感知的自关注模块对空间和时间上下文进行编码，精炼和更新多尺度静态和动态模板，逐步执行准确的跟踪。它探索了空间和时间背景之间的互补性，为基于Transformer的跟踪器的多背景建模提供了新的途径。此外，ProContEXT修改了令牌修剪技术以降低计算复杂度。在流行的基准数据集(如GOT-10k和TrackingNet)上进行的大量实验表明，所提出的ProContEXT实现了最先进的性能。

1.Introduction

视频目标跟踪（VOT）在多个领域有应用，但是由于形变、遮挡、快速变化和拥挤的场景、相似等问题，跟踪器必须动态学习目标形状变化信息，这是一个挑战。

作者提出一个直观地方法以应对这些挑战，考虑时间和空间上下文在视觉目标跟踪中的重要作用。

与上下文无关的跟踪方法，例如基于暹罗的跟踪器(例如SiamFC )SiamRPN和SiamRPN++)和基于Transformer的方法(例如TransT和OSTrack)，由于缺乏上下文信息，它们的性能在快速变化的场景中受到影响。为了解决这个问题，空间上下文学习管道（例如TLD）被提出、发展。此外，动态模板更新已被用于各种视觉任务（包括感知、分割、跟踪和密度估计），用于空间上下文建模。然而，对跟踪任务的时间和空间上下文的全面研究仍有待实现。

为了解决这些问题，作者提出了一种新的视觉目标跟踪方法——渐进式上下文编码Transformer追踪（ProContEXT)。ProContEXT通过一个由静态模板和动态模板组成的模板组对时间和空间上下文进行编码，提供全面和渐进的上下文表示。该模型利用上下文感知的自注意模块来学习丰富且鲁棒的特征表示，同时一个跟踪头用于更新动态模板和生成跟踪框。此外，作者采用令牌修剪（Token Pruning入门：面向Transformer的学习性Token剪枝压缩法 - 知乎 (zhihu.com)）技术在不影响性能的情况下提高计算效率。这篇文章的贡献如下：

ProContEXT是第一个在基于Transformer的跟踪中利用动态时间和变化空间的渐进式上下文编码的工作。它在经典上下文跟踪和无上下文跟踪之间建立了一座桥梁，并研究了如何在实时跟踪中对上下文进行编码。
ProContEXT修改了ViT主干，增加了更多的静态和动态模板，并改进了上下文感知的自关注，以利用多时间和多空间的信息。通过渐进式模板优化和更新，它改变了令牌修剪，从而无缝地将上下文编码带入基于Transformer的跟踪中。
ProContEXT在包括TrackingNet[20]和GOT10k[21]在内的大规模跟踪基准测试中实现了SOTA性能。尽管扩展了长期时间和多尺度空间信息，但ProContEXT可以以54.3 FPS的速度实时执行上下文编码和跟踪。

2.METHODOLOGY

2.1 Network Architecture|网络结构

与大多数工作在第一帧只使用静态模板不同，ProContEXT旨在利用多时间和多空间的模板来编码更多的上下文信息。

静态与动态模板：对于给定的视频帧{I1、I2、、、}，按照不同的尺度K={k1、k2、、}进行裁剪，得到不同的静态模板S={s1、s2、、、}。同样的方式可以得到动态模板D={d1、d2、、、}用于对跟踪过程中的物体外观变化进行编码。按照标准设置（？），假设目标物体出现在最后一个已知位置的相邻区域，我们还裁剪前一帧框中心的区域以获得搜索区域X。总之，作者用多时间、多空间的细节扩展了动态模板。

上下文敏感的Self-Attention：基于扩展的动态模板，作者修改了ViT用于表示学习。

首先，将所有模板S∪D和搜索区域X输入到一个缩放模块中进行大小调整。然后，将每个调整大小的patch裁剪为不重叠的16 × 16图像patch，将其平展为1D，通过patch嵌入层后添加位置嵌入。最后，我们将S、D和X编码为静态token Zs={Z1 s;……;Z m s}，动态token Zd={Z1 d;……; zm d}，和搜索令牌Zx=Zx。然后，将所有token连接为[Zs;Zd;Zx]并连贯地输入到自注意模块中。

在自注意模块中进行以下计算：

我们可以看到Q、K相乘得到的矩阵中既包含了模板自身的表示，也展示了模板与搜索区域之间的交互。如Qx KxT专注于搜索区域的区域内表示,而QsKsT和QdKdT分别在静态模板和动态模板中融合了空间上下文中。矩阵中非对角线项,如QsKxT 和QdKxT ,解释了模板和搜索区域之间的交互。QxKsT和QxKdT将时间上下文聚合到搜索区域,而QsKdT 和QdKsT表示跨模板交互。通过利用12个堆叠的注意力层,ProContEXT逐步提取contextaware特性。

跟踪头：跟踪头由得分头、偏移头和尺寸头组成。

经过表征学习之后，只有搜索区域的tokens会被送入跟踪头，并且重塑为2D特征（这是为了将一维token转换到空间域中执行与其他卷积网络相同的跟踪过程）。具体来说，得分头首先得到一个大致位置和一张得分图。然后，偏移头和尺寸头分别在生成的分数图上细化位置和框大小的偏移量。

令牌修剪：作者修改了以前的工作中的令牌修剪技术来加速ProContEXT。修剪的目的是通过忽略噪声背景patch的搜索token来减少计算成本。虽然OSTrack也有早期候选消除模块删除背景patch（通过计算每个patch与模板中心patch相似度决定是否将某个patch视为背景并删除以减少计算），但是OSTrack仅仅使用第一帧的静态模板，而本文作者使用静态加动态模板。这样做的好处是即使物体外观发生较大变化，前景token也可以与动态模板保持较高的相似度。

此外，目标对象通常位于模板的中心点。如果中心点与搜索token之间的相似性较低，则可以确定搜索token作为背景。搜索token与模板的相似度得分ω的计算公式为：ω=

其中Nx是搜索token的数量，φ()是与模板中心token绑定的注意力矩阵的总和。最后，只保留ω的前k个元素的搜索标记。修剪的token被替换为零填充，然后馈送到跟踪头。

2.2 Training and Inference Settings|训练与推理设置

训练设置： 受前人的启发，训练过程是一个渐进的优化过程。首先，分数头预测目标对象的大致位置和分数，其中高斯核生成监督为

式中(px, py)为中心点坐标，σp为定义对象大小的标准差。在高斯核的监督下，分数头以焦点损失为优化参数其中，G´xy∈[0,1] Wx×Hx为分数图，(Wx, Hx)为搜索区域的特征大小，根据先前的工作，作者将α = 2和β = 4。在得到分数头的最大响应后，最终的预测框可计算为

其中 (δx,δy)为距偏移头的偏移量，( w, h）是（ x, y)处的的尺寸头的box尺寸。由式4得到的边界框用IoU损耗和L1损耗。最后，总损失记为

其中λiou = 2， λl1 = 5为损失权值，如参考文献[17]所示。更多细节见论文3.2节。

推理细节：与MixFormer和STARK使用额外的分支来更新模板不同，我们在推理中重用得分头。我们将得分头的最大response作为置信度得分，score = max(Gˆxy)。

上图描述了如何在推理中更新模板。初始化静态和动态模板(第5行)之后，使用置信度和位置来假设是否更新动态模板(第8-9行)。假设置信度分数高于阈值τ(第10行)，则认为当前跟踪结果bpred是可靠的，并用于逐步更新多尺度动态模板(第11行)。

EXPERIMENTS

实验部分详情请看原文。

CONCLUSION

提出了渐进式上下文编码转换跟踪器(ProContEXT)来改进视觉对象跟踪框架。ProContEXT利用上下文自关注模块对空间和时间上下文进行编码，逐步细化和更新多尺度静态和动态模板，实现精确跟踪。在未来，我们计划探索更有效的上下文学习策略和令牌修剪方案，以减少复杂上下文的影响。

super菠萝

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫