【论文阅读】Context-TAP: Tracking Any Point Demands Spatial Context Features

李加号pluuuus

已于 2023-10-19 19:56:51 修改

阅读量138

点赞数

分类专栏：论文阅读文章标签：论文阅读

于 2023-10-19 19:54:51 首次发布

本文链接：https://blog.csdn.net/weixin_57974242/article/details/133926890

版权

论文阅读专栏收录该内容

31 篇文章 3 订阅

订阅专栏

文章介绍了一种新的视频目标跟踪框架Context-TAP，通过融合空间上下文特征，显著提高了点轨迹的精度。该方法包括源特征增强(SOFE)和目标特征聚合(TAFA)模块，分别优化了点轨迹和视觉特征。实验结果显示，Context-TAP在多个基准数据集上表现出色，尤其是在遮挡和复杂场景下有明显优势。

摘要由CSDN通过智能技术生成

Context-TAP：基于空间上下文特征的独立点跟踪

演示：Context-TAP: Tracking Any Point Demands Spatial Context Features

论文地址：2306.02000.pdf (arxiv.org)

3.2 Source Feature Enhancement

3.3 Target Feature Aggregation

3.4 Loss Functions

4 Experiments

5 Conclusion

1 Introduction

传统的目标跟踪方法通常只考虑了目标本身的信息，而忽略了周围环境的空间上下文。本文提出了一个新的框架context - tap，通过聚合视频中的空间上下文特征，有效地提高了点轨迹的精度。

Context-TAP包含两个主要模块：1) 源特征增强（SOFE）模块；2) 目标特征聚合（TAFA）模块。Context-TAP显著地改善了全方位的PIP，将CroHD上被遮挡点的平均轨迹误差（ATE-Occ）减少了11.4%，并将TAP-Vid-Kinectics上的正确关键点的平均百分比（A-PCK）提高了11.8%。

贡献：1)提出了一个新框架，改进独立的视频粒子跟踪，包括源和目标特征的上下文特征。2)设计了一种新的源特征增强模块，利用源图像中的空间上下文特征构建引导关联体；设计了一种新的目标特征聚合模块，从目标图像中提取上下文特征。3)Context-TAP在四个基准中排名第一，表现出明显的性能优势。

2 Related Work

光流估计：用于估计图像对之间的密集位移场的方法，传统上被建模为一个优化问题，通过最大化图像对之间的视觉相似性并加入正则化项来求解。典型的光流估计只考虑图像对，但更长的图像序列可以提供更多信息，有助于光流估计。

点跟踪：光流方法仅关注图像对之间的点跟踪，而忽视了在多个连续帧上进行点跟踪的问题。后来出现了Persistent Independent Particles (PIPs)，在固定长度的连续帧中跟踪单个点，解决了视频粒子跟踪问题，即通过相关图逐步改进多帧点轨迹。但只考虑了粒子的相关性和特征，而忽略了它们周围丰富的空间背景特征。

Context-TAP遵循PIPs的训练范式，并改进了PIPs的网络架构设计。还从TAP-Net中选择了TAP-Vid-DAVIS和TAP-Vid-Kinetics基准进行评估。

3 Method

3.1 Revisit of PIPs

（PIPs利用光流估计来预测点在下一帧的位置，并使用链式规则来更新点轨迹和点视觉特征。具体而言，PIPs使用当前帧的点轨迹和点视觉特征作为输入，通过光流估计获得点在下一帧的位置，并将其作为新的查询点xt+1。然后，PIPs在下一帧中提取特征图，再次进行双线性采样得到新的点视觉特征ft+1。通过不断重复这个过程，PIPs可以逐帧地推断点的轨迹和视觉特征。）

PIPs同时处理包含N个独立查询点的T个视频帧，并通过链接规则将点轨迹扩展到更多的视频帧中。给定一个包含查询点 $x_{src}$ ∈ $R^{2}$ 和 T-1 个后续目标视频帧，PIPs首先通过一个浅层卷积神经网络提取它们的特征图 $I_{0}$ ， $I_{1}$ ，...， $I_{T-1}$ ∈ $R^{C*H*W}$ ，并进行双线性采样以获得源点特征 $f_{src}$ = $I_{0}$ ( $x_{src}$ )，其中C，H，W分别表示特征图的通道数、高度和宽度。使用相同的 $x_{src}$ 和 $f_{src}$ 在每一帧上初始化点轨迹和点视觉特征：

然后，PIPs通过相关信息迭代地对它们进行细化。 $x_{t}^{k}$ 和 $f_{t}^{k}$ 分别表示第 t 帧和第 k 次迭代中的点轨迹和点特征。点特征存储了在所有T帧中当前估计的查询点位置处的视觉特征。

在每次迭代k中，PIP使用指导特征{fkt}T−1t=0和目标特征图{Ikt}T−1t=0构建多尺度相关图，形成大小为T×H×W的T个相关图Ck={ck0, ck1, ..., ckT−1}，并在以点轨迹为中心的窗口内裁剪相关信息：Ck(Xk)={ck0(xk0), ck1(xk1), ..., ckT−1(xkT−1)}，其中ck t (xk t )∈RD×D表示我们从ck t内以xkt为中心的窗口裁剪出D×D的相关性。点特征Fk、点位置Xk和局部相关信息Ck(Xk)被输入到一个标准的12层MLP-Mixer中，生成ΔF和ΔX来更新点特征和点轨迹。

这样，通过迭代更新，PIPs能够逐步改进点的特征和轨迹，从而提高点跟踪的准确性和稳定性。通过利用相关信息和多尺度特征，PIPs能够在不同尺度上进行有效的点跟踪，并充分利用图像序列中的空间和时间信息。

迭代K次，最后一次迭代中的点轨迹XK是输出。

3.2 Source Feature Enhancement

给定源图像的查询点 $x_{src}$ 和特征图 $I_{0}$ ，PIP只需在查询点位置上对源特征进行采样，获得点的视觉特征 $F^{k}$ 。它的感知域仅限于单个点，当查询点位于纹理较少的区域时，第k次迭代中的相关图Ck提供的信息模糊不清。一旦粒子在第t帧中被遮挡，时间戳为k的相关图 $C_{t}^{k}$ 就无效了。

Context-TAP通过源特征增强(SOFE)模块和目标特征聚合(TAFA)模块来改进PIPs。PIPs使用MLP-Mixer迭代地细化当前点轨迹 $X^{k}$ 、相关特征 $C^{k}$ 和点特征 $F^{k}$ 的点轨迹 $X^{k}$ 。SOFE和TAFA分别改进了相关特征和点特征，记为 $\widehat{C}^{k}$ 和 $\widehat{F}^{k}$ 。

源特征增强（SOFE），如图1所示，接受源图像中的空间上下文特征作为辅助特征，来引导点轨迹的优化。即使在点被遮挡或纹理较少的区域，MLP-Mixer也可以通过辅助特征推断出点的位置。直接采用源图像中的所有特征会带来巨大的计算成本。SOFE采样少量的辅助特征来增强源特征。

步骤：

1) 使用基于MLP的采样器,学习预测M个偏移量δx0, δx1, ..., δxM−1 ∈ $R^{2}$ ，以在源图像中查询点 $x_{src}$ 周围采样M个辅助特征。

GMA（Guided Multimodal Aggregation）通过自相似性，聚合可能属于同一对象的像素流，我们的采样器也学习了基于局部自相似性的辅助特征位置，存储从第一帧在查询点位置裁剪出的相关性。

2) 构建相关图，用于衡量第m个辅助特征和第t帧特征图之间的视觉相似性。 $c'_{m,t}$ 提供了额外的相关信息，用于指导迭代的点轨迹优化。在每次迭代k中，根据点位置 $x_{t}^{k}$ 裁剪额外的相关信息 $c'_{m}$ ( $x_{t}^{k}$ )，并将其与原始的点相关信息 $C_{t}^{k}$ ( $x_{t}^{k}$ )进行拼接， $c'_{m}$ ( $x_{t}^{k}$ )表示与 $C_{t}^{k}$ ( $x_{t}^{k}$ )相同的裁剪操作。

3) 最后，对于每一帧t，通过相关编码器CorrEnc，将扩充的相关性降维为长度为196的相关特征向量 $\widehat{C}^{t}$ 。

将扩充的相关性集合注入到MLP-Mixer中。

与只采用 $C_{t}^{k}$ ( $x_{t}^{k}$ )的PIP相比，SOFE通过空间上下文特征提供了更多信息丰富的相关性给MLP-Mixer，但并不增加其参数和计算量。

3.3 Target Feature Aggregation

PIP通过相关信息和上下文特征迭代地优化点轨迹，并在初始化后通过迭代更新点的视觉特征Fk+1 = Fk + ∆F。但是，支持点特征更新的输入仅来自相关性Ck。Ck仅被计算为源点视觉特征Fk和当前估计点位置Xk周围的目标特征之间的余弦距离，提供的视觉特征更新信息很有限。因此提出TAFA，以使用点轨迹附近的目标图像特征增强点特征。

具体而言，对于每个目标帧 t，从相应的目标特征图 $I_{t}^{}$ 中心位置 $x_{t}^{k}$ 裁剪一个形状为D×D的补丁，生成键和值。方程式3中的增强相关特征 $\widehat{C}^{}$ 编码了丰富的视觉相似性。因此，从中生成一个查询来提取目标上下文特征，并采用相对位置编码的交叉注意力机制，获得目标上下文特征，将其添加到原始的源点特征。最后，增强后的点特征注入到MLP-Mixer中。TAFA也保持了与PIP相同的MLP-Mixer参数和计算量。

SOFE通过源图像中的辅助特征改进PIP，而TAFA则吸收更多的目标图像特征。将SOFE和TAFA装配到PIP中，构成最终模型Context-TAP。

3.4 Loss Functions

用L1距离来衡量迭代k中计算得到的点轨迹Xk与真实值Xgt之间的差异。用指数增长的权重γ = 0.8约束计算。K表示迭代次数。

通过线性层预测可见性/遮挡V，并使用交叉熵损失函数来将其与真实值Vgt进行监督。

最终的损失函数是这两个损失的加权和：

在训练过程中，设置w1 = 1和w2 = 10作为权重。

4 Experiments

datasets：四个基准测试数据集对Context-TAP进行评估：FlyingThings++、CroHD、TAP-VidDAVIS和TAP-Vid-Kinectics。

仅在FlyingThings++上训练Context-TAP，并在其他基准测试数据集上进行评估而无需微调。通过利用Context-TAP中的空间上下文特征，在只使用PIP参数的40.2%的情况下实现了与PIP相媲美的性能。

FlyingThings++：基于Flyingthings3D 的合成数据集，包含具有遮挡的8帧轨迹。

Crowd of Heads Dataset (CroHD)：高分辨率的人群头部跟踪数据集。

TAP-Vid-DAVIS和TAP-Vid-Kinectics：TAP-Vid基准测试中的两个评估数据集，包含具有准确人类注释的真实世界视频用于点跟踪。

评估指标：平均轨迹误差（ATE）、平均Jaccard（AJ）和平均正确关键点百分比（A-PCK）。

实现细节：用FlyingThings++进行训练，batchsize=4，100,000步，单周期学习率调度器，设置最高学习率为5×10^(-4)。卷积步幅设置为8，输入RGB图像的分辨率设置为384 × 512，并随机抽取N = 128个可见查询点进行监督。

4.1 定量比较

Context-TAP在所有指标上排名第一，并与先前的方法相比展现出显著的性能优势。

在CroHD上，Context-TAP实现了7.06的ATE-Occ和4.28的ATE-Vis，分别比排名第二的PIP减少了11.4%和9.5%的误差。在FlyingThings++上，ATE-Vis和ATE-Occ分别降低了0.96和2.18。

TAP-Vid-DAVIS和TAP-Vid-Kinectics（first）：核心指标A-PCK，即正确关键点的平均百分比。在TAP-Vid-DAVIS基准测试中比TAP-Net表现提高了24.1%，在TAP-Vid-Kinectics基准测试中改善了11.8%的PIP。

TAP-Vid-DAVIS和TAP-Vid-Kinectics（strided）：表2，比较了“strided”采样设置下的方法。Context-TAP在这两个数据集上也在AJ和A-PCK指标方面取得了最佳性能。

4.2 定性比较

图2，在最左边的列中，绿色的叉标记了查询点，图像是起始帧。右边的三列显示TAP-Net、pip和Context-TAP的结果。红色和绿色的线说明了预测和实际轨迹。

第一行展示了大规模变化的情况。TAP-Net预测的轨迹与实际情况相差较大。当查询像素位于无纹理区域时，TAP-Net还会输出抖动的预测结果，如第二行所示。在这两种困难情况下，Context-TAP生成比PIPs更准确的结果。如第三行所示，由于光照条件的变化，PIPs难以区分前轮和后轮。而Context-TAP通过SOFE和TAFA模块提供的丰富上下文信息实现了一致的跟踪。

4.3 Efficiency Analysis

使用不同的MLP-Mixer深度对Context-TAP和PIPs进行训练。展示了准确性的提升并不是仅仅因为参数增加而带来的。

如表3所示，将MLP-Mixer的深度增加到16层，增加参数数量，但并没有带来性能提升。

减少MLP-Mixer的深度。即使只有3层MLP-Mixer，Context-TAP的性能也优于最好的PIPs（MLP-Mixer深度=12）。Context-TAP以仅有40.2%的参数超过了PIPs的性能，这显示了高效性。

4.4 Ablation Study on Modules

在表4中对所提出的模块进行了模块消融研究。逐步添加SOFE和TAFA模块时，Context-TAP的误差持续减小，这表明了SOFE和TAFA的有效性。

为了证明TAFA中使用的跨注意力机制的必要性，我们尝试预测一个与通过 $r_{a}$ 调整形状的特征图相对应的权重矩阵，并直接对特征进行加权求和以获得δF。跨注意力机制的性能优于预测方法。

4.5 Ablation Study on Parameters

参数消融实验（表5），在Flyingthings++数据集上进行。从PIPs基线开始，首先添加了SOFE模块，并探索了两个相关的超参数，即相关半径rc和样本数量M。然后，进一步添加TAFA模块，并调整了注意力窗口半径 $r_{a}$ 。还对TAFA中的预测机制和注意力机制进行了比较。N为64，学习率3 × 10^−4，进行20000步的训练。

SOFE中的相关半径：rc = 2时，模型达到最佳性能。

SOFE中的样本数量：SOFE学习采样M个额外的辅助特征来增强源特征。在给定rc = 2的情况下，尝试不同数量的样本M，当M = 9时，模型在Flyingthings++和CroHD数据集上都达到最佳性能。

TAFA中的注意力半径：TAFA通过跨注意力机制聚合当前估计的对应点位置周围的目标特征，以增强上下文特征。注意力窗口的半径ra决定了注意力可以扩展到多远。逐渐将ra从1增加到5，ra = 3时表现最佳。