【论文阅读】Context-TAP: Tracking Any Point Demands Spatial Context Features

文章介绍了一种新的视频目标跟踪框架Context-TAP,通过融合空间上下文特征,显著提高了点轨迹的精度。该方法包括源特征增强(SOFE)和目标特征聚合(TAFA)模块,分别优化了点轨迹和视觉特征。实验结果显示,Context-TAP在多个基准数据集上表现出色,尤其是在遮挡和复杂场景下有明显优势。
摘要由CSDN通过智能技术生成

Context-TAP:基于空间上下文特征的独立点跟踪

演示:Context-TAP: Tracking Any Point Demands Spatial Context Features

论文地址:2306.02000.pdf (arxiv.org)

目录

1 Introduction

2 Related Work

3 Method

3.1 Revisit of PIPs

3.2 Source Feature Enhancement

3.3 Target Feature Aggregation

3.4 Loss Functions

4 Experiments

5 Conclusion


1 Introduction

传统的目标跟踪方法通常只考虑了目标本身的信息,而忽略了周围环境的空间上下文。本文提出了一个新的框架context - tap,通过聚合视频中的空间上下文特征,有效地提高了点轨迹的精度。

Context-TAP包含两个主要模块:1) 源特征增强(SOFE)模块;2) 目标特征聚合(TAFA)模块。Context-TAP显著地改善了全方位的PIP,将CroHD上被遮挡点的平均轨迹误差(ATE-Occ)减少了11.4%,并将TAP-Vid-Kinectics上的正确关键点的平均百分比(A-PCK)提高了11.8%。

贡献:1)提出了一个新框架,改进独立的视频粒子跟踪,包括源和目标特征的上下文特征。2)设计了一种新的源特征增强模块,利用源图像中的空间上下文特征构建引导关联体;设计了一种新的目标特征聚合模块,从目标图像中提取上下文特征。3)Context-TAP在四个基准中排名第一,表现出明显的性能优势。

2 Related Work

光流估计:用于估计图像对之间的密集位移场的方法,传统上被建模为一个优化问题,通过最大化图像对之间的视觉相似性并加入正则化项来求解。典型的光流估计只考虑图像对,但更长的图像序列可以提供更多信息,有助于光流估计。

点跟踪:光流方法仅关注图像对之间的点跟踪,而忽视了在多个连续帧上进行点跟踪的问题。后来出现了Persistent Independent Particles (PIPs),在固定长度的连续帧中跟踪单个点,解决了视频粒子跟踪问题,即通过相关图逐步改进多帧点轨迹。但只考虑了粒子的相关性和特征,而忽略了它们周围丰富的空间背景特征。

Context-TAP遵循PIPs的训练范式,并改进了PIPs的网络架构设计。还从TAP-Net中选择了TAP-Vid-DAVIS和TAP-Vid-Kinetics基准进行评估。

3 Method

3.1 Revisit of PIPs

(PIPs利用光流估计来预测点在下一帧的位置,并使用链式规则来更新点轨迹和点视觉特征。具体而言,PIPs使用当前帧的点轨迹和点视觉特征作为输入,通过光流估计获得点在下一帧的位置,并将其作为新的查询点xt+1。然后,PIPs在下一帧中提取特征图,再次进行双线性采样得到新的点视觉特征ft+1。通过不断重复这个过程,PIPs可以逐帧地推断点的轨迹和视觉特征。)

PIPs同时处理包含N个独立查询点的T个视频帧,并通过链接规则将点轨迹扩展到更多的视频帧中。给定一个包含查询点 x_{src}R^{2} 和 T-1 个后续目标视频帧,PIPs首先通过一个浅层卷积神经网络提取它们的特征图I_{0}I_{1},...,I_{T-1}R^{C*H*W},并进行双线性采样以获得源点特征f_{src}= I_{0}(x_{src}),其中C,H,W分别表示特征图的通道数、高度和宽度。使用相同的x_{src}f_{src}在每一帧上初始化点轨迹和点视觉特征:

然后,PIPs通过相关信息迭代地对它们进行细化。x_{t}^{k}f_{t}^{k}分别表示第 t 帧和第 k 次迭代中的点轨迹和点特征。点特征存储了在所有T帧中当前估计的查询点位置处的视觉特征。

在每次迭代k中,PIP使用指导特征{fkt}T−1t=0和目标特征图{Ikt}T−1t=0构建多尺度相关图,形成大小为T×H×W的T个相关图Ck={ck0, ck1, ..., ckT−1},并在以点轨迹为中心的窗口内裁剪相关信息:Ck(Xk)={ck0(xk0), ck1(xk1), ..., ckT−1(xkT−1)},其中ck t (xk t )∈RD×D表示我们从ck t内以xkt为中心的窗口裁剪出D×D的相关性。点特征Fk、点位置Xk和局部相关信息Ck(Xk)被输入到一个标准的12层MLP-Mixer中,生成ΔF和ΔX来更新点特征和点轨迹。

这样,通过迭代更新,PIPs能够逐步改进点的特征和轨迹,从而提高点跟踪的准确性和稳定性。通过利用相关信息和多尺度特征,PIPs能够在不同尺度上进行有效的点跟踪,并充分利用图像序列中的空间和时间信息。

迭代K次,最后一次迭代中的点轨迹XK是输出。

3.2 Source Feature Enhancement

给定源图像的查询点x_{src}和特征图I_{0},PIP只需在查询点位置上对源特征进行采样,获得点的视觉特征F^{k}。它的感知域仅限于单个点,当查询点位于纹理较少的区域时,第k次迭代中的相关图Ck提供的信息模糊不清。一旦粒子在第t帧中被遮挡,时间戳为k的相关图C_{t}^{k}就无效了。

Context-TAP通过源特征增强(SOFE)模块和目标特征聚合(TAFA)模块来改进PIPs。PIPs使用MLP-Mixer迭代地细化当前点轨迹X^{k}、相关特征C^{k}和点特征F^{k}的点轨迹X^{k}。SOFE和TAFA分别改进了相关特征和点特征,记为\widehat{C}^{k}\widehat{F}^{k}

源特征增强(SOFE),如图1所示,接受源图像中的空间上下文特征作为辅助特征,来引导点轨迹的优化。即使在点被遮挡或纹理较少的区域,MLP-Mixer也可以通过辅助特征推断出点的位置。直接采用源图像中的所有特征会带来巨大的计算成本。SOFE采样少量的辅助特征来增强源特征。

步骤:

1) 使用基于MLP的采样器,学习预测M个偏移量δx0, δx1, ..., δxM−1 ∈ R^{2},以在源图像中查询点x_{src}周围采样M个辅助特征

GMA(Guided Multimodal Aggregation)通过自相似性,聚合可能属于同一对象的像素流,我们的采样器也学习了基于局部自相似性的辅助特征位置,存储从第一帧在查询点位置裁剪出的相关性。

2) 构建相关图,用于衡量第m个辅助特征和第t帧特征图之间的视觉相似性。c'_{m,t} 提供了额外的相关信息,用于指导迭代的点轨迹优化。在每次迭代k中,根据点位置x_{t}^{k}裁剪额外的相关信息c'_{m}(x_{t}^{k}),并将其与原始的点相关信息C_{t}^{k}(x_{t}^{k})进行拼接,c'_{m}(x_{t}^{k})表示与C_{t}^{k}(x_{t}^{k})相同的裁剪操作。

3) 最后,对于每一帧t,通过相关编码器CorrEnc,将扩充的相关性降维为长度为196的相关特征向量\widehat{C}^{t}

将扩充的相关性集合注入到MLP-Mixer中。

与只采用C_{t}^{k}(x_{t}^{k})的PIP相比,SOFE通过空间上下文特征提供了更多信息丰富的相关性给MLP-Mixer,但并不增加其参数和计算量。

3.3 Target Feature Aggregation

PIP通过相关信息和上下文特征迭代地优化点轨迹,并在初始化后通过迭代更新点的视觉特征Fk+1 = Fk + ∆F。但是,支持点特征更新的输入仅来自相关性Ck。Ck仅被计算为源点视觉特征Fk和当前估计点位置Xk周围的目标特征之间的余弦距离,提供的视觉特征更新信息很有限。因此提出TAFA,以使用点轨迹附近的目标图像特征增强点特征。

具体而言,对于每个目标帧 t,从相应的目标特征图 I_{t}^{} 中心位置 x_{t}^{k} 裁剪一个形状为D×D的补丁,生成键和值。方程式3中的增强相关特征 \widehat{C}^{} 编码了丰富的视觉相似性。因此,从中生成一个查询来提取目标上下文特征,并采用相对位置编码的交叉注意力机制,获得目标上下文特征 ,将其添加到原始的源点特征。最后,增强后的点特征注入到MLP-Mixer中。TAFA也保持了与PIP相同的MLP-Mixer参数和计算量。

SOFE通过源图像中的辅助特征改进PIP,而TAFA则吸收更多的目标图像特征。将SOFE和TAFA装配到PIP中,构成最终模型Context-TAP。

3.4 Loss Functions

用L1距离来衡量迭代k中计算得到的点轨迹Xk与真实值Xgt之间的差异。用指数增长的权重γ = 0.8约束计算。K表示迭代次数。

通过线性层预测可见性/遮挡V,并使用交叉熵损失函数来将其与真实值Vgt进行监督。

最终的损失函数是这两个损失的加权和:

在训练过程中,设置w1 = 1和w2 = 10作为权重。

4 Experiments

datasets:四个基准测试数据集对Context-TAP进行评估:FlyingThings++、CroHD、TAP-VidDAVIS和TAP-Vid-Kinectics。

仅在FlyingThings++上训练Context-TAP,并在其他基准测试数据集上进行评估而无需微调。通过利用Context-TAP中的空间上下文特征,在只使用PIP参数的40.2%的情况下实现了与PIP相媲美的性能。

FlyingThings++:基于Flyingthings3D 的合成数据集,包含具有遮挡的8帧轨迹。

Crowd of Heads Dataset (CroHD):高分辨率的人群头部跟踪数据集。

TAP-Vid-DAVIS和TAP-Vid-Kinectics:TAP-Vid基准测试中的两个评估数据集,包含具有准确人类注释的真实世界视频用于点跟踪。

评估指标:平均轨迹误差(ATE)、平均Jaccard(AJ)和平均正确关键点百分比(A-PCK)。

实现细节:用FlyingThings++进行训练,batchsize=4,100,000步,单周期学习率调度器,设置最高学习率为5×10^(-4)。卷积步幅设置为8,输入RGB图像的分辨率设置为384 × 512,并随机抽取N = 128个可见查询点进行监督。

4.1 定量比较

Context-TAP在所有指标上排名第一,并与先前的方法相比展现出显著的性能优势。

在CroHD上,Context-TAP实现了7.06的ATE-Occ和4.28的ATE-Vis,分别比排名第二的PIP减少了11.4%和9.5%的误差。在FlyingThings++上,ATE-Vis和ATE-Occ分别降低了0.96和2.18。

TAP-Vid-DAVIS和TAP-Vid-Kinectics(first):核心指标A-PCK,即正确关键点的平均百分比。在TAP-Vid-DAVIS基准测试中比TAP-Net表现提高了24.1%,在TAP-Vid-Kinectics基准测试中改善了11.8%的PIP。

TAP-Vid-DAVIS和TAP-Vid-Kinectics(strided):表2,比较了“strided”采样设置下的方法。Context-TAP在这两个数据集上也在AJ和A-PCK指标方面取得了最佳性能。

4.2 定性比较

图2,在最左边的列中,绿色的叉标记了查询点,图像是起始帧。右边的三列显示TAP-Net、pip和Context-TAP的结果。红色和绿色的线说明了预测和实际轨迹。

第一行展示了大规模变化的情况。TAP-Net预测的轨迹与实际情况相差较大。当查询像素位于无纹理区域时,TAP-Net还会输出抖动的预测结果,如第二行所示。在这两种困难情况下,Context-TAP生成比PIPs更准确的结果。如第三行所示,由于光照条件的变化,PIPs难以区分前轮和后轮。而Context-TAP通过SOFE和TAFA模块提供的丰富上下文信息实现了一致的跟踪。

4.3 Efficiency Analysis

使用不同的MLP-Mixer深度对Context-TAP和PIPs进行训练。展示了准确性的提升并不是仅仅因为参数增加而带来的。

如表3所示,将MLP-Mixer的深度增加到16层,增加参数数量,但并没有带来性能提升。

减少MLP-Mixer的深度。即使只有3层MLP-Mixer,Context-TAP的性能也优于最好的PIPs(MLP-Mixer深度=12)。Context-TAP以仅有40.2%的参数超过了PIPs的性能,这显示了高效性。

4.4 Ablation Study on Modules

在表4中对所提出的模块进行了模块消融研究。逐步添加SOFE和TAFA模块时,Context-TAP的误差持续减小,这表明了SOFE和TAFA的有效性。

为了证明TAFA中使用的跨注意力机制的必要性,我们尝试预测一个 与通过r_{a}调整形状的特征图相对应的 权重矩阵,并直接对特征进行加权求和以获得δF。跨注意力机制的性能优于预测方法。

4.5 Ablation Study on Parameters

参数消融实验(表5),在Flyingthings++数据集上进行。从PIPs基线开始,首先添加了SOFE模块,并探索了两个相关的超参数,即相关半径rc和样本数量M。然后,进一步添加TAFA模块,并调整了注意力窗口半径r_{a}。还对TAFA中的预测机制和注意力机制进行了比较。N为64,学习率3 × 10^−4,进行20000步的训练。

SOFE中的相关半径:rc = 2时,模型达到最佳性能。

SOFE中的样本数量:SOFE学习采样M个额外的辅助特征来增强源特征。在给定rc = 2的情况下,尝试不同数量的样本M,当M = 9时,模型在Flyingthings++和CroHD数据集上都达到最佳性能。

TAFA中的注意力半径:TAFA通过跨注意力机制聚合当前估计的对应点位置周围的目标特征,以增强上下文特征。注意力窗口的半径ra决定了注意力可以扩展到多远。逐渐将ra从1增加到5,ra = 3时表现最佳。

5 Conclusion

提出context - tap,通过空间上下文特征来改进pip,包括一个源特征增强(SOFE)模块和一个目标特征聚合(TAFA)模块。实验表明,Context-TAP在4个基准数据集上达到了最佳的跟踪精度,具有显著的优越性。

局限性:Context-TAP通过滑动窗口跟踪视频中的点。当目标点丢失时,目标点不能被重新识别。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值