目标跟踪Martin Danelljan论文follow

2018

Accurate Tracking by Overlap Maximization(简称ATOM)

2019

Learning Discriminative Model Prediction for Tracking(简称DIMP)

这篇文章讲的非常好,可以点进去看一下

解决问题
孪生学习框架仍存在严重的局限性。
1.首先,孪生跟踪器在推断模型时仅利用目标外观,这完全忽略了背景信息,而背景信息对于区分场景中相似的物体至关重要。
2.其次,学习到的相似性度量对于不包含在离线训练集中的物体来说不一定可靠,导致泛化能力差。
3.第三,孪生方法没有提供强有力的模型更新策略,最先进的方法只是简单地进行模板平均[45]。这些局限性导致了与其他最先进的跟踪方法相比,鲁棒性较差[20]。
具体
在这里插入图片描述
分类分支:离线学习一个预测器,预测滤波器f,去和测试图像做卷积,得到响应图。(上面的图展示了完全的步骤),在跟踪的时候可以输入前面几帧作为训练集,在线更新预测模块D。
回归分支:采用ATOM的方法,同样也是离线训练

这里也可以看出dimp的主要工作在于位置预测,ATOM在位置预测这一块只是用了一个卷积网络进行粗糙的分类,进而得到目标位置。dimp则是设计了一个模块去预测滤波器w,然后和测试图像卷积得到位置。

ATOM的框架:
在这里插入图片描述
这里有一篇ATOM原理讲解的帖子,很不错
总的来说ATOM主要工作在于离线学习一个iou回归模块,用于准确预测跟踪框。而对于定位方面的工作很简单,就是通过第一帧提取特征在线学习一个卷积模块用于分类,进而定位目标。
但是这样一来会导致ATOM抵抗相似物体干扰的能力比较差,而DIMP相对就强一些

2022

Transforming model prediction for tracking(简称TOMP)

解决问题
一般基于相关滤波的目标跟踪方法,在当前帧提取目标区域特征,然后通过优化目标函数求得相关滤波器w,进而与搜索区域提取的特征进行相关运算,即可得到相相应图。大致流程图如下:
在这里插入图片描述
这个显式最小化目标函数的方法存在一些问题:
1.有限的训练数据:基于优化的方法仅使用先前跟踪帧中可用的有限信息来计算目标模型。这意味着它们只依赖于过去帧中的数据来更新模型,而这些数据可能不足以涵盖所有可能的目标状态和背景变化。

2.缺乏先验知识整合:在优化过程中,这些方法通常没有机制将已学习的先验知识整合到目标模型中。先验知识可以是以前的跟踪经验、目标的典型外观或行为模式等。这些知识可以帮助模型更好地预测未来帧中的目标状态,但基于优化的方法难以在优化过程中动态整合这些知识。

3.优化过程的局限性:基于优化的方法通常需要设置多个超参数,例如正则化参数、学习率等。如果这些参数设置不当,可能会导致模型过拟合或欠拟合。此外,优化算法本身可能无法有效探索模型参数空间,从而导致次优的目标模型。

4.静态优化:这些方法通常是静态的,即在初始帧和先前跟踪帧上进行一次性优化,之后就固定了目标模型的参数。在后续的跟踪过程中,它们不会进一步调整模型参数以适应新的情况或数据。

因此,这些限制导致基于优化的方法无法充分利用已学习的先验知识和当前帧的信息来改进目标模型,从而无法有效最小化未来的跟踪失败。相反,新的方法,如基于Transformer的方法,通过引入更灵活和动态的模型预测机制,可以更好地整合先验知识和实时数据,从而提高跟踪性能。

创新点
我们提出使用基于Transformer的新型目标模型预测器来替代模型优化器(见图2b),我们的方法不是像公式(1)那样显式地最小化目标函数,而是通过端到端训练直接从数据中学习预测目标模型。。也就是说不最小化目标函数来求解滤波器w了,而是设计了一个transformer来直接预测滤波器w。
这样,模型预测器可以在预测的模型中整合目标特定的先验知识,使其不仅能够专注于目标的特征,还能够专注于区分目标与背景的特征。此外,我们的模型预测器还利用当前测试帧的特征,以及之前的训练特征,以跨导性方式预测目标模型。结果,模型预测器可以利用当前帧的信息来预测更合适的目标模型。最后,我们的方法不是在预训练特征提取器定义的固定特征空间上应用目标模型,而是能够利用目标信息为每一帧动态构建更具判别力的特征空间。
具体
在这里插入图片描述

在我们的方法中,Transformer 编码器(Transformer Encoder)发挥了两个作用。首先,如后文所述,它计算用于 Transformer 解码器(Transformer Decoder)模块预测目标模型的特征。其次,受到 STARK [43] 启发,我们的 Transformer 编码器还输出增强的测试帧特征,这些特征作为目标模型在定位目标时的输入。
在这里插入图片描述

注意这里设置了Transformer解码器的输入查询 e f g e_{fg} efg e f g e_{fg} efg是之前的前景嵌入,表示目标区域的特征向量(也就是目标的外观特征),帮助模型关注图像中的目标部分。

与STARK区别
SATRK算法框
架
受到 STARK [43] 启发,我们的 Transformer 编码器还输出增强的测试帧特征,这些特征作为目标模型在定位目标时的输入。
SATRK将目标跟踪建模成一个直接的边界框预测问题。通过预测左上与右下角点热力图的方式,每帧直接得到一个最优的边界框。而TOMP则是预测一个目标模型或者是滤波器w。

STARK是将模板和搜索帧特征提取后堆叠,输入到编码器,得到一个强化的特征,然后通过解码器去进行边界框预测。这个和TransT的方法是一致的
TOMP则是没有模板帧,他是将训练帧和搜索帧(测试帧)提取特征,堆叠后输入编码器得到一个强化特征,和STARK一样也有一个和输入查询,然后去预测两个分类器,一个是目标分类器,另一个是边界框回归器。

2020

PrDiMP Probabilistic Regression for Visual Tracking(简称PrDIMP)

还没看懂,先借用一下这个帖子
这篇文章也不错
解决问题
1.预测置信值的范围和特性在很大程度上取决于损失选择和生成对应伪标签的策略。这在设计用于估计和推理预测不确定性的策略时提供了严峻的挑战。这些措施在跟踪中是高度相关的,例如决定是否更新、目标是否丢失或输出有多不确定(见图1)。我们旨在通过采取概率视角来解决这些限制。

2.标签和实际值存在偏差
在这里插入图片描述
在这里插入图片描述

解决问题
论文工作的原文翻译:在这里插入图片描述

整理与总结
在本文中,作者对DiMP中的置信度值进行了改进,使用条件概率来替代原有的置信度值。这些改进主要涉及以下几个方面:

1.条件概率替换置信度值:

1.1置信度值:
在DiMP模型中,置信度值是网络预测的一个数值,用来表示目标状态的置信度。但是,这个数值本身没有明确的概率解释,可能会带来一些解读和使用上的困难。
1.2条件概率:
作者引入了条件概率 𝑝(𝑦∣𝑥),表示在给定输入图像 𝑥 的情况下,目标状态 𝑦y的条件概率密度。这个条件概率具有明确的概率解释,更容易进行推理和决策。
2.从数据中学习的参数化:

2.1传统的方法可能假设预测的值服从某种特定的分布(例如高斯分布),然后利用这些假设进行推理。
2.2作者的方法则不做这种特定分布的假设,而是让深度神经网络直接从数据中学习条件概率的参数化。这样,网络可以根据数据本身的特性来调整预测分布,而不是受到预设分布形式的限制。
3.SoftMax的连续推广:
这种参数化方法基于SoftMax函数的连续推广,是一种基于能量的模型(Energy-based Model)。这种模型最早由 [4]提出,能够处理连续的输出空间,从而更适合视觉跟踪任务。
4.ground-truth分布替换伪标签:

4.1在传统的基于置信度的方法中,训练时会使用伪标签(pseudo label)来指导模型学习。伪标签通常通过某种方式人为设定,但可能无法准确反映数据的真实分布。
4.2作者的方法用真实标签分布(ground-truth distribution)来替代伪标签。真实标签分布更能准确反映目标状态的不确定性和噪声。例如,可以将真实标签分布建模为高斯概率密度函数,以便在推理阶段更好地使用这些信息。
5.KL散度替换设计损失函数:

5.1传统的基于置信度的方法会设计一个特定的损失函数(如均方误差损失)来训练模型,使得预测值尽可能接近伪标签。
5.2作者的方法则使用KL散度(Kullback-Leibler divergence)来替代这种设计损失函数。KL散度用于度量两个概率分布之间的差异。通过最小化预测条件分布和真实分布之间的KL散度,模型能够更准确地捕捉数据的真实分布特性,从而提高跟踪性能。
总结来说,作者通过将DiMP中的置信度值替换为条件概率,并使用KL散度来训练模型,使得模型能够更好地处理目标状态的不确定性和噪声,从而提高了跟踪性能。

Visual object tracking with discriminative filters and siamese networks: a survey and outlook

在这里插入图片描述

2023

Ovtrack: Open-vocabulary multiple object tracking

Efficient visual tracking with exemplar transformers

Robust visual tracking by segmentation(简称RTS)

----------------------------------------------------------------------------

-------------------------------------------------------------------------------

超分辨率(视频超分辨率提升跟踪精度)

语义分割(通过分割地面来辅助跟踪)

  • 11
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大泽泽的小可爱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值