Track to Detect and Segment: An Online Multi-Object Tracker

最新推荐文章于 2024-06-07 15:43:55 发布

小猪猪爱吃饭

最新推荐文章于 2024-06-07 15:43:55 发布

阅读量575

点赞数 2

分类专栏：小猪猪的深度学习之路文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_45639117/article/details/120926726

版权

小猪猪的深度学习之路专栏收录该内容

9 篇文章 0 订阅

订阅专栏

paper: https://arxiv.org/abs/2103.08808
code:https://github.com/JialianW/TraDeS
demo:https://jialianwu.com/projects/TraDeS.html

摘要

大多数在线多目标跟踪器在神经网络中独立执行目标检测，无需任何跟踪输入。在本文中，我们提出了一种新的在线联合检测和跟踪模型，TraDeS（TRAck-to-DEtect和Segment），利用跟踪线索来辅助端到端的检测。TraDeS通过成本量推断目标跟踪偏移量，用于传播之前的目标特征，以改进当前目标检测和分割。在MOT (2D跟踪)、nuScenes (3D跟踪)、MOTS和Youtube-VIS(实例分割跟踪)4个数据集上显示了TraDeS的有效性和优越性。

1.引言

在这里插入图片描述

先进的在线多目标跟踪方法主要遵循两种范式:检测跟踪[5,38,27,52,30,49]和联合检测与跟踪[26,63,1,29,45,25,43,44]。基于检测的跟踪(TBD)范式将检测和跟踪视为两个独立的任务(图1(a))。它通常使用现成的目标检测器进行检测，并使用另一个单独的网络进行数据关联。由于两阶段处理，TBD系统效率低下，没有进行端到端优化。为了解决这个问题，最近的解决方案倾向于联合检测和跟踪(JDT)范式，该范式同时在单个前向传递中执行检测和跟踪(图1(b))。

然而，JDT方法面临两个问题:(i)尽管在大多数JDT工作[29,45,25,50]骨干网络是共享的，但检测通常是独立进行的，没有探索跟踪线索（ tracking cues）。我们认为，检测是稳定一致的轨迹的基石，而跟踪线索则有助于检测，特别是在部分遮挡和运动模糊等困难场景下。(注：作者认为现有算法在检测的过程中未使用跟踪的结果，导致检测效果不足，而合适的跟踪推理有助于提升检测的鲁棒性)(ii)[9]和我们的实验研究(表1b)普通reID跟踪损失[45,25,32,51]与联合训练单一骨干网络时的检测损失不太兼容，甚至会在一定程度上影响检测性能。原因是re-ID关注的是类内方差，而检测的目的是扩大类间差异，最小化类内方差。

在本文中，我们提出了一种新的在线联合检测和跟踪模型，称为TraDeS(TRAck to DEtect and Segment)。在TraDeS中，特征图上的每个点要么代表一个目标中心，要么代表一个背景区域，类似于CenterNet[64]。TraDeS通过将跟踪与检测紧密结合，以及专门设计的重新识别学习方案，解决了上述两个问题。具体来说，我们提出了一个基于成本量的关联(CVA)模块和一个运动导向的特征校正(MFW)模块。CVA通过backbone提取点方向的re-ID嵌入特征，构建成本量（cost volume），存储两帧内嵌入对之间的匹配相似性。然后，从代价量推导出跟踪偏移量，即所有点的时空位移，即两帧中潜在对象的中心。跟踪偏移量与嵌入量一起被用来进行简单的两轮长期数据关联。然后，MFW将跟踪偏移量作为运动线索，将目标特征从前一帧传播到当前帧。最后，将传播的特征和当前特征进行聚合，得到检测和分割。(注：可以认为本文使用跟踪的线索对检测特征图进行了修正，提升了检测的性能，自然而然地可以带来跟踪性能的提升)

在CVA模块中，利用成本量（cost volume）来监督re-ID的嵌入，其中隐式地考虑了不同的对象类别和背景区域。也就是说，我们的再识别目标涉及到类内方差。该方法不仅学习了一种有效的嵌入方法，如常见的re-ID loss[45,25,32,51]，而且与检测loss兼容良好，不影响检测性能，如表1b所示。此外，由于跟踪偏移量是基于外观嵌入相似性进行预测的，因此可以匹配图3所示运动非常大或帧率较低的目标，甚至可以准确跟踪图4所示运动不可见的不同数据集中的目标。因此，预测的目标跟踪偏移量可以作为一个鲁棒的运动线索，指导特征在MFW模块中的传播。当前帧中被遮挡和模糊的物体可能在早期帧中是可读的，因此从之前帧中传播的特征可能支持当前的特征，从而由我们的MFW模块恢复可能遗漏的物体。

综上所述，我们提出了一种新型的在线多目标跟踪器TraDeS，该跟踪器深度集成了跟踪线索，在端到端框架下辅助检测，从而实现跟踪收益，如图 $1 (c)$ 所示。TraDeS是一个通用跟踪器，通过添加一个简单的实例分段分支，它可以很容易地扩展到实例分段跟踪。在4个数据集上进行了广泛的实验，即： MOT, nuScenes, MOTS和Youtube-VIS数据集，跨越3个任务，包括2D目标跟踪，3D目标跟踪和实例分割跟踪。交易通过节5.3所示的有效推断时间实现了最先进的性能。此外，进行了彻底的消融研究，以证明我们的方法的有效性，如节5.2所示。

2.相关工作

3.Preliminaries

本文提出的TraDeS是建立在基于点的对象检测器CenterNet之上的[64]。CenterNet的输入为一张图片 $I\in{\mathbb{R}^{H\times{W}\times3}}$ ,由backbone网络 $\phi(\cdot)$ 生成了基础特征 $f=\phi{(I)}$ ，其中 $f\in {\mathbb{R}^{H_{F}\times W_{F} \times64}}$ , $H_{F}=\frac{H}{4},W_F=\frac{W}{4}$ 。然后在 $f$ 上构造一组头部卷积分支，生成一个类中心热图 $P\in {\mathbb{R}^{H_{F}\times W_{F} \times N_{cls}}}$ ,以及根据不同认为产生特征图，如2d检测或者3d检测。 $N_{cls}$ 是类别的数量。CenterNet通过物体的中心点(即P中的局部峰值)和对应的特定任务的峰值位置预测来检测物体。

与[63]类似，我们通过在CenterNet上添加一个额外的head分支来构建基线跟踪器，该分支可以预测跟踪偏移特征 $O^{B}\in {\mathbb{R}^{H_{F}\times W_{F} \times w}}$ 以用于数据关联。 $O^B$ 计算了所有时间t到时间 $t_\tau$ 的所有对应点的时空位移。

4.TraDeS Tracker。

我们的想法: 大多数以前的联合检测和跟踪方法执行一个独立的检测，而不需要跟踪的显式输入。相反，我们的目标是将跟踪线索集成到端到端检测中，从而提高对复杂场景的检测，从而有利于跟踪。为此，我们提出了一个基于成本量（Cost Volume）的关联(CVA:§4.1)模块，用于学习re-id嵌入和推导物体运动，以及一个运动引导特征变形( Motion-guided Feature Warper,MFW:§4.2)模块，用于利用CVA的跟踪线索来传播和增强物体特征。
在这里插入图片描述

图2

4.1. Cost Volume based Association

Cost Volume: 记 $I^t$ 的基础特征图为 $f^t$ , $I^{t-\tau}$ 的基础特征图为 $f^{t-\tau}$ ,我们使用由三个卷积层构成的embedding网络 $\sigma(\cdot)$ 提取它们的re-id嵌入特征，即： $e^t=\sigma(f^{t})\in {\mathbb{R}^{H_{F}\times W_{F} \times 128}}$ 。我们利用提取的嵌入构造一个cost volume，存储两个帧中一个点与其对应点之间的密集匹配相似点。为了有效地计算代价体积，我们首先对嵌入物进行抽样，抽样系数为2，得到 $e^t\in {\mathbb{R}^{H_{C}\times W_{C} \times 128}}$ ，其中 $H_{C}=\frac{H_F}{2},W_{C}=\frac{W_F}{2}$ 。现在，我们设 $\in \mathbb{R}^{H_{C}\times W_{C} \times H_{C}\times W_{C}}$ ，此即一个从 $I^t$ 到 $I^{t-\tau}$ 的4维Cost Volume，将 $e'^{t}$ 和 $e'^{t-\tau}$ 通过矩阵计算即可得到。特别的是，对于 $C$ 的每个元素，其计算公式如下：
$C_{i,j,k,l}=e'^{t}_{i,j}{e'^{t-\tau}_{k,l}}^T$
其中， $C_{i,j,k,l}$ 表示了点(i,j)在时间 $t$ 和点(k,l)在时间 $t-\tau$ 之间的嵌入相似度。这里，一个点指的是feature map $f$ 或 $e^{'}$ 上的一个对象。(注：此处计算就是将前一个e与后一个e对位相乘，每个元素均与之后矩阵元素生成一个 $H^{C}W^{C}$ 的矩阵)
Tracking Offset: 基于cost volume $C$ 我们计算出跟踪偏移矩阵 $\in \mathbb{R}^{H_{C}\times W_{C} \times 2}$ ,它将所有时间点的时空位移存储到它们在时间t的对应点 $t - τ$ .为了便于说明，我们展示了 $O_{i,j} \in \mathbb{R}^2$
如图2所示，对于一个物体 $x$ 的在时间 $t$ 的中心点 $(i, j)$ ，我们可以从 $C$ 中获取相应的二维cost volume map $C_{i,j}\in \mathbb{R}^{H_{C}\times W_{C} }$ ， $C_{i,j}$ 储存了物体 $x$ 与时刻 $t-\tau$ 中所有点的匹配相似性。使用 $C_{i,j},O_{i,j}\in \mathbb{R}^{2}$ 通过两个步骤进行估算： $S t e p (i)$ $C_{i,j}$ 由 $H_c \times 1和1\times W_C$ 进行最大池化，结果分别记为 $C^{W}_{i,j} \in [0,1]^{1 \times W_C}，C^{H}_{i,j} \in [0,1]^{H_C \times 1}$ . $C^{W}_{i,j} ,C^{H}_{i,j}$ 分别由物体 $x$ 在时间 $t-\tau$ 的特定水平和垂直出现的可能性构成。例如， $C^{W}_{i,j}$ 是物体 $x$ 在时间 $t-\tau$ 出现在位置 $(*, l)$ 的可能性。 $S t e p (i i)$ 因为 $C^{W}_{i,j} ,C^{H}_{i,j}$ 已经提供了对象 $x$ 在时间 $t-\tau$ 出现在特定位置的可能性。为了获得最终的偏移量，我们分别为水平方向和垂直方向预定义了两个偏移量模板，表示当 $x$ 出现在这些位置时的实际偏移量。由 $M_{i,j}\in\mathbb{R}^{1\times W_C},V_{i,j}\in\mathbb{R}^{H_C\times 1}$ 分别表示对象 $x$ 在水平方向和垂直方向的位置偏移，它们的计算公式如下：
$\left\{\begin{matrix} M_{i,j,l}=(l-j)\times s& 1\le l\le W_C\\ V_{i,j,k}=(k-i)\times s&1\le k\le H_C \end{matrix}\right.$
其中，s是全局步幅，即之前所说的由输入图变为 $e^{'}$ ,在我们的案例中，设为8.。 $M_{i,j,l}$ 表示了对象 $x$ 在时间 $t-\tau$ 位于 $(*, l)$ 的水平偏移量。通过概率值与实际偏移值的点积可以推断出最终的跟踪偏移量为:
$O_{i,j}=[{C^{H}_{i,j}}^{T} V_{i,j},{C^{W}_{i,j}} {M_{i,j}}^{T}]$
由于 $O\in \mathbb{R}^{H_C\times W_C}$ ，所有需要对其进行倍数为2的上采样，最终得到 $O\in \mathbb{R}^{H_F\times W_F\times 2}$ ,并以此作为MFW的运动依据以及数据关联。 (感觉有点像centernet，之后看完代码回来补。注意：此处无任何学习参数。)
Training： 由于σ(·)是CVA模块中唯一可学习的部分，所以CVA的训练目标是学习有效的re-ID嵌入 $e$ 。为了监督训练 $e$ ，我们对cost volume进行监督训练，而不是像其他常见的re-ID损失那样直接训练。我们假设当 $Y_{i,j,k,l}=1$ 当一个对象 $t$ 时刻时位于 $(i, j)$ 而在时刻 $t-\tau$ 出现于 $(k, l)$ ，否则 $Y_{i,j,k,l}=0$ .。然后，通过logistic回归计算CVA的训练损失，其形式为focal loss [22]:

$L_{CVA}=\frac{-1}{\sum_{ijkl}Y_{ijkl}}\sum_{ijkl}{\left\{\begin{matrix} \alpha_1log(C_{i,j,l}^{W})+\alpha_2log(C_{i,j,k}^{H})& if Y_{ijkl}=1 \\ 0&otherwise \end{matrix}\right.}$

其中， $\alpha_1=(1-C_{i,j,l}^{W})^{\beta},\alpha_2=(1-C_{i,j,k}^{H})^{\beta}$ ， $\beta$ 是focal loss的超参。因为 $C_{i,j,l}^{W}、C_{i,j,k}^{H}$ 由softmax计算得到，它们不仅涉及点 $(i, j)$ 和 $k, l$ 之间的嵌入相似性，而且涉及点 $(i, j)$ 与前一帧所有其他点之间的嵌入相似性。也就是说，当 $C_{i,j,l}^{W}$ 和 $C_{i,j,k}^{H}$ 被优化到接近1时，它强制一个物体不仅在前一帧中接近自己，而且还排斥其他物体和背景区域。
The CVA Characteristics: $(i)$ 常见的re-ID 损失只强调类内方差，这可能会降低检测性能。相比之下，公式4中的 $L_{CVA}$ 在学习嵌入时，不仅强调了类内方差，而且增强了类间差异。我们发现这种方式更适合检测损失，并在不降低检测性能的情况下学习了更有效的嵌入模式，如表1所示。 $(i i)$ 由于跟踪偏移量是基于外观嵌入相似性进行预测的，因此可以跟踪图3和图6所示的大运动范围、低帧率的目标，甚至可以准确跟踪训练集中不可见大运动的不同数据集中的目标，如图4所示。因此，预测的跟踪偏移量可以作为一个鲁棒的运动线索来指导我们的特征传播，如表1c所示。 $(i i i)$ 与[45,25]和CenterTrack[63]只预测数据关联的嵌入或跟踪偏移量相比，CVA同时产生用于长期数据关联的嵌入和跟踪偏移量(节4.3)，并作为MFW的运动线索(节4.2)。

4.2.基于动作指导的特征整合（Motion-guided Feature Warper）

MFW的目标是以预测的跟踪偏移量 $O^C$ 作为运动线索，将 $f^{t-\tau}$ 修正并传播到当前时间，从而补偿和增强 $f^t$ 。为了实现这一目标，我们通过单个可变形卷积[12]执行有效的时间传播，该卷积在以前的工作[4,3,13]中用于时间对齐特征。然后，我们通过聚合传播的特征来增强 $f^t$ 。
时间传播(Temporal Propagation): 为了传播特征图，可变形卷积(DCN)将一个时空偏移图和一个之前的特征作为输入，输出一个传播的特征，其中我们基于CVA模块的 $O^C$ 估计输入偏移量。我们使用 $O^D \in \mathbb{R}^{H_{F} \times W_{F} \times 2K^2}$ 作为DCN的输入双向偏移，其中 $K = 3$ 是DCN的卷积核尺寸。为了生成 $O^D$ ，将 $O^C$ 输入一个 $3\times3$ 的卷积 $\gamma (\cdot)$ 中。我们选择性地将 $f^{t}-f^{t-\tau}$ 的残差特征作为 $\gamma (\cdot)$ 的输入，以提供更多的运动线索。由于我们的检测和分割主要是基于对象中心特征，而不是直接修正 $f^{t-\tau}$ ，所以我们传播了之前的一个中心关注特征 $\bar{f}^{t-\tau} \in \mathbb{R}^{H_{F}\times W_{F} \times 64}$ 。 $\bar{f}^{t-\tau}的计算公式如下：$
$\bar{f}^{t-\tau}=f^{f-\tau}_{q}\circ P^{f-\tau}_{agn} , q=1,2,\dots ,64$
其中， $q$ 是通道索引， $\circ$ 是 Hadamard product(就是我们常用的对位相乘)， $P^{f-\tau}_{agn} \in \mathbb{R}^{H_{F}\times W_{F} \times1}$ 是从 $P^{t-\tau}$ 中提取的类别变化中心热图。随后，由 $O^{D},\bar{f}^{t-\tau}$ ,传播的特征通过DCN计算为 $\hat{f}^{t-\tau}=DCN(O^{D},\bar{f}^{t-\tau})\in\mathbb R^{H_{F}\times W_{F} \times 64}$ (没看明白怎么操作的，感觉更可能是add)

特征增强(Feature Enhancement) 当发生遮挡或运动模糊时，探测器可能会错过对象。我们提出通过聚合传播的特征 $\hat{f}^{t-\tau}$ 来增强 $f^t$ ，使得被遮挡和模糊的物体在视觉上更清晰。我们将增强后的特征记为 $\widetilde{f}^{t-\tau}$ ，通过加权求和计算得到:
$\widetilde{f}^{t}_{q} = w^{t} \circ{f_{q}^{t}}+{\sum_{\tau=1}^{T} w^{t-\tau}\circ \hat{f}_{q}^{t-\tau} },q=1,2,\dots,64$
(有点类似于动量的感觉，用过去信息增强当前特征，之后的论文可以考虑借鉴)
其中， $w^{t}\in \mathbb{R}^{H_{F}\times W_{F} \times 1}$ 是时间 $t$ 的自适应权重，以及 $\sum_{\tau=1}^{T} w^{t-\tau}_{i,j}=1$ 。T是用于聚合的先前特征数量。与[24]类似， $w$ 是由两个卷积层和softmax函数预测的。实验结果表明，加权求和略优于平均求和。增强后的特征A被输入到头网络中，在当前帧中产生检测框和掩码。这可以潜在地恢复丢失的物体和减少假阴性，提高轨迹的完整性并获取更高的MOTA和IDF1，如表1a所示。

4.3. 轨迹生成（Tracklet Generation）

TraDeS的总体架构图如图2所示。基于已被增强的特征 $\widetilde{f}^t$ ，TraDeS可以通过3个head网产生2D和3D框，以及实例分割。之后，生成的检测和掩码通过我们的数据关联连接到以前的轨迹。
Head Networks： 每个头部网络由几个轻量级卷积组成，用于生成特定任务的预测。对于2D和3D检测，我们使用与CenterNet相同的头部网络[64]。例如分割，我们参考CondInst[39]中的头部网络，这也是一种基于中心点的实例分割方法。
数据关联： 给定一个增强的检测或掩码在位置 $(i, j)$ 中心，我们执行两轮数据关联如下:DA-Round (i) 我们首先将其与以 $i,j)+O_{i,j}^{C}$ 为中心的区域内 $t - 1$ 时刻最接近的未匹配检测联系起来，半径为 $r$ ，其中 $r$ 是被检测框的宽度和高度的几何平均值。这里， $O_{i,j}^{C}$ 仅表示目标跟踪在 $I^{t}$ 和 $I^{t-1}$ 之间的偏移量。DA-Round (ii) 如果 $d$ 在第一轮中没有匹配任何目标，我们计算其嵌入 $e^{t}_{i,j}$ 与所有未匹配或历史轨迹嵌入的余弦相似度。 $d$ 将被分配给一个轨迹，若他们相似度最高且大于一个阈值，例如0.3.，DA-Round (ii) 具有长期关联能力。若d在上述两轮中未能与任何轨迹产生关联，d将生成一个新的轨迹。(注：我对该数据关联的理解如下：步骤1.对于一个对象中心，检测以修正点为中心，检测框平均几何距离为半径的范围内是否有未配对的上一帧的检测框，若有则完成关联。步骤2.对于未被匹配的对象，输入embed检测，计算该点与所有未匹配轨迹的余弦相似度，并决定是否分配。最后对于未分配的对象，赋予新身份。)
TraDeS Loss： TraDeS的总体损失函数定义为 $L=L_{CVA}+L_{det}+L_{MASK}$ ,其中， $L_{det}$ 为2D或3D的检测loss，如[64], $L_{MASK}$ 是分割损失，如[39]。

5.实验

6.总结

本文提出了一种新的在线联合检测和跟踪模型TraDeS，重点是利用跟踪线索来帮助检测和反馈跟踪。TraDeS配备了两个提议的模块，CVA和MFW。CVA学习专门设计的重新id嵌入，并通过4d cost volume建模对象运动。而MFW则以CVA的运动为线索，传播之前的目标特征，增强当前的检测或分割。通过对二维跟踪、三维跟踪和实例分割跟踪的实验验证了该方法的有效性和优越性。

小猪猪爱吃饭

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Track to Detect and Segment: An Online Multi-Object Tracker

文章目录摘要摘要&wmsp;&e,sp;大多数在线多目标跟踪器在神经网络中独立执行目标检测，无需任何跟踪输入。在本文中，我们提出了一种新的在线联合检测和跟踪模型，TraDeS（TRAck-to-DEtect和Segment），利用跟踪线索来辅助端到端的检测。TraDeS根据代价成本以估计跟踪对象的偏移量，这使用了TraDeS根据成本量推断对象跟踪偏移量，该成本量用于传播以前的对象特征，以改进当前的对象检测和分割。交易的有效性和优势体现在4个数据集上，包括MOT（2D跟踪）、nuScen
复制链接

扫一扫