How To Train Your Deep Multi-Object Tracker
Abstract:
MOT近来的趋势是利用深度学习学习目标检测与跟踪。然而,目前存在的方法仅仅是使用与跟踪评价指标无关的(MOTA、MOTP)损失函数训练某一个子模块。由于这些方法不可微,使得选择一个适合的多目标跟踪的端到端的损失函数仍然是一个带解决的问题。本文,我们通过提出一个可微代理MOTA,MOTP,并结合到深度多目标端对端跟踪器上。关键点是我们提出了一个近似匈牙利匹配算法(DHN)。DHN允许估计跟踪目标与真是目标的对应关系,从而计算MOTA与MOTP的可微代理,他能够直接应用到深度跟踪当中。实验结果表明,DHN的可微框架改善了现有多目标跟踪算法的性能,并在此基础上建立了一个新的水平。
Introduction
MOT是一个长期存在的研究课题,在移动机器人和自主驾驶方面有着广泛的应用。通过跟踪,我们会注意到周围的对象实例,并预测它们未来的运动。 现有的行人跟踪方法大多遵循基于tracking-by-detection,主要关注探测器响应随时间的变化关系。大量的研究针对这一具有挑战性的数据关联问题研究了组合优化技术。
最近数据驱动的MOT趋势利用深度网络的代表性来学习用于数据关联的身份保持嵌入、学习单个目标的外观模型以及学习回归检测到的目标的姿态。然而,这些方法使用代理损失proxy losses对MOT单独的各个部分进行训练,这些损失仅与MOT评估评价间接相关。定义类似于标准跟踪评估度量的损失函数的主要难点在于计算预测目标轨迹与真实目标之间的最佳匹配 。这个问题通常通过使用匈牙利(Munkres)算法(HA)来解决,但是该算法是不可微运算。
本文的重要贡献是为多目标跟踪器的训练提供了一个新颖的、可微的框架。我们提出了标准CLEAR-MOT[6]评价指标的一个可微变体,我们将其组合成一个新的损失函数,适用于MOT方法的端到端训练。特别是,我们引入了一个可微网络模块——深度匈牙利网络(DHN)——它近似于HA并提供了地GT分配的最佳预测的逼近。 该方法基于双向递归神经网络(Bi-RNN),根据对地面真实距离的预测计算软分配矩阵。然后我们将MOTA和MOTP[6]表示为计算(软)赋值矩阵和距离矩阵的可微函数。通过DHN,将近似跟踪性能指标的梯度反向传播以更新跟踪器权重。通过这种方式,我们可以使用与标准MOT评估度量直接相关的损失,以数据驱动的方式训练对象跟踪器。综上所述,本文做出了以下贡献:
1)针对多目标跟踪器的端到端训练,我们提出了直接受标准MOT评估方法启发的新的损失函数。
2)为了通过网络反向传播损耗,我们提出了一个新的网络模块Deep HungarianNet,它可以学习以一种不同的方式将预测轨迹与地面真实物体匹配。
3)我们用我们提出的框架训练最近发表的跟踪器,证明了所提出的损失函数和可微匹配模块的优点。我们展示了在基线上的改进,并在MOTChallenge基准数据集上建立了一个新的最先进的结果。
Overview and Notation
任何MOT方法的目标都是预测视频序列中的轨迹,每个跟踪目标
X
i
X^i
Xi都关联一个ID
i
i
i,
L
i
L_i
Li个bounding boxes
X
t
l
i
X_{t_l}^i
Xtli
∈
R
\in R
∈R(2D位置与尺寸),
l
=
1...
,
L
i
l=1...,L_i
l=1...,Li。多目标跟踪器的任务是精确估计所有身份随时间变化的边界框。在评估时,标准度量逐帧操作。
t
t
t帧,
N
t
N_t
Nt个预测bounding boxes
x
t
i
1
,
.
.
.
,
x
t
i
N
t
x_t^{i_1},...,x_t^{iN_t}
xti1,...,xtiNt与
M
t
M_t
Mt个GT
y
t
j
1
,
.
.
.
,
y
t
j
M
t
y_t^{j_1},...,y_t^{jM_t}
ytj1,...,ytjMt对比。首先需要计算预测的bounding boxes和GT物体之间的对应关系。这是一个非常需要正视的问题,因为多个GT可能重叠,因此适用于多个跟踪假设。在下面我们将省略时间索引
t
t
t以便于阅读。除非另有规定,否则将根据时间索引
t
t
t计算所有表达式 。
文章[6]中提出的标准度量是使用双部分匹配(bi-partite matching)来解决关联问题。首先计算预测GT距离矩阵
D
D
D
∈
R
N
∗
M
\in R^{N*M}
∈RN∗M,
d
n
m
d_{nm}
dnm
∈
[
0
,
1
]
\in [0,1]
∈[0,1]。对于基于视觉跟踪,通常使用基于并集的距离相交(IoU)。然后,利用匈牙利算法(HA)求解整数规划,得到地面真值分配二元矩阵的最优预测。
通过求解这个整数规划,我们得到了地面真实物体和轨道预测之间的相互一致的关联。这些约束确保赋值的所有行和列的总和应为1,从而避免了两个集合之间的多个赋值。在找到最优关联后
A
∗
A^*
A∗,我们可以使用
A
∗
A^*
A∗和
D
D
D计算MOTA和MOTP测度.
其中
a
t
n
m
∗
a_{tnm}^*
atnm∗是t是时刻第
(
n
,
m
)
(n,m)
(n,m)项。 true positives(TP)对应于匹配的预测跟踪匹配数,false positives(FP)对应于未匹配的预测跟踪匹配数。False negatives (FN) 表示没有匹配的GT物体的数量。