【论文翻译】【多目标跟踪】Simple online and Realtime tracking

在这里插入图片描述

0.论文摘要

本文探讨了一种实用的多目标跟踪方法,其主要焦点是为在线和实时应用有效地关联对象。为此,检测质量被认为是影响跟踪性能的关键因素,其中改变检测器可以将跟踪性能提高18.9%。尽管仅对跟踪组件使用熟悉技术的基本组合,如卡尔曼滤波器和匈牙利算法,但这种方法实现了与最先进的在线跟踪器相当的精度。此外,由于我们的跟踪方法简单,跟踪器的更新速率为260 Hz,比其他最先进的跟踪器快20倍以上。

1.研究背景

本文提出了一种针对多目标跟踪(MOT)问题的跟踪——检测框架的精益实现,其中目标在每一帧被检测并表示为边界框。与许多基于批处理的跟踪方法[1,2,3]相比,这项工作主要针对在线跟踪,其中只有来自前一帧和当前帧的检测被呈现给跟踪器。此外,还非常重视促进实时跟踪和促进自动驾驶汽车行人跟踪等应用的效率。

MOT问题可以被看作是一个数据关联问题,其目的是在视频序列中跨帧关联检测。为了帮助数据关联过程,跟踪器使用各种方法来模拟场景中物体的运动[1, 4]和外观[5, 3]。本文采用的方法是通过对最近建立的视觉MOT基准[6]的观察来激发的。首先,成熟的数据关联技术正在复兴,包括多假设跟踪(MHT)[7, 3]和联合概率数据关联(JPDA)[2],它们占据了MOT基准的许多顶级位置。

这表明检测质量可能会阻碍其他追踪器的发展。此外,精度和速度之间的权衡似乎相当明显,因为大多数精确跟踪器的速度被认为对于实时应用来说太慢了(见图1)。随着传统数据关联技术在顶级在线和批量跟踪器中的突出地位,以及顶级跟踪器使用的不同检测的使用,这项工作探索了MOT可以有多简单以及它可以有多好地执行。

在这里插入图片描述
图1。所提出的方法(排序)相对于几个基线跟踪器的基准性能[6]。每个标记表示追踪器的精度和速度,以每秒帧数(FPS)[Hz]为单位,即越高越正确越好。

为了与奥卡姆剃刀原则保持一致,在跟踪中忽略检测分量之外的外观特征,并且只有边界框的位置和大小用于运动估计和数据关联。此外,关于短期和长期闭塞的问题也被忽略,因为它们很少发生,并且它们的明确处理将不期望的复杂性引入跟踪框架。我们认为,以对象重新识别的形式加入复杂性会给跟踪框架增加很大的开销——潜在地限制了它在实时应用中的使用。

这种设计理念与许多提出的视觉跟踪器形成对比,这些视觉跟踪器结合了无数组件来处理各种边缘情况和检测误差[9,10,11,12]。相反,这项工作的重点是高效和可靠地处理常见的帧到帧关联。我们的目标不是对检测误差具有鲁棒性,而是利用视觉对象检测的最新进展来直接解决检测问题。通过比较普通的ACF行人检测器[8]和最近基于卷积神经网络(CNN)的检测器[13]来证明这一点。此外,两种经典但极其有效的方法,卡尔曼滤波器[14]和匈牙利方法[15],分别用于处理跟踪问题的运动预测和数据关联部分。这种最小化的跟踪公式促进了在线跟踪的效率和可靠性,参见图1。在本文中,这种方法仅应用于跟踪各种环境中的行人,然而由于基于CNN的检测器的灵活性[13],它自然可以推广到其他对象类别。

本文的主要贡献是:
•我们在MOT环境中利用了基于CNN的检测能力。
•提出了一种基于卡尔曼滤波器和匈牙利算法的实用跟踪方法,并根据最近的MOT基准进行了评估。
•代码将开放源代码,以帮助建立一个基线方法,用于避免碰撞应用的研究、实验和吸收。

本文的结构如下:第2节简要回顾了多目标跟踪领域的相关文献。第3节描述了提议的精益跟踪框架,然后在第4节中展示了提出的框架对标准基准序列的有效性。最后,第5节总结了所学成果,并讨论了未来的改进。

2.相关工作

传统上,MOT是使用多假设跟踪(MHT)[7]或联合概率数据关联(JPDA)过滤器[16,2]来解决的,当对象分配存在高度不确定性时,这些过滤器会延迟做出困难的决策。这些方法的组合复杂性在被跟踪对象的数量上是指数级的,这使得它们对于高度动态环境中的实时应用不切实际。最近,Rezatofighi等[2],重新讨论了可视化MOT中的JPDA公式[16],目的是通过利用求解整数规划的最新发展,用JPDA的有效近似来解决组合复杂性问题。同样,Kim等[3]使用每个目标的外观模型来修剪MHT图,以实现最先进的性能。然而,这些方法仍然延迟决策,这使得它们不适合在线跟踪。

许多在线跟踪方法旨在通过在线学习建立单个对象本身的外观模型[17,18,12]或全局模型[19,11,4,5]。除了外观模型之外,还经常结合运动来帮助将检测与轨迹相关联[1,19,4,11]。当仅考虑建模为二分图匹配的一对一对应时,可以使用全局最优解[10],[20],如匈牙利算法[15]。Geiger等的方法[20]在两阶段过程中使用匈牙利算法[15]。首先,通过关联跨相邻帧的检测来形成轨迹,其中几何和外观线索被组合以形成相似度矩阵。然后,轨迹被彼此关联以桥接由遮挡引起的断裂轨迹,再次使用几何和外观线索。这种两步关联方法将这种方法限制在批处理计算上。我们的方法受到[20]的跟踪组件的启发,但是我们将关联简化为具有基本线索的单个阶段,如下一节所述。

3.方法

所提出的方法由检测、将对象状态传播到未来帧、将当前检测与现有对象相关联以及管理被跟踪对象的生命周期的关键组成部分来描述。

3.1 检测

为了利用基于CNN的检测的快速发展,我们利用了Faster Region CNN(FrRCNN)检测框架[13]。FrRCNN是一个端到端框架,由两个阶段组成。第一阶段提取特征并为第二阶段提出区域,然后第二阶段在提出的区域中对对象进行分类。该框架的优点是在两个阶段之间共享参数,从而创建了一个高效的检测框架。此外,网络架构本身可以交换到任何设计,这使得能够快速试验不同的架构,以提高检测性能。

这里我们比较了FrRCNN提供的两种网络架构,即Zeiler和Fergus的架构(FrRCNN(ZF))[21]和Simonyan和Zisserman的更深层次的架构(FrRCNN(VGG16))[22]。在整个工作中,我们应用FrRCNN和为PASCAL VOC挑战学习的默认参数。由于我们只对行人感兴趣,所以忽略所有其他类别,只将输出概率大于50%的人检测结果传递给跟踪框架。

在我们的实验中,我们发现当比较FrRCNN检测和ACF检测时,检测质量对跟踪性能有显著影响。使用应用于现有在线跟踪器MDP[12]和这里提出的跟踪器的验证序列集来演示这一点。表1显示,最佳检测器(FrRCNN(VGG16))导致MDP和所提出的方法的最佳跟踪精度。

在这里插入图片描述

表1。通过切换检测器组件比较跟踪性能。根据[12]中列出的验证序列进行评估。

3.2 估计模型

这里我们描述对象模型,即用于将目标身份传播到下一帧的表示和运动模型。我们用一个独立于其他物体和摄像机运动的线性恒速模型来近似每个物体的帧间位移。每个目标的状态建模为:

在这里插入图片描述

其中 u u u v v v表示目标中心的水平和垂直像素位置,而比例 s s s r r r分别表示目标边界框的比例(面积)和纵横比。请注意,纵横比被认为是恒定的。当检测与目标相关联时,检测到的边界框用于更新目标状态,其中速度分量通过卡尔曼滤波器框架得到最佳解决[14]。如果没有检测与目标相关联,则使用线速度模型简单地预测其状态而不进行校正。

3.3 数据关联

在将检测分配给现有目标时,通过预测每个目标在当前帧中的新位置来估计其边界框几何形状。然后,分配成本矩阵被计算为每个检测和来自现有目标的所有预测边界框之间的交并集( I O U IOU IOU)距离。使用匈牙利算法最优地解决分配。此外,施加最小 I O U IOU IOU以拒绝检测到目标重叠小于 I O U m i n IOU_{min} IOUmin的分配。

我们发现边界框的 I O U IOU IOU距离隐含地处理由通过的目标引起的短期遮挡。具体地,当目标被遮挡物体覆盖时,仅检测到遮挡目标,因为 I O U IOU IOU距离适当地有利于具有相似尺度的检测。这允许遮挡目标通过检测被校正,而被覆盖的目标不受影响,因为没有进行分配。

3.4 轨迹标识的创建和删除

当对象进入和离开图像时,需要相应地创建或销毁唯一标识。为了创建跟踪器,我们认为任何重叠小于 I O U m i n IOU_{min} IOUmin的检测都表示未跟踪对象的存在。使用边界框的几何图形初始化跟踪器,速度设置为零。由于此时未观察到速度,速度分量的协方差用大值初始化,反映了这种不确定性。此外,新的跟踪器然后经历一个试用期,在此期间,目标需要与检测相关联,以积累足够的证据,从而防止跟踪假阳性。如果在 T L o s t T_{Lost} TLost帧中没有检测到轨迹,则轨迹被终止。这防止了跟踪器数量的无限增长和由长持续时间的预测而没有来自检测器的校正所引起的定位误差。在所有实验中, T L o s t T_{Lost} TLost设置为1有两个原因。首先,恒速模型是真实动力学的差预测器,其次,我们主要关注帧到帧跟踪,其中对象重新识别超出了本工作的范围。此外,早期删除丢失的靶有助于提高效率。如果对象再次出现,跟踪将以新的身份隐式恢复。

4.实验

我们在由MOT基准数据库[6]设置的一组不同的测试序列上评估我们的跟踪实现的性能,该数据库包含移动和静态相机序列。为了调整初始卡尔曼滤波器协方差、 I O U m i n IOU_{min} IOUmin T L o s t T_{Lost} TLost参数,我们使用与[12]中报告的相同的训练/验证分割。使用的检测架构是FrRCNN(VGG16)[22]。[22]中的源代码和样本检测可在线获得。

4.1 指标

由于很难使用单一分数来评估多目标跟踪性能,我们利用[24]中定义的评估指标,以及标准MOT指标[25]:
•MOTA(↑):多目标跟踪精度[25]。
•MOTP(↑):多目标跟踪精度[25]。
•FAF(↓):每帧的错误警报数。
• MT(↑):主要被跟踪的轨迹数。即target至少80%的寿命都有相同的标签。
•ML(↓):大部分丢失轨迹的数量。目标至少有20%的寿命没有被跟踪。
•FP(↓):错误检测数。
•FN(↓):漏检次数。
•ID sw(↓):ID切换到不同的先前跟踪对象的次数[24]。
•Frag(↓):轨道因未检测而中断的碎片数。带(↑)的评价指标,分数越高表示表现越好;而对于带有(↓)的评估度量,较低的分数表示较好的性能。真阳性被认为与相应的地面真实边界框有至少50%的重叠。评估代码从[6]下载。

4.2 性能评估

使用MOT基准[6]测试服务器评估跟踪性能,其中保留了11个序列的基本事实。表2将提出的方法排序与其他几种基线跟踪器进行了比较。为简洁起见,仅列出了最相关的跟踪器,这些跟踪器在准确性方面是最先进的在线跟踪器,如(TDAM[18],MDP[12]),最快的基于批处理的跟踪器(DP NMS[23]),以及全方位近在线方法(NOMT[11])。此外,还列出了启发这种方法的方法(TBD[20]、ALExTRAC[5]和SMOT[1])。与这些其他方法相比,SORT在在线追踪器中获得了最高的MOTA分数,并与最先进的方法NOMT相当,后者明显更复杂,并在不久的将来使用帧。此外,由于SORT旨在关注帧到帧的关联,尽管具有与其他跟踪器相似的假阴性,但丢失目标(ML)的数量是最小的。此外,由于SORT侧重于帧到帧的关联来增长轨迹,因此与其他方法相比,它具有最低数量的丢失目标

在这里插入图片描述

4.3 运行时间

大多数MOT解决方案旨在将性能推向更高的准确性,通常是以运行时性能为代价的。虽然在离线处理任务中可以容忍缓慢的运行时间,但对于机器人和自动驾驶汽车来说,实时性能是必不可少的。图1示出了在MOT基准[6]上与它们的速度和精度相关的多个跟踪器。这表明,获得最佳精度的方法往往也是最慢的(图1的右下角)。在光谱的另一端,最快的方法往往具有较低的准确性(图1中的左上角)。SORT结合了速度和准确性这两个理想的属性,没有典型的缺点(图1中的右上角)。跟踪组件在具有16 GB内存的英特尔i7 2.5 GHz机器的单核上以260 Hz运行。

5.总结

在本文中,提出了一个简单的在线跟踪框架,重点是帧到帧的预测和关联。我们表明,跟踪质量高度依赖于检测性能,通过利用检测的最新发展,仅用经典的跟踪方法就可以实现最先进的跟踪质量。所提出的框架在速度和准确性方面都达到了同类最佳的性能,而其他方法通常会牺牲一个来换取另一个。所提出的框架的简单性使其非常适合作为基线,允许新的方法关注对象重新识别以处理长期遮挡。由于我们的实验强调了检测质量在跟踪中的重要性,未来的工作将研究紧密耦合的检测和跟踪框架。

  • 24
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值