出处:CVPR2021.5.25
单位:亚马逊
一、介绍
多目标跟踪是检测目标实例,然后将它们临时关联起来形成轨迹的问题。文章的工作主要是改善在线多目标跟踪(MOT)。具体来说,作者引入一个基于 region 的 Siamese Multi-Object Tracking 网络:SiamMOT,包括一个运动模型,该模型估计实例在两帧之间的运动。通过所提出的 Siamese 跟踪器的两个变体来探索运动建模是如何影响其跟踪能力的,其中一个是隐式运动模型,一个是显式运动模型。
作者在 MOT17、TAO-person 和 Caltech Roadside Pedestrians 这三个不同的 MOT 数据集上进行了广泛的定量实验。证明了运动建模对 MOT 的重要性以及 SiamMOT 可以大幅超越最先进水平的能力。SiamMOT 在 HiEve 数据集上的表现也超过了 ACM MM’20 HiEve 挑战的获胜者。此外,SiamMOT 在单个 GPU 上以 17 FPS 的速度运行 720P 视频。
这篇论文中,作者探索了以SORT为基础的一系列online多目标跟踪方法中运动建模的重要性。在SORT中,一个更好的运动模型是提高跟踪精度的关键,原始的SORT中采用基于简单几何特征的卡尔曼滤波进行运动建模,而最近的一些SOTA方法通过学习一个深度网络来基于视觉和几何特征进行位移预测,极大地提高了SORT的精度。
二、相关工作
2.1 单目标跟踪的孪生跟踪器(Siamese trackers)
基于Siamese的跟踪器在单目标跟踪(SOT)中达到了SOTA的水平,论文中提到的孪生跟踪器和通常所说的孪生网络是不一样的,孪生网络的目的是