出处:CVPR2021.5.25
单位:亚马逊
一、介绍
多目标跟踪是检测目标实例,然后将它们临时关联起来形成轨迹的问题。文章的工作主要是改善在线多目标跟踪(MOT)。具体来说,作者引入一个基于 region 的 Siamese Multi-Object Tracking 网络:SiamMOT,包括一个运动模型,该模型估计实例在两帧之间的运动。通过所提出的 Siamese 跟踪器的两个变体来探索运动建模是如何影响其跟踪能力的,其中一个是隐式运动模型,一个是显式运动模型。
作者在 MOT17、TAO-person 和 Caltech Roadside Pedestrians 这三个不同的 MOT 数据集上进行了广泛的定量实验。证明了运动建模对 MOT 的重要性以及 SiamMOT 可以大幅超越最先进水平的能力。SiamMOT 在 HiEve 数据集上的表现也超过了 ACM MM’20 HiEve 挑战的获胜者。此外,SiamMOT 在单个 GPU 上以 17 FPS 的速度运行 720P 视频。
这篇论文中,作者探索了以SORT为基础的一系列online多目标跟踪方法中运动建模的重要性。在SORT中,一个更好的运动模型是提高跟踪精度的关键,原始的SORT中采用基于简单几何特征的卡尔曼滤波进行运动建模,而最近的一些SOTA方法通过学习一个深度网络来基于视觉和几何特征进行位移预测,极大地提高了SORT的精度。
二、相关工作
2.1 单目标跟踪的孪生跟踪器(Siamese trackers)
基于Siamese的跟踪器在单目标跟踪(SOT)中达到了SOTA的水平,论文中提到的孪生跟踪器和通常所说的孪生网络是不一样的,孪生网络的目的是学习两个实例之间的亲和度函数,而本文的孪生跟踪器则学习一个匹配函数,该函数用于在一个较大的上下文区域内找到一个匹配的检测框。
2.2 多目标跟踪的跟踪检测
目前大多数的多目标跟踪采用 “tracking-by-detection”的范式,首先在每一帧中检测到物体实例,然后根据它们的视觉连贯性和时空一致性在时间上进行关联。一些工作侧重于学习新的功能来使得短期关联更具有鲁棒性,另一些则专注于学习如何通过优化局部连通图来输出时间上更一致的长期轨迹。
-
在线跟踪(Online MOT)
在线MOT是指在不知道未来帧的情况下,动态地执行实例关联,因此,在线MOT更关注准确的局部关联,而不是全局最优关联。典型代表:SORT。文章提出的SiamMOT是基于SORT的,并探索了如何提高它的跟踪性能。 -
Motion modelling in SORT
原始的SORT:只在其运动模型中使用轨迹的几何特征(位置、box shape等)来跨帧跟踪位置。
本文在SORT的基础上进行运动建模,来提高跟踪精度。
三、孪生多目标跟踪(SiamMOT)
SiamMOT是基于Faster R-CNN构建的,Faster R-CNN是一个非常流行的目标检测器,它包含一个区域推荐网络(RPN)和一个基于区域的检测网络。在标准的Faster R-CNN上,SiamMOT添加了一个基于区域的孪生跟踪器来建模实例级别的运动,下图是整个SiamMOT的框架结构。
faster RCNN:
ROI pooling:
Fast R-CNN应用了两次量化。第一次在映射过程中,第二次在池化过程中。
ROI Align:
3.1 Motion modelling with Siamese tracker
3.2 隐式运动模型(IMM)
3.3 显示运动模型(EMM)
EMM 在两个方面改进了 IMM 设计。首先,它使用与通道无关的相关操作来允许网络显式地学习连续帧中相同实例之间的匹配函数。其次,它实现了一种更细粒度的像素级监督机制,这对于减少与干扰项错误匹配的情况很重要。
损失函数由三部分构成,文章在Faster R-CNN的基础上添加了一个运动预测损失,对多个样本区域累计求和。
四、实验
4.1 数据集
MOT17、TAO-person、Caltech Roadside Pedestrians (CRP)
同时还对3个数据集的运动偏移量进行了统计:
4.2 实验结果
五、总结
文章通过引入单目标跟踪中的孪生结构和改善sort中的运动模型,设计了基于区域的在线多目标跟踪网络SiamMOT。