SiamMOT: Siamese Multi-Object Tracking（论文阅读笔记）

今天学习了嗷

已于 2024-06-02 09:42:35 修改

阅读量1.6k

点赞数 5

分类专栏：论文阅读笔记文章标签：机器学习深度学习

于 2021-09-29 16:22:51 首次发布

本文链接：https://blog.csdn.net/wjytbest/article/details/120516627

版权

论文阅读笔记专栏收录该内容

20 篇文章 10 订阅

订阅专栏

在这里插入图片描述
出处：CVPR2021.5.25
单位：亚马逊

一、介绍

多目标跟踪是检测目标实例，然后将它们临时关联起来形成轨迹的问题。文章的工作主要是改善在线多目标跟踪（MOT）。具体来说，作者引入一个基于 region 的 Siamese Multi-Object Tracking 网络：SiamMOT，包括一个运动模型，该模型估计实例在两帧之间的运动。通过所提出的 Siamese 跟踪器的两个变体来探索运动建模是如何影响其跟踪能力的，其中一个是隐式运动模型，一个是显式运动模型。

作者在 MOT17、TAO-person 和 Caltech Roadside Pedestrians 这三个不同的 MOT 数据集上进行了广泛的定量实验。证明了运动建模对 MOT 的重要性以及 SiamMOT 可以大幅超越最先进水平的能力。SiamMOT 在 HiEve 数据集上的表现也超过了 ACM MM’20 HiEve 挑战的获胜者。此外，SiamMOT 在单个 GPU 上以 17 FPS 的速度运行 720P 视频。

这篇论文中，作者探索了以SORT为基础的一系列online多目标跟踪方法中运动建模的重要性。在SORT中，一个更好的运动模型是提高跟踪精度的关键，原始的SORT中采用基于简单几何特征的卡尔曼滤波进行运动建模，而最近的一些SOTA方法通过学习一个深度网络来基于视觉和几何特征进行位移预测，极大地提高了SORT的精度。

二、相关工作

2.1 单目标跟踪的孪生跟踪器（Siamese trackers）

基于Siamese的跟踪器在单目标跟踪（SOT）中达到了SOTA的水平，论文中提到的孪生跟踪器和通常所说的孪生网络是不一样的，孪生网络的目的是学习两个实例之间的亲和度函数，而本文的孪生跟踪器则学习一个匹配函数，该函数用于在一个较大的上下文区域内找到一个匹配的检测框。

2.2 多目标跟踪的跟踪检测

目前大多数的多目标跟踪采用 “tracking-by-detection”的范式，首先在每一帧中检测到物体实例，然后根据它们的视觉连贯性和时空一致性在时间上进行关联。一些工作侧重于学习新的功能来使得短期关联更具有鲁棒性，另一些则专注于学习如何通过优化局部连通图来输出时间上更一致的长期轨迹。
在这里插入图片描述

在线跟踪（Online MOT）
在线MOT是指在不知道未来帧的情况下，动态地执行实例关联，因此，在线MOT更关注准确的局部关联，而不是全局最优关联。典型代表：SORT。文章提出的SiamMOT是基于SORT的，并探索了如何提高它的跟踪性能。
Motion modelling in SORT
原始的SORT：只在其运动模型中使用轨迹的几何特征(位置、box shape等)来跨帧跟踪位置。
本文在SORT的基础上进行运动建模，来提高跟踪精度。

三、孪生多目标跟踪（SiamMOT）

SiamMOT是基于Faster R-CNN构建的，Faster R-CNN是一个非常流行的目标检测器，它包含一个区域推荐网络（RPN）和一个基于区域的检测网络。在标准的Faster R-CNN上，SiamMOT添加了一个基于区域的孪生跟踪器来建模实例级别的运动，下图是整个SiamMOT的框架结构。
在这里插入图片描述
faster RCNN：

ROI pooling：
Fast R-CNN应用了两次量化。第一次在映射过程中，第二次在池化过程中。

ROI Align：