走进Deep Sort系列（二）--《Multiple Object Tracking A Literature Review》翻译及理解

最新推荐文章于 2024-05-13 19:46:47 发布

听我的错不了

最新推荐文章于 2024-05-13 19:46:47 发布

阅读量8.3k

点赞数

分类专栏：计算机视觉文章标签：多目标跟踪文献翻译

本文链接：https://blog.csdn.net/weixin_45032769/article/details/95749630

版权

2019年7月13日
入门的第一步就是阅读文献并理解。
文献名称：《Multiple Object Tracking A Literature Review》
来源：https://arxiv.org/abs/1409.7618
参考中文翻译：https://blog.csdn.net/yuhq3/article/details/78742658
参考大佬阅读记：https://blog.csdn.net/yuhq3/article/details/78742658
正文：

摘要

多目标跟踪这一课题具有很大的商业潜力和发展潜力，被广泛关注，本文从以下几点为这一课题做出贡献：
1）多目标跟踪系统的关键方向，包括公式(formulation)，分类(categorization)，关键原则(key principles)，以及测评(evaluation)；
2）根据现有技术所属的不同方向来进行讨论，再将每个方向的方法划分为成组，然后对组内方法的原则、优缺点进行讨论；
3）检验现有公开的实验并且总结在主流数据集上的实验结果，再进行量化地对比，与此同时指出分析中发现的几个有趣的问题；
4）提供在MOT研究中会遇到的问题的讨论，以及可能在以后的工作中会出现的潜在可研究方向。

1 介绍

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个感兴趣的目标进行定位，并且维持他们的ID、记录他们的轨迹。，这些目标可以是很多东西，比如行人，运动员，车辆，动物，微生物等，甚至也可以是一个单目标的不同部分。在本文中我们主要关注行人跟踪的研究，有如下三个原因：第一，与生活中其他物体相比，行人是典型的**非刚体目标，MOT的理想例子；第二，在实际应用中存在大量的含有行人的视频，这意味着巨大的商机；第三，据数据统计，至少70%的MOT研究都是针对行人的（商业价值）。
作为计算机视觉中的一项中级(mid-level)任务，多目标跟踪依赖于高级(high-level)任务（如姿态估计，动作识别和行为分析）。它有许多实际应用，如视频监控，人机交互和虚拟现实。这些实际需求引起了人们对这一话题的极大兴趣。
与之相对的，单目标跟踪(Single Object Tracking, SOT)主要集中在设计复杂的外观模型和/或运动模式，解决具有挑战性的问题如尺度变化，出平面旋转和光照变化，而多目标跟踪还有额外的两个任务需要解决：确定目标的数量（通常随时间变化），和维持各自的ID。除了SOT和MOT的共同问题外，MOT还需要处理更复杂的关键问题包括：1）频繁遮挡；2）轨道初始化和终止；3）相似的外观；4）多目标间的相互影响。为了解决所有这些问题，在过去的几十年里，人们提出了广泛的解决方案。这些解决方案集中在MOT系统的不同方面，使得MOT研究人员，特别是新手，很难对这个问题有全面的了解。因此，在本文中，我们提供了关于多目标跟踪问题**各个方面的详细讨论。

1.1 与其他相关综述的不同

据我们所知，关于多目标跟踪的问题还没有一个全面的文献综述。然而，也有一些与多目标跟踪有关的其他文献资料，如表1所示。我们将这些文献分为三组，然后着重指出我们之间的差异如下：
第一类【19_21】【2324】在将跟踪作为一个单独部分来讨论的同时，还详细讨论了MOT的各个方面。例如，将目标跟踪作为高级任务的过程中的一个步骤进行讨论，如人群建模【19】【23_{24】。类似地，在【20}21】中，将目标跟踪划为行为识别【21】或视频监视系统【20】的一部分。
第二类【25_{28】专注于一般视觉追踪技术【25}27】或一些特定的问题如外观模型【28】，但这类文献涉及范围更广。相反，本文更全面地关注多目标跟踪。
第三类【29~30】介绍并讨论一般视觉跟踪【29】和特定的多目标跟踪的基准(benchmark)【30】，他们更注重实验研究而不是文献综述。
在这里插入图片描述

1.2 贡献

1.3 本文组织结构

1.4 外延符号(Denotations)

在这里插入图片描述

2 多目标跟踪问题（MOT）

本文首先给出了MOT的通用数学公式。然后，我们讨论了基于不同方面的可能分类

2.1 问题公式化

在过往研究中，MOT问题已经从不同的角度形成了不同公式，这使我们很难从高层的角度来理解这个问题。本文中，我们泛化了公式，并认为现有的研究可以由这些公式统一。据我们所知，这项尝试以前从未有过。
通常来说，多目标跟踪可以认为是多变量估计问题。给定一个图像序列表示第t帧第i个目标的状态，表示在第t帧下所有目标Mt的状态序列，在这里插入图片描述表示第i个目标的状态序列，is，ie分别表示第i个目标出现的第1和最后一帧。表示所有目标从第一帧到第t帧的状态序列。需要注意的是每一帧目标的ID都可能不同。相应的，在最常用的tracking-by-detection，或Detection Based Tracking(DBT)结构下，Oit表示第t帧第i个观测目标(observation)，在这里插入图片描述表示在第t帧下所有目标的观测目标，表示所有目标从第一帧到第t帧的观测目标序列。

多目标跟踪的目的是找到所有目标“最好的”状态序列，在所有观测目标的状态序列上的条件分布上，可以通过使用MAP(maximal a posteriori)估计法泛化建模得到：在这里插入图片描述以往研究中提到的不同MOT算法，其目的现在可以被认为是设计不同方法来解决上述的MAP问题。它们的方法要么是基于概率预测方面的【6】【31_{37】，要么是基于决策优化方面的【16】【38}48】。

2.2 多目标跟踪分类(MOT Categorization)

由于难以使用一个通用的标准来对一个特定的MOT方法进行分类，所以我们使用多个标准来区分MOT方法。接下来将会根据三个标准划分：初始化方法、处理模式和输出类型。至于选择上述三种的原因是，这符合一个任务的自然流程。在这里插入图片描述

2.2.1 初始化方法

大多数现存的MOT研究可以根据目标如何初始化分为两类：Detection-Based Tracking(DBT)和Detection-Free Tracking(DFT)
DBT：如图1上层所示，首先检测目标，然后链接到轨迹中。这种策略也通常被称为“tracking-by-detection”。给定一个序列，在每帧中进行特定类型的目标检测或运动检测（基于背景建模）【50~51】，得到目标假设，然后进行顺序或批量跟踪，将检测假设连接到轨迹中。有两个问题值得注意：*

最低0.47元/天解锁文章

听我的错不了

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
走进Deep Sort系列（二）--《Multiple Object Tracking A Literature Review》翻译及理解

多目标跟踪这一课题具有很大的商业潜力和发展潜力，被广泛关注，本文从以下几点为这一课题做出贡献： 1）多目标跟踪系统的关键方向，包括公式(formulation)，分类(categorization)，关键原则(key principles)，以及测评(evaluation)； 2）根据现有技术所属的不同方向来进行讨论，再将每个方向的方法划分为成组，然后对组内方法的原则、优缺点进行讨论； 3）检验现有公开的实验并且总结在主流数据集上的实验结果，再进行量化地对比，与此同时指出分析中发现的几个有
复制链接

扫一扫