走进Deep Sort系列(二)--《Multiple Object Tracking A Literature Review》翻译及理解

2019年7月13日
入门的第一步就是阅读文献并理解。
文献名称:《Multiple Object Tracking A Literature Review》
来源:https://arxiv.org/abs/1409.7618
参考中文翻译:https://blog.csdn.net/yuhq3/article/details/78742658
参考大佬阅读记:https://blog.csdn.net/yuhq3/article/details/78742658
正文:

摘 要

多目标跟踪这一课题具有很大的商业潜力和发展潜力,被广泛关注,本文从以下几点为这一课题做出贡献:
1)多目标跟踪系统的关键方向,包括公式(formulation),分类(categorization),关键原则(key principles),以及测评(evaluation);
2)根据现有技术所属的不同方向来进行讨论,再将每个方向的方法划分为成组,然后对组内方法的原则、优缺点进行讨论;
3)检验现有公开的实验并且总结在主流数据集上的实验结果,再进行量化地对比,与此同时指出分析中发现的几个有趣的问题;
4)提供在MOT研究中会遇到的问题的讨论,以及可能在以后的工作中会出现的潜在可研究方向。

1 介 绍

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个感兴趣的目标进行定位,并且维持他们的ID记录他们的轨迹。,这些目标可以是很多东西,比如行人,运动员,车辆,动物,微生物等,甚至也可以是一个单目标的不同部分。在本文中我们主要关注行人跟踪的研究,有如下三个原因:第一,与生活中其他物体相比,行人是典型的**非刚体目标,MOT的理想例子;第二,在实际应用中存在大量的含有行人的视频,这意味着巨大的商机;第三,据数据统计,至少70%的MOT研究都是针对行人的(商业价值)。
作为计算机视觉中的一项中级(mid-level)任务,多目标跟踪依赖于高级(high-level)任务(如姿态估计,动作识别和行为分析)。它有许多实际应用,如视频监控,人机交互和虚拟现实。这些实际需求引起了人们对这一话题的极大兴趣。
与之相对的,单目标跟踪(Single Object Tracking, SOT)主要集中在设计复杂的外观模型和/或运动模式,解决具有挑战性的问题如尺度变化,出平面旋转和光照变化,而多目标跟踪还有额外的两个任务需要解决:确定目标的数量(通常随时间变化),和维持各自的ID。除了SOT和MOT的共同问题外,MOT还需要处理更复杂的关键问题包括:1)频繁遮挡;2)轨道初始化和终止;3)相似的外观;4)多目标间的相互影响。为了解决所有这些问题,在过去的几十年里,人们提出了广泛的解决方案。这些解决方案集中在MOT系统的不同方面,使得MOT研究人员,特别是新手,很难对这个问题有全面的了解。因此,在本文中,我们提供了关于
多目标跟踪问题**各个方面的详细讨论。

1.1 与其他相关综述的不同

据我们所知,关于多目标跟踪的问题还没有一个全面的文献综述。然而,也有一些与多目标跟踪有关的其他文献资料,如表1所示。我们将这些文献分为三组,然后着重指出我们之间的差异如下:
第一类【1921】【2324】在将跟踪作为一个单独部分来讨论的同时,还详细讨论了MOT的各个方面。例如,将目标跟踪作为高级任务的过程中的一个步骤进行讨论,如人群建模【19】【2324】。类似地,在【2021】中,将目标跟踪划为行为识别【21】或视频监视系统【20】的一部分。
第二类【2528】专注于一般视觉追踪技术【2527】或一些特定的问题如外观模型【28】,但这类文献涉及范围更广。相反,本文更全面地关注多目标跟踪。
第三类【29~30】介绍并讨论一般视觉跟踪【29】和特定的多目标跟踪的基准(benchmark)【30】,他们更注重实验研究而不是文献综述
在这里插入图片描述

1.2 贡献

1.3 本文组织结构

1.4 外延符号(Denotations)

在这里插入图片描述

2 多目标跟踪问题(MOT)

本文首先给出了MOT的通用数学公式。然后,我们讨论了基于不同方面的可能分类

2.1 问题公式化

在过往研究中,MOT问题已经从不同的角度形成了不同公式,这使我们很难从高层的角度来理解这个问题。本文中,我们泛化了公式,并认为现有的研究可以由这些公式统一。据我们所知,这项尝试以前从未有过。
通常来说,多目标跟踪可以认为是多变量估计问题。给定一个图像序列 表示第t帧第i个目标的状态,表示在第t帧下所有目标Mt的状态序列,在这里插入图片描述表示第i个目标的状态序列,is,ie分别表示第i个目标出现的第1和最后一帧。在这里插入图片描述表示所有目标从第一帧到第t帧的状态序列。需要注意的是每一帧目标的ID都可能不同。相应的,在最常用的tracking-by-detection,或Detection Based Tracking(DBT)结构下,Oit表示第t帧第i个观测目标(observation),在这里插入图片描述表示在第t帧下所有目标的观测目标,在这里插入图片描述表示所有目标从第一帧到第t帧的观测目标序列。

多目标跟踪的目的是找到所有目标“最好的”状态序列,在所有观测目标的状态序列上的条件分布上,可以通过使用MAP(maximal a posteriori)估计法泛化建模得到:在这里插入图片描述以往研究中提到的不同MOT算法,其目的现在可以被认为是设计不同方法来解决上述的MAP问题。它们的方法要么是基于概率预测方面的【6】【3137】,要么是基于决策优化方面的【16】【3848】。
在这里插入图片描述

2.2 多目标跟踪分类(MOT Categorization)

由于难以使用一个通用的标准来对一个特定的MOT方法进行分类,所以我们使用多个标准来区分MOT方法。接下来将会根据三个标准划分:初始化方法、处理模式和输出类型。至于选择上述三种的原因是,这符合一个任务的自然流程。在这里插入图片描述

2.2.1 初始化方法

大多数现存的MOT研究可以根据目标如何初始化分为两类:Detection-Based Tracking(DBT)和Detection-Free Tracking(DFT)
DBT:如图1上层所示,首先检测目标,然后链接到轨迹中。这种策略也通常被称为“tracking-by-detection”。给定一个序列,在每帧中进行特定类型的目标检测或运动检测(基于背景建模)【50~51】,得到目标假设, 然后进行顺序或批量跟踪,将检测假设连接到轨迹中。有两个问题值得注意:*

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值