【ECCV2022】SOMPT22: A Surveillance Oriented Multi-Pedestrian Tracking Dataset(SOMPT22数据集)


前言

论文地址:SOMPT22: A Surveillance Oriented Multi-Pedestrian Tracking Dataset

官网:SOMPT22

数据集下载链接:百度网盘 提取码:nw7v


摘要

近十年来,由于卷积神经网络(CNNs)在检测方面的成功,多目标跟踪(MOT)一直被使用基于检测的跟踪方法所主导,随着数据集和基准的发布,研究方向已经转向在包括跟踪对象的重新识别(reID)在内的通用场景中获得最佳精度,在本研究中,我们通过提供行人专用数据集,缩小了MOT的监视范围,并专注于深入分析性能良好的多目标跟踪器,以观察最先进(SOTA)技术在现实应用中的优缺点。

为此,我们引入了SOMPT22数据集;一套用于多人跟踪的新装置,配有注释的短视频,拍摄自安装在6-8米高的杆子上的静态摄像机,用于城市监控,与公共MOT数据集相比,这为户外监测提供了更集中和具体的MOT基准,在这个新数据集上,我们分析了MOT跟踪器分类为一次性和两级检测和reID网络的使用方式,我们的新数据集的实验结果表明,SOTA距离高效率还很远,单次跟踪器是统一快速执行和准确性与竞争性能的良好候选。

一、引言

多目标跟踪(MOT)是一种流行的计算机视觉问题,其重点是跟踪目标并提取其在不同场景下的轨迹,然后用于各种目的。MOT的输出可以预测物体的下一个位置,提取一些关于场景和物体行为的统计数据。检测是MOT中识别目标和确定轨迹的第一个阶段,也是最关键的阶段。MOT需要在几种场景中对有不同定义良好的对象类型进行跟踪,如行人、人脸、车辆、动物、飞机、血细胞、星星或任何由于背景运动而产生的变化。在现实世界中,由于环境条件、物体的物理特性/运动或拥挤性,被监控的物体可以在一段时间内改变能见度。可见性的变化以及多个对象的存在产生遮挡,对象/背景相似性,实例之间的交互。这些影响再加上光照变化等环境因素,为MOT在检测和跟踪阶段带来了共同的挑战和困难。

近年来,针对上述问题,不断有方法通过CNN提出。随着2014年第一届MOT挑战赛的出现,对MOT的研究也得到了广泛的关注。这个挑战包含带注释的视频,通过移动或静态摄像机捕捉的连续帧之间的对象(行人)边界框。在MOT挑战中,数据的多样性很大,包括在移动的车辆上捕捉到的视距视频,高层移动的视频,或在不同高度的固定监控摄像机。数据的这种变化限制了对最先进技术功能的理解,如前所述,摄像机的位置和场景对象的类型会改变场景。这些挑战要求MOT方法具有通用性,并能够在不同条件下跟踪车辆或行人。但是,MOT技术以及任何其他技术都应该针对每个场景进行优化,以获得最大的效率和较低的错误率,以适应实际使用。

在本文中,我们重点研究了静止和单摄像机在6-8米高度对行人进行监视的MOT挑战。通过这种方式,我们创建了一个新的数据集,并分析了该数据集中著名的MOT算法,以了解SOTA用于监视的性能。该方法有望通过进一步分析有限范围内半拥挤场景的运动行为和物体变化来优化MOT算法。公共MOT数据集通过增加帧密度来挑战MOT算法的检测和跟踪性能。另一方面,我们试图用更少的轨迹保持序列更长,从而在长期跟踪方面挑战MOT算法。本文在接下来的部分中继续讨论相关工作,总结了最近流行的MOT方法和数据集。

二、相关工作

在大多数视觉系统中,使连续帧之间的物体相互关联是一个常见的问题。这种时间关系为场景中的每个个体提供了一个ID,用于扩展关于对象的属性和行为以及场景统计信息的附加信息。通过这种方式,为对象分配ID并正确跟踪它是收集关于场景的高级推断的第一步。在本节中,我们总结了为MOT提出的方法(在行人跟踪的范围内),以及在现代CNN的训练和相对高性能中发挥关键作用的数据集。

2.1 MOT方法

MOT技术包括两个主要阶段:检测和关联,也就是跟踪。探测通过指示场景中物体类型的存在来确定跟踪的主要目的。一旦检测到对象,下一步就是对象的关联。在整个MOT文献中,使用了各种检测方法,包括移动物体检测,斑点检测,特征检测,预定义物体检测。直到过去十年,手工制作的特征和规则一直被用于检测场景中的物体。CNN凭借大量的标注对象和计算能力主导了智能目标检测,为机器学习提供了广泛的应用领域。

一旦在帧中检测到对象,就可以通过两种不同的方法来提供沿连续帧的关联:为每个对象分配单个对象跟踪,或者优化与在两个帧中检测到的所有对象相关的全局代价函数。第一种方法通过定义边界框、前景蒙版或稀疏特征来利用检测到的对象的表示。然后,沿着由对象的运动特性定义的搜索区域内的下一帧搜索这些表示。在这些类型的方法中,不需要对每一帧进行目标检测;相反,它以低频率执行,以用新的观测来更新轨迹。特征匹配、卡尔曼滤波、基于相关性的匹配是跟踪连续帧之间的表示的主要工具。

第二种跟踪利用对每一帧的检测,并根据它们的相似性(由位置、形状、外观等约束定义)将对象关联起来。联合概率数据关联过滤器(JPDAF)和匈牙利算法是目前应用最广泛的沿着连续帧提供一对一匹配的方法。通过这种方式,每帧独立提取的对象根据相似度标准进行匹配。随着CNN的改进,reID网络也被用于在连续帧中沿物体产生健壮的相似性。MOT文献最近关注的是第二种方法,即检测跟踪,其中利用CNN来检测每帧中的对象,并使用不同的方法提取对象相似性,这些方法被输入到矩阵中,矩阵表示包括行和列中的对象,一边用于跟踪对象,另一边用于新来者。匈牙利算法对相似矩阵进行匹配,得到了一对一的最优匹配。方法多根据矩阵的相似度公式进行区分,而对应搜索多采用匈牙利算法。TransTrack, TrackFormer, motor最近都尝试将注意力机制用于电影中的物体跟踪,目前的重点是将transformer用于视觉任务。在这些工作中,跨帧关联相同对象的查询使用先前的tracklet的特征传输到下面的帧。为了保持tracklet的一致性,查询中的外观信息也很重要。

2.2 数据集

具有真实注释的数据集对于目标检测和reID网络非常重要,它们构成了现代MOT技术的基本步骤。通过这种方式,我们简要总结了本研究范围内现有的人员检测和多目标跟踪数据集。在这两组中,边界框都被用来定义具有指示对象类型的标签的对象,如人脸、人或车辆。另一方面,目标检测数据集与多目标跟踪数据集之间存在明显的差异。首先,在目标检测数据集中,相邻帧之间不存在时空关系。其次,目标检测数据集中没有唯一的目标识别号。这些差异使得创建多目标跟踪数据集比创建目标检测数据集更具挑战性。

2.3 行人检测数据集

行人检测数据集的广泛使用可以追溯到2005年INRIA数据集。2009年,tutubrussels和DAIMLER两个数据集出现。这三个数据集增加了检测问题的结构化进展。然而,随着算法性能的提高,这些数据集被更多样化和更密集的数据集所取代,例如Caltech和KITTI。CityPersons和EuroCityPersons数据集以不同的国家、城市、气候和天气条件脱颖而出。尽管这些数据集普遍存在,但它们都存在低密度问题(每帧人不超过7个),人群场景的代表性明显不足。CrowdHuman和WiderPerson数据集弥补了这一缺陷,并将密度增加到22。最近,Panda数据集发布了,这是一个非常高分辨率(25k x 15k)的面向人类的检测和跟踪数据集,其中相对物体尺寸非常小。该数据集通过强大的处理器合并多个高分辨率图像,专注于非常广角的监视。另一个常见的监视数据集是Visdrone,它包括11种不同的对象类型,可以区分人类和各种车辆。该数据集由无人机捕获,其视角远高于监视,平台不断移动,并通过鸟瞰视图观察。表1显示了包含各种统计信息的数据集的摘要

行人检测数据集的比较
多目标跟踪数据集有一个涉及行人不同场景的多目标跟踪数据集的资料库。在自动驾驶方面,开创性的MOT基准是KITTI,它以边界框的形式为对象检测和跟踪提供标签。以视觉监控为中心的数据集中于密集的场景,在这些场景中,人们相互遮挡彼此和其他物体。pet是该应用领域的首批数据集之一。MOTChallenge在多目标跟踪方法的基准测试中发挥了核心作用。该挑战提供了一致标记的拥挤跟踪序列。MOT20通过增加帧密度来提高挑战的复杂性。MOT20引入了大量的包围框;然而,场景过于拥挤,运动方向是各种各样的,以对应真实的监控场景,包括广场和十字路口。最近发布的BDD100K数据集涵盖了不受约束场景下不同环境、天气和地理环境下的超过10万部视频。此外,CUHKSYSU、PRW、PathTrack及DanceTrack数据集亦提供多种多样的多目标追踪服务。这些数据集在静态/移动摄像机方面是多样化的;视平、高视角、低/高分辨率见表2

SOMPT22与其他流行的多目标跟踪数据集的比较

三、问题描述

如表2所示,由于驾驶技术的进步,现有的基准大多是在自动驾驶视角(眼位捕捉)内解决MOT问题。另一方面,监控是视频分析的基本应用之一,为城市设施安全、执法和智能城市应用提供服务。与大多数户外监控应用一样,摄像头位于高处,覆盖大面积进行观察和分析。与MOT中提供的常见数据集相比,静止高视角相机涉及不同的内容特征,包括复杂的投影几何效果,更大的区域覆盖,以及更长的但更慢的物体运动。因此,缩小MOT的范围,分析优化现有的监测方法是有益的。

在范围限制期间考虑要跟踪的对象类型也很重要。在监控中,现场下的目标主要有行人和车辆两种。行人具有不可预测的运动模式,以不同的方式与其他个体互动,产生各种遮挡类型,同时由于薄结构而显示出二维物体特征。另一方面,车辆通过可预测的(恒定速度-恒定加速度)运动模型沿着预定义的道路移动得更快,通过交通执法定义的某些规则干扰其他车辆,并且由于所有3个维度的厚度而遭受物体视点变化。这样,行人和车辆的运动模式和物体视点变化之间存在着显著的差异,这些差异对识别特征和跟踪约束产生了影响,这是绝对需要注意的。

由于覆盖范围广,摄像头位置高,行人视点变化明显,远处的物体可以正面观察,较近的物体在摄像头处有较高的倾斜角度。此外,物体的缓慢相对运动在场景中产生更长的轨迹,这就要求跟踪在很长一段时间内对各种视图变化具有健壮性。在这种类型的场景捕捉中,物体尺寸在图像分辨率方面变得更小,基于外观的诱惑物(类似人的结构,如树干、杆子、座位等)的数量增加,而视频涉及的运动与视线水平场景捕捉相比更少。因此,目标检测变得更加困难,需要特别注意离群值以及长轨迹的外观变化。此外,一致的相机定位可以在投影成像方面使用3D几何线索,其中可以利用几个假设,例如在平面场景中,离相机较近的物体就是遮挡器。除了检测方面的挑战外,特别是观察较长的物体运动为跟踪带来了新的问题,主要是由于物体运动或遮挡引起的地面照明和物体视点的变化。

从监视的角度约束MOT问题,我们提出了一个新的注释数据集,并尝试诊断最先进的MOT算法对行人的能力。如前所述,MOT是通过两个步骤实现的,检测和跟踪,我们也基于最近流行的技术来评估这两个步骤。SOTA一次性目标探测器可以分为两个:基于锚点的,例如Yolov3和无锚点的,例如CenterNet。当我们分析MOTChallenge基准测试中表现最好的20种MOT算法时,我们观察到这些算法是基于CenterNet/FairMOT或Yolo算法的。因此,我们决定围绕这些基本算法构建实验,以评估SOMPT22数据集中检测和跟踪的成功。

FairMOT和CenterTrack是基于CenterNet算法的两种一次性多目标跟踪器。FairMOT在主干之上添加了一个reID头,以提取人员嵌入。CenterTrack增加了一个位移头来预测人的中心的下一个位置。最常见的两种关联方法是SORT和DeepSORT。SORT使用IOU(Intersection over union)和卡尔曼滤波器作为检测与跟踪的关联准则。DeepSORT结合了被检测候选对象的深层特征,用于将检测与跟踪联系起来。三个一次性多目标跟踪器(CenterTrack, FairMOT和Yolov5 & SORT)和一个两阶段多目标跟踪器(Yolov5 & DeepSORT)被训练以基准跟踪性能。

四、SOMPT22 数据集

4.1 数据集构建

视频收集 为了获得用于MOT评估的监控视频,在全球范围内选择了位于6-8米高杆的7/24静态摄像机公开流媒体。这些国家包括意大利、西班牙、台湾、美国和罗马尼亚。这些摄像头主要观察广场和十字路口,那里的行人有多个移动方向。在一天的不同时间录制大约一分钟的视频,以产生各种环境条件。总共收集了14个视频,默认使用9个视频作为训练集,5个视频作为测试集。值得注意的是,行人的面部被模糊化,以一种不会显著影响行人检测和reID特征的方式进行匿名处理。我们进行了有人脸模糊和没有人脸模糊的目标检测测试,没有观察到基础算法有任何差异。

注释 使用Intel开源标注工具CVAT[15]对收集到的视频进行标注。注释是通过首先应用预训练的模型来进行粗略的检测和跟踪标签来实现的,然后由人工注释人员进行微调。带注释的标签包括边界框和标识符(唯一跟踪ID)在MOTChallenge格式的每个人。文件格式为CSV文本文件,每行包含一个对象的实例。每一行包含的信息包括frameID、trackID、左上角、宽度和高度。为了保证轨迹的连续性,只要部分遮挡和完全遮挡的对象再次出现在视频中,它们也会被注释。用超出屏幕尺寸的尺寸标注的边界框将被修剪以保持在图像内部。包围框还包括被遮挡的人的部分。

4.2 数据集统计

表2列出了现有数据集和建议数据集的一些重要统计数据。SOMPT22的密度为每帧37个行人,在MOT17和MOT20之间。就MOT20挑战数据集中的人数而言,MOT20是一个很大的进步。这是目前最密集的数据集。另一方面,MOT17和MOT20主要不是面向监视的数据集,而是在检测和遮挡方面挑战算法。特别是在MOT20中,视频是在拥挤的场合或地铁站里,人们下车时录制的。在这些视频中,行人的运动模式是不变的;每个视频都包含一个主方向,不同方向少得多。这不是监控录像里人的自然动作模式。相反,在SOMPT22数据集中,人们更自发地通过几乎覆盖每个方向的城市广场。
训练数据集中人员的MOT17、MOT20和拟SOMPT22统计数据

图1显示了MOT17、MOT20和提出的数据集的统计基准测试。虽然与MOT17和MOT20相比,SOMPT22的图像更多,但曲目数量最少。这表明,与SOMPT22相比,MOT17和MOT20的轨迹更短,序列更短。轨迹是图像识别系统所构建的运动物体所遵循的轨迹的一部分。这是一个预期的结果,面向监控的摄像头覆盖范围更大的视野范围,可以对每个个体进行更长的观察。SOMPT22提供了MOT数据集所缺乏的高视图数据集。通过这种方式,SOMPT22数据集在长期检测、识别和跟踪方面挑战了算法,这些算法需要对行人规模和视角的变化进行强大的适应。我们在SOMPT22训练序列上训练了一个介质模型骨干的YoloV5,得到了如表8所示的检测结果表3显示了单个序列上的检测包围框和注释统计信息的详细分解

SOMPT22数据集和检测包围框统计信息
在SOMPT22训练数据集上训练的YoloV5检测器性能概述

4.3 评价指标

多目标跟踪社区长期使用MOTA作为主要指标进行基准测试。这种测量方法结合了三种错误来源:误报、丢失目标和身份转换。然而,最近的结果显示,这个度量过于重视检测而不是关联质量,而关联质量过于重视检测质量。HOTA被提出来纠正这一历史偏差。HOTA是检测精度和关联精度的几何平均值,是在定位阈值上的平均值。在我们的基准测试中,我们使用HOTA作为主要性能度量。我们还使用AssAIDF1分数来衡量关联性能。AssA是Jaccard关联指数在所有匹配检测上的平均值,然后在定位阈值上的平均值。IDF1是正确识别的检测数与真实检测数和计算检测数的平均值之比。我们使用DetA和MOTA来检测质量。DetA是高于定位阈值的Jaccard检测指数。

在本文中,我们提出了一种新的多行人SOMPT22跟踪数据集。该数据集包含面向监控的视频序列,这些视频序列由公共流媒体城市摄像头捕获。其动机是揭示现有数据集中的偏差,这些数据集往往是在自动驾驶系统的视线高度上捕获的,或者是在高视角和拥挤场景中捕获的。我们认为,在严格约束的监控场景下,分析人们日常生活中复杂的运动模式的能力,对于构建更强大、更智能的跟踪器是必要的。SOMPT22提供了这样一个平台,以鼓励未来在这一想法上的工作。本地化的阈值。ID开关是标识开关的数量(ID开关比= #ID开关/召回)。算法的复杂度是根据处理成本(fps)来衡量的,仅包括跟踪步骤。fps值可能由作者使用非标准硬件配置提供,也可能不提供。MOTChallenge在评估过程中没有正式考虑算法报告的帧数。

五、实验

5.1 实验设置

表4描述了目标探测器、多目标跟踪器和关联算法的实验配置。从表1中可以看出,CrowdHuman是一个最近的行人检测数据集,图像的体积和密度都很大。我们在CrowdHuman数据集上对CenterTrack进行了预训练。FairMOT和YoloV5已经被各自的作者预先训练过了。利用在该数据集上预训练的模型参数来初始化探测器和跟踪器。然后,我们通过相应的240、90和90个epoch对所提出的SOMPT22火车数据集上的CenterTrack、FairMOT和YoloV5进行微调(迁移学习)。为了公平起见,我们在训练和推断阶段保持所有检测器和跟踪器的网络输入分辨率固定。我们在各自的源代码中遵循了检测器和跟踪器的训练协议。因此,每个对象检测器和跟踪器都有自己的预处理技术、数据增强过程、超参数调优过程以及接受的数据集注释格式,例如YoloV5的yolo, FairMOT的MOTChallenge和CenterTrack的COCO。DeepSORT算法有基于CNN的特征提取模块。本模块是在Market1501公共reID数据集上预训练的。所有算法都是在PyTorch框架上使用Python实现和执行的,其中一些算法由相应作者提供。推理实验在Intel i7-8700k CPU PC上进行,GPU为Nvidia GTX1080ti (11GB)。

算法与规格
检测跟踪技术是对每一帧进行独立的检测。我们使用卡尔曼滤波器和边界盒相交于并集作为所有跟踪器沿连续帧关联检测结果的初始阶段。实验跟踪器的进一步细节见表5。YoloV5目标探测器与DeepSORT算法合作构建了一个两级多目标跟踪器。YoloV5 & SORT, CenterTrack和FairMOT算法是三个一次性跟踪器,只有一个主干来提取物体的深层特征。由YoloV5和SORT算法级联形成的多目标跟踪器,由于关联是纯在CPU上进行的,所以被归为一次跟踪器。这三个多目标跟踪器以端到端方式训练。DeepSORT关联算法和FairMOT受益于reID特性,而CenterTrack和SORT仅完成没有reID特性的关联任务。CenterTrack利用检测框架内的附加头,提供位移预测。

MOT算法的关联方法

5.2 基准测试结果

在本节中,我们将根据HOTA和CLEAR指标以及推理速度来比较和对比上述四种跟踪器的性能,如表6所示。我们可以观察到,CenterTrack的检测性能(DetA)优于FairMOT,这可能是由于位移头提高了人的定位。另一方面,FairMOT的关联性能(AssA)优于CenterTrack,这得益于reID头,它为关联过程添加了强大的线索。与FairMOT相比,CenterTrack需要的计算源更少。从HOTA评分(即DetA和AssA的几何平均值)来看,YoloV5和SORT变体组合的检测效果明显优于其他技术。该结果的关键作用在于检测精度,其中YoloV5将检测提高了至少10%。DeepSORT和SORT方法的性能彼此相似,但有一定的预期偏差。DeepSORT在SORT的基础上增加了基于reID的对象补丁匹配,减少了80%的ID切换,同时增加了x2.5的计算复杂度。然而,使用reID表示会导致关联精度(AssA)的降低,这可能是由于长轨迹显著改变了外观。YoloV5是一个基于锚点的对象检测器。与使用无锚方法(如CenterTrack和FairMOT)相比,对锚组合的精细选择似乎可以在监控摄像机上带来更好的检测性能。这揭示了在MOT文献中最常见的方法——逐检测跟踪(track-by-detect)范式中检测的重要性。

在相机视角方面,MOT20是文献中与SOMPT22最相似的公共数据集。因此,我们在MOT20数据集上重复同样的实验来观察SOMPT22对MOT算法的贡献。表7给出了MOT算法在MOT20中的基准测试结果。比较结果与表6中给出的结果相似,其中YoloV5和(Deep)SORT方法表现更好。同样清楚的是,我们提出的数据集SOMPT22中的迁移学习提高了性能。

在SOMPT22测试集上对MOT算法进行微调前后的性能比较
SOMPT22优化前后MOT算法在MOT20动车组上的性能
如前所述,基于SORT的关联器和基于锚点的对象检测器YoloV5的组合性能优于一次性MOT算法。此外,检测性能对于整体跟踪是至关重要的。为了观察SOMPT22数据集对单独目标检测性能的贡献,我们在使用相同数据集进行微调后,在SOMPT22的测试集上评估YoloV5对象检测器。检测分数如表9所示。精密度和召回率分别计算为0.89和0.68,其中说明监控场景下的检测仍有改进的空间。监视中的问题是视野太广,导致小物体很难被发现。我们提供这些公共检测作为跟踪挑战的基线,以便跟踪器可以接受训练和测试。

在sompt22测试集上对YoloV5目标探测器的性能进行了评价
图2显示了YoloV5 & SORT方法在sompt22数据集上的一些成功和失败案例,其中绿色表示成功检测和跟踪,红色表示成功检测和跟踪。

一些成功和失败案例

六、总结

在本文中,我们提出了一个新的多行人跟踪数据集:SOMPT22。该数据集包含面向监控的视频序列,这些视频序列由公共流媒体城市摄像头捕获。其动机是揭示现有数据集中的偏差,这些数据集往往是在自动驾驶系统的眼平面上捕获的,或者是在高视角和拥挤场景中捕获的。我们认为,在严格约束的监控场景下,分析人们日常生活中复杂的运动模式的能力,对于构建更强大、更智能的跟踪器是必要的。

SOMPT22提供了这样一个平台,以鼓励未来在这一想法上的工作。sompt22中最常见的四种跟踪方法的基准测试表明,多目标跟踪问题仍然远远没有解决,HOTA得分最多为48%,需要在特定场景中使用启发式方法之前进行基本修改。

FairMOT和CenterTrack多目标跟踪器在跟踪任务的检测和关联部分表现出互补的性能。另一方面,YoloV5的改进检测和基于SORT的跟踪器优于关节跟踪器。此外,与DeepSORT相比,除了ID切换之外,SORT提供了更高的跟踪分数。这表明检测是更好跟踪的关键,需要特别注意将reID特性合并到SORT框架中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值