多无人机多目标跟踪Robust Multi-Drone Multi-Target Tracking to Resolve Target Occlusion: A Benchmark

摘要

多无人机多目标跟踪旨在协同检测和跟踪多个无人机中的目标,并关联来自不同无人机的对象身份,从而克服单无人机目标跟踪的缺点。为了解决多无人机多目标跟踪任务中身份关联和目标遮挡的关键挑战,我们收集了一个感知遮挡的多无人机多目标跟踪数据集,称为MDMT。该数据集包含88段视频序列,39,678帧,包括11,454个不同的ID(行人、自行车和汽车)。MDMT数据集包含2,204,620个边界框,其中543,444个边界框包含目标遮挡。我们还设计了一个多设备目标关联评分(MDA),作为评估多设备跟踪中跨视角目标关联能力的标准。此外,我们提出了用于多无人机多目标跟踪任务的多匹配身份认证网络(MIA-Net)。MIA-Net中的局部-全局匹配算法发现了跨无人机目标的拓扑关系,有效解决了跨无人机的关联问题,并通过多无人机视角映射的优势有效补充了被遮挡的目标。在MDMT数据集上的大量实验验证了我们提出的MIA-Net在身份关联和多目标跟踪任务中处理遮挡问题的有效性。

前言

高质量、大规模的数据集在开发基于无人机的先进、高效的目标检测和跟踪算法中起着重要作用。近年来,针对单无人机检测和跟踪收集了许多基准数据集,包括VisDrone、UAV123、UAVDT、DroneCrowd和DroneVehicle。然而,针对使用多架无人机的多目标检测和跟踪的数据集较少。因此,在这项工作中,我们构建了一个多无人机多目标跟踪(MDMT)数据集,结合了无人机和多摄像头多目标跟踪系统的优势。MDMT数据集包含88组视频片段,共计39,678帧高分辨率图像,由两架无人机拍摄。该数据集涵盖多个场景,包括城市道路、郊区道路、停车场等,拍摄时间从白天到晚上不等。在MDMT数据集中,共标注了2,204,620个目标,其中543,444个为被遮挡目标。据我们所知,这是迄今为止最大、最详细注释的多无人机多目标跟踪数据集。

与现有的多摄像头跟踪任务不同,单架无人机捕捉的密集目标具有较高的无人机内相似性,而无人机的高空倾斜视角使得跨无人机的相同目标难以关联。本文提出了多匹配身份认证网络(MIA-Net),使用跟踪与匹配策略,通过协调全局匹配和局部匹配来实现多个无人机之间的目标关联和跟踪。MIA-Net利用多无人机视角的互补信息,在遮挡场景中实现了鲁棒且准确的多目标跟踪。全局匹配利用整个图像的关键点信息进行匹配,而局部匹配通过多个无人机之间目标拓扑网络的映射关系进行匹配,这种方法简单且高效,能够精确匹配来自不同无人机的目标。

本文的主要贡献如下:

  1. 我们构建了一个具有遮挡属性的多无人机多目标跟踪数据集,称为MDMT。该数据集是首个且最大的多无人机多目标跟踪数据集,为多无人机多目标检测和跟踪方向的研究人员提供了重要的数据平台。
  2. 我们设计了一种新的多设备多目标跟踪评估指标——多设备目标关联评分(MDA),可用于评估多设备系统中目标跟踪方法的关联程度。该评估指标旨在激发研究人员设计更优越、高效的多设备多目标跟踪融合策略。
  3. 我们提出了一种基于跟踪与匹配策略的基线方法——多匹配身份认证网络(MIA-Net),用于解决多无人机协同多目标跟踪任务中的目标遮挡问题。我们在MDMT数据集上进行了大量实验,验证了MIA-Net在多目标跟踪和跨无人机目标关联中的有效性。

本文结构如下:第二部分介绍了相关工作,第三部分介绍了MDMT数据集及新评估指标MDA,第四部分详细介绍了MIA-Net。第五部分描述了大量实验,第六部分进行讨论,最后在第七部分总结了全文。

相关工作

A. 现有数据集

计算机视觉任务的性能在很大程度上依赖于现有的大规模高质量标注的数据集。近年来,提出了大量用于计算机视觉的基准数据集。目前的主要计算机视觉数据集主要集中在单摄像头上,例如Hsieh等人使用无人机拍摄的CARPK数据集[14],该数据集在停车场中收集了1,448张图像,并标注了大约90,000个边界框。DroneVehicle是首个基于无人机的RGB-红外数据集,值得注意的是,虽然DroneVehicle使用了两种类型的摄像头来收集数据,但该数据集更多地关注多模态融合中的目标检测。LaSOT [16]是一个大规模的单目标跟踪数据集,包含70个不同的目标类别和超过350万个边界框。随着无人机技术的发展,出现了许多基于无人机平台拍摄的数据集,例如UAV123和UAVDT-SOT。Patrick Dendorfer等人将MOT15 [20]、MOT16 [15]、MOT17 [15]和MOT20 [17]集成到MOTChallenge [21]中,该挑战赛将所有目标分类为12个类别。MOTChallenge包含丰富的目标和标注,已成为流行的多目标跟踪数据集之一。PETS2009 [22]包含从100张图像中剪切出的2,514个图像块,Campus [23]数据集是在校园内收集的包含8,250张行人图像的数据集。这两个数据集在重识别领域的早期阶段起到了关键作用。然而,这些数据集中数据量有限,无法满足深度学习对大规模数据的需求。

由于存在目标遮挡问题,近年来越来越多的研究人员通过使用多视角数据来缓解这一问题。Market-1501 [19]数据集是通过不同分辨率的多摄像机拍摄的,包含总共1,501个人物ID和32,668个边界框。DukeMTMC [1]数据集是一个大规模的多摄像头行人跟踪数据集,包含超过2,852,200帧和超过400万个边界框。NLPR MCT [2]数据集不包含遮挡目标,这使得该数据集不适合缓解重叠视角下的目标遮挡问题。类似于Market-1501和DukeMTMC数据集,NLPR MCT [2]和CityFlow [3]都使用固定摄像头,这意味着图像或视频中的背景几乎不会发生变化。MDOT [8]是一个基于多无人机平台的多无人机单目标跟踪数据集,包含总共259,793个边界框。为促进多无人机多目标跟踪的研究,解决目标遮挡问题,我们构建了MDMT数据集,这是一个大规模的多无人机多目标跟踪数据集,包含39,678帧视频,标注了11,454个ID,分为人物、自行车和汽车三类,共有2,204,620个边界框。

与表I中的现有数据集不同,MDMT数据集包含不同类型的遮挡场景,许多被遮挡的目标使得目标检测和跟踪极具挑战性。在MDMT中,同一目标同时出现在多个摄像机的视野中,这对于解决遮挡问题更加有帮助。DukeMTMC [1]数据集包含8台摄像机,其中两对摄像机有小重叠区域,大约有100人经过重叠区域,而其他摄像机之间没有重叠图像。NLPR MCT [2]数据集没有重叠视野,无法用于处理重叠视角下的遮挡问题。对于CityFlow [3],同一交叉口的一些摄像机有重叠图像。此外,MDMT适用于目标检测、目标跟踪、目标重识别以及图像匹配等多种任务。总体而言,与现有数据集相比,如图I所示,MDMT在各种任务中具有广泛的应用前景,将对多无人机协作环境感知的发展做出重大贡献。

B. 目标检测

深度学习时代的目标检测领域出现了爆发性发展,包括以Faster R-CNN [24]为代表的两阶段算法和以YOLO [25]为代表的一阶段算法。两阶段方法往往更准确,但速度较慢。相比之下,一阶段方法速度更快,但精度有限。为了获取关于目标的多尺度信息,Lin等人[26]提出了用于目标检测的特征金字塔网络,该网络从低级别到高级别获得语义信息。He等人[27]提出了RetinaNet,使用焦点损失通过抑制简单样本的权重并专注于难样本,来实现正负样本的平衡。在基于锚点的方法中,划分正负样本的IOU阈值难以确定。Cascade R-CNN [28]使用不同的IOU阈值并训练多个级联检测器,以获得更好的建议。IOU-Net [29]通过添加一个额外的IOU预测头,实现了更好的边界框回归性能。YOLOX [30]引入了无锚点策略到YOLO系列算法中,减少了计算量,并解决了正负样本平衡的问题。

随着Transformer在自然语言处理(NLP)领域取得突破[31],Dosovitskiy等人[32]证明了可以仅使用Transformer结构来解决视觉问题,无需传统神经网络。从那时起,Transformer被引入到视觉领域。DETR [33]是将目标检测任务与Transformer相结合的首个工作。它将目标检测任务视为图像到集合的问题,没有非最大抑制(NMS)和锚点等先验知识约束。它使用Transformer实现了端到端的目标检测任务。Swin Transformer [34]设计了一种分层采样结构,以获取不同级别的视觉特征,并在移位窗口上提取特征。视觉-语言预训练在下游视觉任务中也表现出良好的性能[35]、[36]、[37]。GLIP [38]将定位预训练和视觉语言预训练与目标检测任务结合,学习了更丰富的语义表示,取得了最先进的结果。

C. 多目标跟踪

多目标跟踪(MOT)是一项在视频序列中生成每个目标的跟踪轨迹的任务。它在视频监控、交通监测以及人群分析等方面有广泛的应用。基于深度学习的多种方法已被提出用于解决MOT任务,其中大多数可分为SDT(分离检测与跟踪)方法[39]、[40]、[41]、[42]、[43]、[44],其中检测模型用于检测图像中的所有目标。然后,跟踪模型通过计算目标的特征,将每个目标与轨迹关联起来。SORT [45]和DeepSort [46]、[47]是SDT方法的代表模型。SORT [45]使用了卡尔曼滤波器和匈牙利算法的简单组合作为跟踪组件。DeepSort [46]结合了外观信息,改进了SORT [45]的性能,使模型能够在更长的遮挡帧中跟踪目标并减少身份切换的次数。此外,[48]提出了一个深度对齐网络来学习检测的空间变换,从而获得更准确的结果,并设计了一个包含空间、运动和外观信息的代价矩阵,有助于更稳健的目标关联过程。最近,另一类MOT方法同时检测和跟踪,以端到端的方式出现。例如,FairMOT [49],一种JDE(联合学习检测器与嵌入)的方法,提出了一种基于无锚点目标检测器和重识别(Re-ID)的方法,并设计了一个详细的训练模型用于检测器和Re-ID过程的公平性。最近的CenterTrack [50]使用一对图像和前一帧的检测结果,预测它们与前一帧的关联并定位目标。尽管研究人员提出了不同的方法,但跨不同帧的目标关联仍然是一个具有挑战性的问题。Tracktor [44]通过使用边界框回归预测目标的坐标简化了数据关联过程,这意味着将检测器转换为Tracktor。ByteTrack [51]通过关联几乎所有的检测框而不是仅高分框,达到了MOT17基准中的最先进水平。

由于目标的遮挡和重新出现,误预测和ID切换是当前多目标跟踪领域需要解决的核心问题。除此之外,由于缺乏补充信息,单摄像头MOT在解决遮挡情况方面没有优势,一些先验预测总是在遮挡情况下执行[52]、[53]、[54]。相比之下,多视角图像直观地相互补充,克服了视角限制。

D. 多无人机多目标跟踪与多目标多摄像头跟踪

多无人机多目标跟踪(MDMTT)任务指的是生成使用来自不同视角的无人机拍摄的图像的多目标跟踪轨迹。与MDMTT相比,多目标多摄像头跟踪(MTMCT)已经得到了广泛的研究,唯一的区别在于图像的捕获方式。这个任务的主要难点在于如何建立从不同视角捕获的图像之间的关联,并构建一个融合多视角信息的模型以提升跟踪性能。

为了应对这些问题,许多研究者提出了各种方法,这些方法可以分为两类。Tracklet-to-tracklet 方法在每个摄像头内生成局部轨迹,然后在摄像头之间匹配轨迹以生成每个目标的完整轨迹。M. Bredereck等人[4]提出了一种基于似然函数的高效贪婪匹配算法来匹配轨迹。Xu等人[5]将多目标多摄像头跟踪重新定义为组合结构优化问题,并提出了一个分层组合模型。此外,[6]将跨摄像头轨迹匹配问题视为轨迹到目标分配问题,以将每个轨迹分配给一个唯一的目标。

MTMCT的另一个重要方法分支基于重识别(Re-ID)。Beyer等人[7]提出了一种将Re-ID与跟踪集成的理论原则方法,并将其形式化为最优贝叶斯滤波器。在[55]中,Ristani等人提出了一种自适应加权三元组损失用于参数优化,并设计了一种新的困难身份挖掘技术。他们的工作在DukeMTMC和DukeMTMC-reID [1]基准测试中在跟踪和Re-ID任务上超越了最先进的模型。

基于轨迹或Re-ID的传统方法在面对目标遮挡时几乎无能为力,而摄像头之间的视觉外观剧烈变化使得训练有效的Re-ID模型变得困难,因为类内和类间错误之间存在矛盾。在本文中,我们通过一种高效的图像匹配方法来处理这些问题,这种全局-局部最优匹配方法能够建立来自不同视角的图像之间的关联,并有效提升多无人机多目标跟踪任务的性能。

算法

A.

在本节中,我们介绍了一种高效的多匹配机制用于多无人机协同跟踪的跟踪模型。该架构的概述如图 4 所示。输入是来自 MDMT 的不同视角的图像序列。每个对应的帧对首先被放入相同的目标检测器中。然后,检测到的目标被输入到一个单无人机多目标跟踪器,该跟踪器将新的边界框与前一帧的缓冲 ID 确认边界框进行匹配。对于第一帧,我们直接从真实标签初始化它们,这个过程称为离线跟踪。这个初始化过程是可选的,因为可以用下面描述的全局匹配方法替代,以获得相同的效果。我们称不使用真实标签初始化第一帧为在线跟踪。

从独立跟踪结果 R1 和 R2 中,我们可以获取每个目标的身份信息及其边界框。随后,匹配模块包括两个主要策略,即局部匹配和全局匹配。如果 R1 和 R2 中匹配的目标数量超过四个,我们可以使用这些目标的中心作为关键点来计算当前帧对的透视变换矩阵 T,这种方法称为局部匹配。否则,我们使用 SIFT(尺度不变特征变换)[59] 算法在整个图像中提取兴趣点,然后使用 k 最近邻(KNN)[60] 进行匹配。类似地,匹配的 SIFT 点用于计算变换矩阵 T,我们称之为全局匹配。当我们得到变换矩阵 T 时,我们可以将一个图像中的未匹配目标映射到另一个图像中,当映射点足够接近于在另一个图像中被跟踪的目标时,与相同的 ID 进行关联。然后我们将 ID 信息更新到每个跟踪器的缓冲区中,当下一帧到来时,更新后的 ID 信息将被跟踪器使用,以保持每个目标的 ID 一致性。

得益于映射算法,我们还可以利用一个视角下的信息来补充其他视角中的被遮挡目标信息。作为 MOT 跟踪器的常规操作,低置信度的检测边界框被视为错误检测并被丢弃。在 MDMT 数据集中,遮挡经常发生,这对检测器提出了巨大的挑战,并使跟踪结果变差。因此,提出的架构可以有效而高效地在多无人机视角下跟踪目标,而使该架构能够工作的关键点是匹配和 ID 分配机制,我们将在以下部分详细解释。
在这里插入图片描述

B. 局部最优匹配子网

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大泽泽的小可爱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值