顶刊TIP 2025!北大&清华:多目标跟踪新方法和新数据集

021580e971a84aad7087f81bc21cabef.png

论文标题:TOPIC:A Parallel Association Paradigm for Multi-Object Tracking under Complex Motions and Diverse Scenes

论文地址:

https://ieeexplore.ieee.org/document/10851814

代码仓库:

https://github.com/holmescao/TOPICTrack

数据集主页:

https://holmescao.github.io/datasets/BEE24

TLDR: 受到蜂群复杂运动模式的启发,本文提出了一种融合运动与外观特征的并行关联跟踪新范式,并构建了一个极具挑战性的大规模基准数据集BEE24。

0. 效果展示

263d1c0d93e620752be3a0832d196584.gif

   

图1.1:TOPICTrack在BEE24数据集的跟踪结果

1ac99b24a8eaf8acf9a2ca6eb9c2d3d4.gif

   

图1.2:TOPICTrack在流行数据集上的跟踪结果

1. 导语

视频数据和算法的进步推动了多目标跟踪(MOT)领域的发展。现有的MOT数据集主要关注遮挡和外观相似性问题,而复杂的运动模式虽广泛存在,却常被忽视。为了解决这一问题,我们提出了一个新数据集——BEE24,旨在突出展示复杂的运动场景。BEE24特别具有挑战性,因为它要求跟踪多个外观相似且运动复杂的小蜜蜂,并且这些物体的运动持续时间较长,这十分贴近实际需求(如蜜蜂养殖和无人机群体监控)。

身份关联算法一直是MOT研究的核心。现有的跟踪算法大致可以分为两类:单特征范式(基于运动或外观特征)和串行范式(通过将一种特征作为主特征,另一种作为辅特征)。然而,这些传统范式无法充分利用不同特征之间的互补性。本文提出了一种全新的并行范式,并介绍了双轮并行匹配方法TOPIC。TOPIC能够结合运动和外观特征,并根据运动复杂度自适应选择最合适的特征作为匹配度量。此外,我们还设计了一个基于注意力机制的外观重建模块AARM,该模块能够重构外观特征嵌入,从而增强外观特征的表示能力。

综合实验结果表明,我们的方法在四个公开数据集以及BEE24上均取得了领先的性能表现。值得注意的是,我们提出的并行范式大幅超越了现有的关联范式。例如,与单特征关联范式相比,我们的方法能将错误负例减少6%至81%。

2. 背景与动机

多目标跟踪(MOT)是计算机视觉领域的重要子领域,广泛应用于机器人导航、智能监控和人机交互等多个领域。在MOT任务中,研究者们需要从视频帧中检测出感兴趣物体的位置,并将其身份跨帧关联起来。随着技术的不断进步,数据集的构建与算法优化成为推动多目标跟踪系统性能提升的关键。

2.1 数据集的局限性与突破

在现有的MOT数据集中,研究者通常采用两种主要的方式来应对不同场景的挑战:一是通过扩展场景多样性或物体类别,如GMOT-40数据集;二是关注特定挑战,如遮挡(如MOT17、MOT20数据集)或高相似度的外观(如DanceTrack数据集)。然而,这些数据集中的运动模式相对简单,多数物体的运动模式类似,且缺乏足够的变化性,这在实际应用中可能无法有效应对复杂的运动场景。例如,蜂群在蜂箱周围运动时,不仅会在飞行、爬行等多种模式之间频繁切换,而且其运动速度呈现出明显的非线性变化,如图2。

为了应对这种复杂运动的跟踪问题,我们提出了一个全新的数据集——BEE24,专注于展示复杂的运动模式。BEE24在两个关键方面丰富了数据特性:一是不同物体在同一帧内的运动差异,二是物体在帧间运动的显著变化。

7dd272f47ab7d6a9b1474988c69a86e4.png

图2:对比不同MOT数据集的特性

2.2 算法的局限性与突破

b3b7816624bd44c285bca5953018c796.png

   
图3:对比MOT算法的数据关联范式

许多现有的跟踪算法自2016年DeepSORT以来,都遵循了串行关联范式。该范式利用某一特征(如外观特征或运动特征)初步筛选候选匹配,再利用另一特征进行主匹配,如图3b。然而,这种方法未能充分利用不同特征的优势,且筛选过程可能导致跟踪的遗漏(即假阴性)。最近的研究如ByteTrack和OC-SORT采用了基于单一特征的关联范式(如图3a),单纯依赖运动特征。这种方法在某些数据集上的表现优于基于两个特征的串行范式,但由于检测器的差异,这些比较未必公平。

根据我们对不同特征表现的分析,低速场景下(如MOT17和DanceTrack),由于运动较简单,运动特征更有效;而在高速场景中(如BEE24和GMOT-40),复杂的非线性运动使得基于运动特征的模型面临挑战,这时外观特征的表现更佳。

考虑到上述不同特征在不同场景中的优势,直观的想法是将更多特征结合使用,从而提升性能。为此,我们提出了一个新的并行关联范式,并设计了TOPIC(Two rOund Parallel matchIng meChanism)方法来实现这一范式。TOPIC能够同时使用运动和外观特征作为匹配度量,并根据运动复杂度自适应选择最优特征,从而减少假阴性(FN)的出现。与传统的串行匹配范式相比,这种并行范式能够更有效地利用不同特征之间的互补性。

此外,我们还提出了一个基于注意力机制的外观重建模块(AARM),用于增强物体的外观特征表示,提高物体在多帧间的区分度。

3.  BEE24数据集简介

cf21e2939926292b49bf918c16b04076.png表1:对比MOT数据集统计特性

如表1所示,与现有的MOT数据集相比,BEE24在多个方面具有显著的优势和挑战:

  1. 复杂的运动模式:BEE24数据集的运动模式更加复杂,物体在同一帧内的运动差异较大(MMSAO),且单个物体的运动随时间变化大(MMSO)。这与许多现有数据集中的线性或低速运动形成鲜明对比,如图2和4。

  2. 小物体跟踪:BEE24中的蜜蜂是最小的目标之一,平均物体面积远小于GMOT-40等数据集中的物体,这增加了跟踪算法在小物体检测和跟踪方面的挑战。

  3. 大规模标注:数据集包含总计446,908个标注,最大视频时长达到200秒,单视频的标注数量和最大时长均超过了大部分现有数据集,尤其是在高密度场景下的跟踪任务中,BEE24为算法提供了更多挑战。

f7e01314ac9997ebb36571d6e9d792eb.png

图4:对比不同MOT数据集的运动复杂性

4. 算法简介

4.1 并行匹配范式:TOPIC方法

TOPIC的核心思想是同时利用运动特征和外观特征进行匹配,并通过两轮匹配机制解决可能的匹配冲突。在第一轮匹配中,通过匈牙利算法分别计算基于外观和基于运动的匹配结果。然后,对于冲突的匹配,TOPIC根据运动水平自适应地选择更可靠的特征进行最终匹配。这一机制有效减少了假阴性(FN),提高了整体的跟踪准确性。如算法1的伪代码所示。

0d5de9e2ab56da17ed74a7496db0670c.png

算法1:TOPIC方法的伪代码

4.2 基于注意力的外观重建模块:AARM

AARM采用基于余弦距离的注意力机制,通过计算历史轨迹和当前检测的相似性来增强外观特征的表示。通过这种方式,AARM能够改善同一物体在不同帧间的相似度,同时增强不同物体之间的区分度。

AARM的工作原理是,首先为每个目标计算出跨帧的注意力图,然后通过残差机制对外观特征进行重建,从而提升相同物体的相似性,并减少不同物体之间的混淆,如图5所示。此外,该模块无需训练且即插即用。

7e108deb6aa2d88830f62b25e20daf42.png

图5:AARM的原理图

5. 主要实验结果

为了验证提出方法的有效性和优越性,我们在MOT17、MOT20、DanceTrack、GMOT-40和BEE24共5个数据集和多个主流跟踪算法(如FairMOT、ByteTrack等)上进行了详尽的实验,主要的实验结果如下。

5.1 TOPIC的有效性

与其他关联范式相比,我们提出的TOPIC在5个数据集中的大多数关键指标上实现了1%以上的精度提升,如表2。通过可视化TOPIC的匹配机制(见图6),我们展示了其如何在不同的运动水平下,自适应地切换外观和运动特征,显著提升了复杂场景中的跟踪效果。

81de3c42c5eed8b3f8871353ca97ee69.png

表2:TOPIC和AARM的有效性验证实验

9285d99b0d043b9186690cced9ca0010.png

图6:TOPIC的匹配过程可视化

5.2 AARM的有效性

在对比实验中,我们发现AARM在不同跟踪器中均能够一致地显著提高跟踪性能,并能即插即用(见表2)。我们进一步揭示了AARM的在目标外观表征的能力,它在所有5个数据集上实现了最小的类间相似度(InterCS)和最高的类内相似度(IntraCS),降低了数据关联的难度,如图7。

670212a04e4ef0ce36984c2789fddac5.png

图7:对比不同跟踪器的外观表征能力

5.3 速度与精度的平衡

如图8所示,尽管引入Re-ID模块会略微增加计算时间,但其对跟踪精度的提升是显著的。特别是在运动复杂的场景中,TOPICTrack能够以更高的精度和较低的计算开销达到最佳的跟踪效果。

960e073bfc9af83c56916a01efab2746.png

图8:Re-ID模块对计算时间和精度的影响

5.4 基准测试

通过在5个数据集上的对比,TOPICTrack在多个关键指标上超越了主流算法,达到了新SOTA(见表3-7)。通过分析不同数据集的目标特性,我们发现TOPICTrack在处理复杂运动、遮挡以及外观相似度高的目标时,表现尤为突出。

720b04ce58c099c3c647816330c2fe2c.png

表3:与主流跟踪算法在MOT17测试集的性能对比

d3587a7e1d74d3b4120c4bfef414e7d7.png

表4:与主流跟踪算法在MOT20测试集的性能对比

0f07a8c74493b846eebac34f72e3ce48.png

表5:与主流跟踪算法在DanceTrack测试集的性能对比

d983d3295762f1668619459919d44d93.png

表6:与主流跟踪算法在GMOT-40测试集的性能对比

59c3d4b3994dbdb3a29ae9dc1ac4e543.png

表7:与主流跟踪算法在BEE24测试集的性能对比

6. 总结

在数据集特性扩展方面,本文提出了一种新的MOT数据集BEE24,该数据集挑战模型跟踪多个相似外观的小物体,且物体运动复杂、持续时间长。BEE24有助于推动MOT技术在现实场景中的应用与发展。在算法优化方面,我们提出了一种新的并行关联范式——TOPIC,能够根据物体的运动水平自适应选择外观或运动特征进行关联。同时,我们提出AARM,增强了跟踪器对物体外观的表示能力,并且能够即插即用。大量实验验证了我们提出的跟踪器在五个数据集上的有效性和优越性。

本文未对目标检测模型(采用YOLOX)和运动模型(采用OC-SORT)进行改进。因此,未来可以考虑进一步优化检测模型和运动模型,以提升跟踪性能。

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

图片

👆 长按识别,邀请您进群!

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值