code:未开源
paper:[2408.09178] MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model
背景
- 研究问题:这篇文章要解决的问题是多目标跟踪(MOT)中的复杂运动模式和非线性运动问题,特别是在舞蹈和体育场景中的跟踪效果不佳。
- 研究难点:该问题的研究难点包括:物体在舞蹈和体育场景中的复杂和非线性运动模式、遮挡导致的轨迹中断以及传统卡尔曼滤波器在预测非线性运动时的局限性。
- 相关工作:该问题的研究相关工作有:基于检测的跟踪方法(如SORT、DeepSORT等)、传统的卡尔曼滤波器、LSTM和Transformer等序列建模方法,以及状态空间模型(SSMs),特别是Mamba模型。
方法
这篇论文提出了MambaTrack,一种基于状态空间模型的简单基线方法,用于解决多目标跟踪中的复杂运动模式和非线性运动问题。具体来说,
实验
-
Mamba运动预测器(MTP):首先,提出了一个数据驱动的运动预测器,称为Mamba运动预测器(MTP)。MTP通过捕捉物体的时空位置动态信息,使用双Mamba编码层来编码运动信息,并预测物体的下一个运动。MTP的输入是物体轨迹的历史运动信息,输出是物体在下一帧的边界框偏移量。
-
轨迹补丁模块(TPM):其次,为了应对由于遮挡或运动模糊导致的物体丢失问题,提出了一个轨迹补丁模块(TPM)。TPM通过自回归方式利用MTP的预测结果来补偿缺失的观测点,从而重新建立丢失的轨迹。具体来说,TPM在自回归过程中,将MTP的预测结果作为输入,继续预测物体的未来边界框。
-
整体架构:最后,提出的MambaTrack通过二分匹配法进行跟踪。首先,基于预测的边界框和当前帧的检测结果进行匹配;然后,对于丢失的轨迹,通过TPM模块进行自回归预测,并与当前帧的检测结果进行匹配。
- 数据集:在DanceTrack和SportsMOT两个数据集上进行评估。DanceTrack数据集包含40个训练视频、25个验证视频和35个测试视频,主要用于评估在复杂舞蹈场景中的跟踪效果。SportsMOT数据集包含45个训练视频、45个验证视频和150个测试视频序列,主要用于评估在体育场景中的跟踪效果。
- 评估指标:采用了一系列评估指标,包括HOTA(高阶跟踪精度)、IDF1(身份一致性分数)、AssA(关联精度)、MOTA(多目标跟踪准确率)、FP(误报)、FN(漏报)和IDs(身份切换)等。
- 实现细节:使用预训练的YOLOX检测器获取检测结果,双Mamba编码层包含3个双Mamba块,输入令牌维度设置为512,最大回溯时间窗口设置为10,批量大小为64。使用Adam优化器进行训练,学习率按照公式线性增加。
结果
这篇论文提出了一种基于状态空间模型的在线运动跟踪器MambaTrack,通过引入Mamba运动预测器和轨迹补丁模块,有效解决了多目标跟踪中的复杂运动模式和非线性运动问题。实验结果表明,MambaTrack在DanceTrack和SportsMOT数据集上均取得了最先进的性能,特别是在处理复杂舞蹈和体育场景中的跟踪问题上表现出色。该方法为基于运动的跟踪算法提供了一个简单的基线,促进了进一步的研究和发展。
- DanceTrack测试集:在DanceTrack测试集上,MambaTrack在HOTA指标上领先了2.2个百分点,IDF1指标上领先了3.2个百分点,AssA指标上领先了7.8个百分点。这些结果表明,MambaTrack在处理复杂舞蹈场景中的非线性运动和遮挡问题上表现出色。
- SportsMOT测试集:在SportsMOT测试集上,MambaTrack在HOTA指标上领先了近10个百分点,IDF1指标上领先了3个百分点,AssA指标上领先了9.1个百分点。这些结果表明,MambaTrack在处理体育场景中的快速和多样化运动问题上表现优异。
- 消融实验:通过消融实验验证了MTP和TPM的有效性。与基线方法相比,MTP在所有指标上均显著提高了性能,HOTA指标提高了9个百分点,IDF1和AssA指标分别提高了3.6和7.8个百分点。TPM模块进一步提高了轨迹一致性的相关指标,IDF1和AssA指标分别提高了1.6和0.7个百分点。
创新
- 引入数据驱动的运动预测器:论文提出了一种名为Mamba moTion Predictor (MTP)的数据驱动运动预测器,旨在模拟复杂场景中的多样化运动模式。
- 自回归轨迹修补模块:为了应对由于遮挡或运动模糊导致的轨迹丢失问题,论文提出了一个轨迹修补模块,通过自回归方式利用MTP的预测结果来重新建立丢失的轨迹。
- 在复杂舞蹈和体育场景中的有效性:所提出的在线跟踪器MambaTrack在DanceTrack和SportsMOT基准测试中表现出色,特别是在处理复杂运动和严重遮挡的场景中。
- 使用状态空间模型(SSM):论文利用了Mamba架构,这是一种结合了选择性机制的SSM,能够有效地捕捉序列数据中的重要部分。
- 实验验证:实验结果表明,MTP在预测未来空间位置方面比基于运动的跟踪器(如SORT和ByteTrack)表现更好,并且在复杂场景中表现优于依赖外观信息的跟踪器。
不足
- 局限性:论文提到,尽管MambaTrack在复杂场景中表现优异,但在简单场景中可能不如一些经典方法高效。未来的工作可以进一步优化模型以适应更多类型的场景。
- 下一步工作:论文建议未来的研究可以进一步探索和改进基于运动的跟踪算法,特别是针对简单场景的性能提升。
关键问题
问题1:Mamba运动预测器(MTP)是如何设计的?其核心组件有哪些?
Mamba运动预测器(MTP)通过捕捉物体的时空位置动态信息,使用双Mamba编码层来编码运动信息,并预测物体的下一个运动。MTP的设计包括以下核心组件:
通过这些组件,MTP能够有效地建模物体的非线性运动模式,并准确预测其在下一帧的位置。
问题2:轨迹补丁模块(TPM)是如何利用Mamba运动预测器(MTP)来补偿遮挡或运动模糊导致的物体丢失的?
轨迹补丁模块(TPM)通过自回归方式利用Mamba运动预测器(MTP)来补偿遮挡或运动模糊导致的物体丢失。具体步骤如下:
这种方法确保了即使在物体短暂消失或被遮挡的情况下,也能够通过历史数据和预测结果重建其轨迹,从而提高跟踪的连贯性和准确性。
问题3:MambaTrack在DanceTrack和SportsMOT数据集上的实验结果如何?与其他方法相比有何优势?
DanceTrack测试集:
在关键指标高阶跟踪准确率(HOTA)上,MambaTrack领先于其他最先进的方法,提升了2.2个百分点。在IDF1(身份一致性)、关联准确率(AssA)和MOTA等指标上,MambaTrack也表现出色,分别提升了3.2、7.8和9个百分点。这些结果表明,MambaTrack在处理复杂舞蹈场景中的复杂和非线性运动模式方面具有显著优势。
SportsMOT测试集:
在所有指标上,MambaTrack均优于仅依赖运动信息的跟踪算法。例如,与ByteTrack相比,MambaTrack在HOTA指标上提升了近10个百分点,在IDF1和AssA指标上分别提升了3个百分点和9.1个百分点。与增强的卡尔曼滤波器(OC-SORT)相比,MambaTrack也表现出更高的性能,进一步验证了其在复杂运动场景中的有效性。
总体而言,MambaTrack通过引入Mamba运动预测器和轨迹补丁模块,有效解决了多目标跟踪中的复杂运动模式和非线性运动问题,在DanceTrack和SportsMOT数据集上均取得了最先进的性能,验证了其有效性和鲁棒性。
- 输入嵌入层:将物体轨迹的历史动态信息作为输入,并通过线性变换得到一系列输入时间令牌。
- 双Mamba编码层:包含多个(如3个)双Mamba块,每个双Mamba块包含一个前向Mamba模块和一个后向Mamba模块。每个Mamba模块通过选择性状态空间模型(SSM)来捕捉序列数据中的重要部分。
- 预测头:在双Mamba编码层处理后,通过平均池化层聚合信息,并使用两个全连接层预测物体轨迹的下一帧边界框偏移量。
- 初始状态:在轨迹丢失的情况下(即物体在当前帧没有新的检测结果),TPM会利用上一次预测的边界框作为当前帧的实际观测点。
- 自回归预测:基于上一次预测的边界框,TPM继续使用MTP预测物体的未来位置。这一步骤是自回归的,即每次预测都依赖于前一次的预测结果。
- 轨迹重建:通过多次自回归预测,TPM能够逐步重建丢失的轨迹,直到达到一定的预测稳定性或达到设定的最大预测次数。