多假设跟踪与预测：缓解级联错误提升自动驾驶性能-CSDN博客

本文链接：https://blog.csdn.net/weixin_43889128/article/details/121039466

摘要

最近，在开发标准感知规划机器人自主管道的每个单独模块方面取得了巨大进展，包括检测、跟踪、预测其他智能体的轨迹，以及自我智能体的轨迹规划。然而，很少有人关注这些组件的原则性集成，特别是在级联错误的表征和缓解方面。本文通过关注跟踪和预测模块之间的耦合来解决级联错误的问题。首先，通过使用最先进的跟踪和预测工具，我们对跟踪产生的严重错误对预测性能的影响进行了全面的实验评估。在 KITTI 和 nuScenes 数据集上，我们发现使用跟踪轨迹作为输入的预测（实践中的典型情况）与理想化设置相比，性能会出现显着（甚至是数量级）下降，其中真实的过去轨迹用作输入。为了解决这个问题，我们提出了一个多假设跟踪和预测框架。我们的框架不是依赖单组跟踪结果进行预测，而是同时对多组跟踪结果进行推理，从而增加将准确跟踪结果作为预测输入的可能性。我们表明，该框架在 nuScenes 数据集上将标准单假设跟踪预测管道的整体预测性能提高了 34.2%，当将评估限制为涉及身份的具有挑战性的场景时，甚至有更显着的改进（高达 ~70%）开关和片段——所有的计算开销都相对较小。我们的项目页面在这里：https://www.xinshuoweng.com/projects/MTP。

引言

多目标跟踪和轨迹预测是现代自治堆栈的关键组成部分。例如，在自动驾驶应用中，规划模块使用这些组件的输出来计算安全高效的轨迹。多目标跟踪 (MOT) [1]-[9] 和预测 [10]-[18] 通常遵循级联管道，首先执行跟踪以生成过去的轨迹，然后是负责预测其他代理的预测模块 '未来的轨迹。虽然这种模块化简化了开发周期、可扩展性和可解释性，但它也带来了重大的集成挑战，级联错误是一个关键问题，例如，身份切换等跟踪错误会导致大量的预测错误，如图所示图 1（左）。
或许令人惊讶的是，此类级联错误的严重性相对未得到充分探索。事实上，大多数关于轨迹预测的工作通常会考虑不切实际的设置，即预测模块使用地面实况 (GT) 过去的轨迹作为输入，而不是生成的轨迹通过跟踪。在这项工作中，通过在 nuScenes [19] 和 KITTI [20] 数据集上应用最先进的跟踪和预测方法，我们发现与理想化设置相比，使用 tracklets 作为输入的预测性能显着下降。 GT 过去的轨迹用作输入。此外，如果我们将评估限制在涉及跟踪错误的具有挑战性的场景（如我们将展示的那样非常频繁），则预测错误在 KITTI 上增加了 28.2 倍，在 nuScenes 上增加了 17.6 倍。性能下降如此显着的原因是身份切换等跟踪错误通常会导致速度/方向估计错误持续几帧，这会对预测精度产生不利影响。
为了解决上述问题，我们提出了一种多假设跟踪和预测（MTP）框架，该框架使用多假设数据关联来输出多组轨迹作为跟踪结果。然后，这些轨迹集被用作预测模块的输入。关键思想很简单：通过同时推理多组轨迹，增加了将准确轨迹作为预测输入的可能性（图 1（右））。请注意，这与 [1]-[9]、[18]、[21] 中的标准跟踪预测管道不同，后者仅通过跟踪生成一组跟踪。在这种情况下，如果对象的过去轨迹关闭，则预测可能完全关闭。
我们的 MTP 框架受到预测规划管道的启发，其中预测网络通常预测多组未来轨迹，在 VAE [13]、[15]、[16] 或基于 GAN 的 [10] 中称为轨迹样本– [12] 方法。通过对多个轨迹样本的推理，考虑准确预测的可能性更高，从而实现更高水平的规划安全性 [22]。
MTP 利用了类似的想法，即生成多组轨迹以提高下游预测性能。通过在 KITTI 和 nuScenes 上的实验，我们表明 MTP 框架提高了整体预测性能（在 nuScenes 数据集上高达 34.2%），具有当将评估限制在涉及跟踪错误的具有挑战性的场景时，甚至会有更显着的改进（高达 70%）。 MTP 框架自然会产生相对于其单一假设对应物的计算开销，但我们表明，幸运的是，这种开销是可以接受的，并且仍然与实时应用程序兼容。
本文的贡献有三方面：首先，我们对跟踪误差对预测性能的影响进行了全面的实验评估。其次，我们提出了 MTP 框架，旨在通过同时推理多组跟踪结果来减少 MOT 和预测之间的错误传播。第三，我们在预测准确性和运行时性能方面彻底评估了 MTP 的性能。

相关工作

3D 多对象跟踪 最近的在线 3D MOT 方法通常遵循检测跟踪管道，分为两个步骤：（1）给定与上一帧相关的轨迹和当前帧中的检测，计算亲和度矩阵，其中每个条目表示之间的相似度值过去的轨迹和当前的检测； (2) 给定亲和度矩阵，匈牙利算法[23]用于获得局部最优匹配，这需要对当前检测分配到哪个过去的轨迹进行硬分配，以便轨迹可以更新到当前帧 . 尽管最近在第一步方面取得了重大进展，例如，通过使用图神经网络 [9]、[24]、[25] 和多模态特征学习 [1]、[2] 改进亲和力矩阵估计，第二步基本保持不变。换句话说，现代 3D MOT 方法通常在推理时通过匈牙利算法生成一组轨迹，这会导致可能不利于预测的跟踪误差。
多假设数据关联 为了改进单假设 MOT，一种自然的方法是利用多假设数据关联 (MHDA)。这个想法是保持多个假设并延迟分配。因此，数据关联中的歧义可以在后面的帧中得到更好的解决。 MHDA 在 90 年代流行并成功应用于 MOT [26]-[28] 和 SLAM [29]、[30]。然而，在 MHDA 正在积极发展的时候，轨迹预测的话题还处于起步阶段。据我们所知，我们的工作是第一个采用 MHDA 来改进下游预测的工作。
轨迹预测 最近在轨迹预测方面取得了重大进展，包括[10]、[11]、[13]、[31]-[36]。然而，这些作品几乎总是将预测任务与 3D MOT 任务分开研究。具体来说，他们将 GT 过去的轨迹视为预测的输入，而没有直接考虑跟踪误差。表征和减轻跟踪误差向预测的传播确实是本文的主要动机。
跟踪-预测集成 一些工作试图更好地结合 MOT 和预测任务。在端到端检测和预测 [21] 中，MOT 和预测网络联合优化，从而提高了性能。
然而，它仍然是一个级联的、单一假设的管道，因此容易被跟踪错误打乱预测。
在并行跟踪和预测 [18] 中，提出了一个两分支的跟踪和预测网络。虽然这种方法可以防止当前帧中的错误传播（当前帧中的跟踪结果不会馈送到预测分支中），但它不能为下一个预测窗口这样做。这是因为 [18] 中的方法也使用匈牙利算法在当前帧生成单个轨迹集，这很容易导致跟踪误差传播到下一个预测窗口。相比之下，我们在跟踪分配阶段用 MHDA 替换匈牙利算法，从而防止硬分配消除可能的替代假设。
我们将证明这个想法是非常有效的。
最后，一项并发且未发表的工作 [37] 也认识到了解跟踪错误如何影响预测的重要性。我们的论文提供了一个全面的定量分析，证实了 [37] 中的定性发现，我们建议利用 MHDA 来更稳健地考虑跟踪误差，而 [37] 中的解决方法仍然是基于单一假设的。

MTP翻译

摘要

引言

相关工作