THOMAS翻译1_thomas轨迹预测-CSDN博客

本文链接：https://blog.csdn.net/weixin_43889128/article/details/121075876

摘要
在本文中，我们提出了 THOMAS，这是一个联合多智能体轨迹预测框架，允许对多智能体多模态轨迹进行有效和一致的预测。我们提出了一个统一的模型架构，用于利用分层和稀疏图像生成的快速和同步代理未来热图估计。我们证明，与普通的多模态轨迹回归相比，热图输出能够对预测轨迹进行更高级别的控制，从而允许以确定性的方式结合更严格的采样或无碰撞预测的额外约束。然而，我们还强调，生成场景一致的预测不仅仅是生成无碰撞轨迹。因此，我们提出了一种可学习的轨迹重组模型，该模型将每个智能体的一组预测轨迹作为输入，并输出其一致的重新排序的重组。我们报告了交互多智能体预测挑战的结果，并在在线测试排行榜上排名第一。
引言
运动预测是自动驾驶汽车流程中必不可少的一步，它将感知数据转换为未来预测，然后利用这些预测来规划自动驾驶汽车的未来移动。自动驾驶堆栈需要以快速且连贯的方式预测所有相邻代理的未来轨迹。
代理之间的交互性对于准确的轨迹预测起着重要作用。代理需要注意他们的邻居，以适应他们的速度，让行权并在邻居车道上并入。为此，开发了不同的交互机制，例如社交池化（Alahi 等人，2016 年；Lee 等人，2017 年；Deo 和 Trivedi，2018 年）、图（Salzmann 等人，2020 年；Zeng 等人，2018 年）。 , 2021) 或注意力（Mercat 等人，2020 年；Messaoud 等人，2020 年；Luo 等人，2020 年；Gao 等人，2020 年；Liang 等人，2020 年；Ngiam 等人，2021 年）。这些机制允许代理查看并与邻居共享特征，在他们自己的预测中考虑到这些特征。
多模态是未来可能的轨迹的另一个非常重要的方面。汽车确实可以选择右转或左转，或决定以各种方式实现某种机动。建模为高斯方差的不确定性不足以对这些多种情况进行建模，因为它只能表示连续的传播，而不能显示多个离散的可能性。因此，当前最先进的技术为每个预测的智能体生成的不是一个而是 K 个可能的轨迹，以及最新的基准（Caesar 等人，2020 年；Chang 等人，2019 年；Zhan 等人，2019 年；Ettinger 等人，2019 年）。 , 2021) 在其度量中包含多模态，仅在预测的 K 条轨迹集上采用最小误差。
然而，直到最近以及多智能体联合交互挑战的开放（Ettinger 等人，2021 年；Zhan 等人，2021 年），还没有运动预测预测数据集考虑在同时。结果，给定代理的第一个预测模态可能会在没有任何检查的情况下与另一个代理的第一个预测模态崩溃。
我们的 THOMAS 模型对场景中出现的所有代理的过去轨迹以及 HD-Map 车道线图进行编码，并使用自注意力和交叉注意力合并它们的信息。然后它为每个代理预测一个稀疏的热图，表示在固定的未来概率分布未来的时间步长。然后，确定性采样算法根据每个代理的热图迭代地选择最佳的 K 个轨迹端点。 THOMAS 模型将这些端点重新组合为场景一致，然后为每个端点生成完整的轨迹。
我们的贡献总结如下：
• 我们提出了一种高效的基于图的模型，能够实现快速高效的多代理未来运动估计
• 我们提出了从热图中的碰撞感知端点采样，考虑到代理碰撞
• 我们设计了一种新颖的重组模型能够重新组合采样的端点以获得跨代理的场景一致的轨迹
相关工作
基于学习的模型已迅速超越基于物理的轨迹预测方法，因为轨迹的顺序性质是循环架构的逻辑应用（Alahi 等人，2016 年；Altche 和 de La Fortelle，2017 年；Lee 等人，2017 年） ; Mercat et al., 2020; Khandelwal et al., 2020)，´ 和卷积层可以很容易地应用于地图上下文的鸟瞰栅格（Lee et al., 2017; Tang & Salakhutdinov, 2019; Cui et al ., 2019; Hong et al., 2019; Salzmann et al., 2020; Chai et al., 2020; Gilles et al., 2021b)，受益于计算机视觉的最新进展。
周围的高清地图，通常被形式化为连接的小巷，也可以使用图神经网络进行编码（Gao 等人，2020 年；Liang 等人，2020 年；Zeng 等人，2021 年；Gilles 等人，2021a），在为了获得更接近轨迹空间的更紧凑的表示。最后，一些基于点的方法（Ye 等人，2021）可以更广泛地应用于轨迹预测，因为车道和轨迹都可以被视为有序的点集。
预测中的多模态可以简单地通过模型中的多个预测头获得（Cui et al., 2019; Liang et al., 2020; Ngiam et al., 2021; Deo et al., 2021）。然而，一些方法宁愿采用基于候选的方法，其中潜在的端点是从通过聚类获得的锚轨迹获得的（Chai 等人，2020 年；Phan-Minh 等人，2020 年）或基于模型的生成器（Song 等人，2020 年） ., 2021)。其他方法使用上下文图中更广泛的候选集（Zhang et al., 2020; Zhao et al., 2020; Zeng et al., 2021; Kim et al., 2021）或目标代理周围的密集网格（ Deo 和 Trivedi，2020；Gu 等，2021；Gilles 等，2021b；a)。另一类方法使用变分推理通过潜在变量（Lee 等人，2017 年；Rhinehart 等人，2018 年；Tang 和 Salakhutdinov，2019 年；Casas 等人，2020 年）或 GAN（Gupta 等人，2020 年）生成不同的预测。 , 2018; Rhinehart et al., 2018; Sadeghian et al., 2019) 但这些轨迹的采样是随机的，并且不为每个样本提供任何概率值。
虽然到目前为止很少有工作直接处理多智能体的预测和评估，但多种方法暗示能够同时预测多个智能体（Liang 等人，2020 年；Zeng 等人，2021 年），即使他们随后关注在一个更加面向单代理的框架上。 SceneTransformer (Ngiam et al., 2021) 在可能的模态中重复每个代理特征，并在使用联合损失训练模型并在 WOMD (Ettinger et al., 2021) 交互轨迹上进行评估之前，在每个模态内执行自注意力操作，但是此评估侧重于双重代理预测，不会同时扩展到大量代理。 ILVM (Casas et al., 2020) 使用以所有代理为条件的场景潜在表示来生成场景一致的样本，但它的变分推理不能为每个模态提供置信度分数。 AIR2 (Wu & Wu, 2021) 扩展了 Multipath (Chai et al., 2020) 并沿着所有可能的轨迹锚点为两个代理生成交叉分布，但它随着代理的数量呈指数增长，这使得实时可能同时遇到 10 多个代理的实现。

方法

我们的目标是使用由 H 时间步长和 HD-Map 上下文组成的过去历史来预测 A 代理的未来 T 时间步长。与最近的工作类似（Zhao 等人，2020；Zeng 等人，2021；Gu 等人，2021），我们将问题分为基于目标的预测，然后是完整的轨迹重建。我们的预测管道如图 1 所示。我们首先对每个代理轨迹和HD-Map 上下文图转换为通用表示。然后我们解码场景中每个代理的未来概率热图，我们启发式采样以最大化覆盖率。最后，我们将采样的端点重新组合成跨代理的场景一致模式，并为每个代理构建完整的轨迹。
3.1模型背景
3.1.1图编码器
我们使用与 GOHOME 模型相同的编码器（Gilles 等人，2021a）。代理轨迹通过 TrajEncoder 使用 1D CNN 和 UGRU 循环层进行编码，HD-Map 使用由图卷积组成的 GNN GraphEncoder 编码为小巷图。
然后我们运行 cross-attention Lanes2Agents 为代理特征添加上下文信息，然后运行 self-attention Agents2Agents 来观察代理之间的交互。最终结果是每个代理的编码 Fa，其中总结了历史、上下文和交互。该编码 Fa 用于下一个解码器操作，但也被存储以潜在地用于第 2 节中描述的模态重组。 3.2.2. 这些编码操作的最终架构如图 2 的前半部分所示。
3.1.2异构网格编码器
我们在这里的目标是将每个代理编码解码为一个热图，表示其在预测范围 T 的未来概率分布。由于我们为场景中的每个代理创建了这个热图，因此解码过程必须很快，以便它可以应用于一个伟大的并行代理的数量。
HOME (Gilles et al., 2021b) 通过 CNN 操作生成热图，但这些操作成本高昂，并且不能很好地扩展预测范围。 DenseTNT (Gu et al., 2021) 仅关注在车道周围采样的密集网格点，而 GOHOME (Gilles et al., 2021a) 在将车道合并在一起之前为它们的子选择创建曲线栅格，但这两种方法都忽略了可能的端点在可驾驶区域之外，以便他们可以达到合理的推理时间。我们从这些以前的工作中得到启发，做了一些修改，这样我们就可以预测地图上任何地方的端点，同时巧妙地将解码计算负载集中在感兴趣的代理周围空间的有趣部分。
我们在不同分辨率级别上使用分层预测，以便解码器有可能对代理的整个环境进行预测，但学习仅在代理以高概率结束的地方进行更精确的细化。这种分层过程如图 3 所示。
我们首先通过像素预测分辨率为 R0 × R0 的全密集网格概率。然后我们选择 N1 个最高排名的网格点，并仅将这些点上采样到 R1 × R1 中间分辨率。
我们重复这个过程来选择这个网格的前 N2 个点，并将它们上采样到最终的 R2 × R2 网格，用于最终的热图预测。在每一步，网格点特征由应用于点坐标的 2 层 MLP 计算，然后连接到代理编码，然后是线性层，最后通过图上的 2 层交叉注意力细化车道特征。
对于给定的 W 输出范围，这种分层过程允许模型仅在 W R0 × W R0 + N1 × R0 R1 × R0 R1 + N2 × R1 R2 × R1 R2 网格点上运行，而不是在可用的 W R2 × W R2 上运行。在实践中，当 (W, R0, N1, R1, N2, R2) = (192m, 8m, 16, 2m, 64, 0.5m) 时，我们只计算了 147 456 个可用网格点中的 1856 个网格点，没有性能损失。
3.1.3完整轨迹生成
从每个热图中，我们使用与 Gilles 等人相同的 MR 优化算法解码 K 个端点。 (2021b)。然后，我们还使用相同的模型（完全连接的 MLP）为每个端点生成完整轨迹。 MLP 将汽车历史和预测终点作为输入，并生成代表完整未来轨迹的 T 2D 坐标。在训练时，该模型使用真实数据端点进行训练。
3.2多智能体预测
多模态多智能体预测的困难在于每个智能体之间的模态一致。由于模态被视为场景，第一个预测的模态必须与其他代理的第一个预测相匹配，依此类推。此外，这些模式不能相互冲突，因为它们应该代表现实场景。
3.2.1无碰撞终点采样
我们基于上一节中生成的热图设计了一种确定性采样算法，以便以碰撞感知方式对每个代理的端点进行采样。我们使用与 Gilles 等人相同的采样算法。 (2021a) 基于 MR 优化，但为每种模式添加了对代理的顺序迭代。
对于单个模态 k，我们通过在半径 r 的区域下取最大累积预测概率来预测第一个代理 a 的可能端点。然后，我们不仅将此代理热图的热图值设置为零，而且在采样位置周围的 k0 中，因此不在下一个采样模态 k 0 ，但我们也将热图上的相同区域设置为零，其他代理的 0 k 在相同的模态 k 上，因此这些其他代理无法在该模态的相同位置采样。
通过这种方式，我们尝试强制执行无碰撞端点，并期望考虑碰撞带来提高预测整体一致性的逻辑。然而，正如将在 Sec 中强调的那样。
4.4，这种方法在不需要任何额外学习模型的情况下显着提高了碰撞率，但几乎没有提高多代理一致性。
3.2.2形态组合排名