scene-transformer翻译

这篇论文提出了一种名为SceneTransformer的模型,用于预测自动驾驶环境中多个代理的运动,考虑了代理之间的交互。模型利用掩蔽策略进行联合预测,允许条件推理,如目标或完整轨迹条件预测。SceneTransformer通过以场景为中心的表示和注意力机制,实现了高效、可扩展的架构,并在Argoverse和WaymoOpenMotion数据集上实现了最先进的性能。
摘要由CSDN通过智能技术生成

摘要

预测多个代理的运动对于在动态环境中进行规划是必要的。 这项任务对自动驾驶具有挑战性,因为代理(例如,车辆和行人)及其相关行为可能多种多样并相互影响。 大多数先前的工作都集中在根据所有过去的运动为每个代理预测独立的未来,并针对这些独立的预测进行规划。 然而,针对独立预测进行规划可能会使表示不同代理之间未来交互的可能性变得具有挑战性,从而导致次优规划。 在这项工作中,我们制定了一个模型来共同预测所有代理的行为,产生一致的未来来解释代理之间的交互。 受最近语言建模方法的启发,我们使用掩蔽策略作为对我们模型的查询,使人们能够调用单个模型以多种方式预测代理行为,例如可能以自动驾驶汽车的目标或完整未来轨迹为条件,或 环境中其他代理的行为。 我们的模型架构利用注意力来组合道路元素、代理交互和时间步长的特征。 我们评估了我们在边缘和关节运动预测的自动驾驶数据集上的方法,并在两个流行的数据集上实现了最先进的性能。
通过结合以场景为中心的方法、代理置换等变模型和序列屏蔽策略,我们表明我们的模型可以统一从关节运动预测到条件预测的各种运动预测任务。

引言

在密集的现实世界城市环境中进行运动规划是部署自动驾驶技术的关键任务问题。 自动驾驶传统上被认为对于单一的端到端学习系统来说太难了(Thrun et al., 2006)。 因此,研究人员选择将任务拆分为连续的子任务(Zeng 等,2019):(i) 感知,(ii) 运动预测,以及 (iii) 规划。
感知是通过传感器(如 LiDAR 和相机)检测和跟踪场景中的对象的任务。 运动预测涉及预测场景中其他代理的未来动作。
最后,规划涉及创建在动态环境中导航的运动计划。
当每个子任务真正独立时,将较大的问题划分为子任务可以获得最佳性能。 然而,当独立性假设不成立时,这种策略就会失效。 例如,运动预测和规划的子任务并不是真正独立的——自动驾驶汽车的动作可能会显着影响其他智能体的行为。 同样,其他代理的行为可能会极大地改变什么是好的计划。 这项工作的目标是通过开发一个模型,该模型可以利用调节信息(例如 AV 的目标),并同时为所有代理生成关于未来的联合一致预测,从而朝着统一运动预测和规划的方向迈出一步。
虽然运动预测任务传统上是围绕每个代理独立预测制定的,但最近的数据集(Ettinger 等人,2021 年;Zhan 等人,2019 年)引入了交互预测任务,使我们能够研究联合未来预测(图 1) . 这些交互预测任务需要模型来预测多个代理的联合未来:期望模型为所有代理生成未来的预测,使得代理的未来彼此一致 1。
一种生成联合期货的幼稚方法是考虑边际代理预测组合的指数数量。 许多组合是不合理的,尤其是当智能体的轨迹重叠时。 我们提出了一个统一的模型,可以自然地捕捉代理之间的交互,并且可以作为联合模型进行训练,以在所有代理之间生成场景级一致的预测(图 1,右)。 我们的模型对所有代理使用以场景为中心的表示(Lee 等人,2017 年;Hong 等人,2019 年;Casas 等人,2020a;Salzmann 等人,2020 年)以允许扩展到密集的大量代理 环境。 我们采用了一种简单的自注意力变体 (Vaswani et al., 2017),其中注意力机制在代理时间轴上被有效分解。 由此产生的架构只是在代表时间的维度和场景中的代理之间交替关注,从而产生计算效率高、统一且可扩展​​的架构。
我们发现生成的模型称为 Scene Transformer,在独立(边际)和交互式(联合)预测基准上都实现了卓越的性能。 我们进一步展示了如何将问题构建为掩码序列模型,其灵感来自语言建模的最新进展(Brown 等人,2020 年;Devlin 等人,2019 年),以允许在自动驾驶汽车(AV ) 目标状态或完整轨迹。 在这种重构中,单个模型可以通过更改推理时可见的数据自然地执行诸如运动预测、条件运动预测和目标条件预测等任务。
我们希望我们统一的架构和灵活的问题表述为进一步结合运动预测和规划开辟了新的研究方向。 总而言之,我们在这项工作中的主要贡献是:
• 一种新颖的、以场景为中心的方法,它允许我们优雅地切换训练模型,以在单个前馈传递中产生边缘(独立)和联合代理预测。 我们的模型在 Argoverse 和 Waymo Open Motion 数据集上的边缘和联合预测任务上都达到了最先进的水平。
• 基于置换等变变换器的架构考虑了代理、时间和道路图元素,利用了问题的内在对称性。 由此产生的架构是高效的,并以统一的方式集成了世界状态。
• 一种掩蔽序列建模方法,使我们能够在推理时以假设的代理未来为条件,从而实现条件运动预测或目标条件预测。

相关工作

运动预测架构 由于对自动驾驶应用程序的兴趣增加以及相关数据集和基准测试的发布,运动预测模型近年来蓬勃发展(Kesten 等人,2019 年;Chang 等人,2019 年;Caesar 等人,2020 年; Ettinger 等人,2021 年)。 成功的模型必须考虑代理运动的历史和道路图的元素(例如,车道、停车线、交通灯动态状态)。 此外,此类模型必须在道路图环境的上下文中学习这些代理之间的关系。
一类模型大量借鉴了计算机视觉文献,将输入渲染为多通道光栅化自顶向下图像(Cui 等人,2019 年;Chai 等人,2019 年;Lee 等人,2017 年;Hong 等人,2019 年) ;Casas 等人,2020a;Salzmann 等人,2020 年;Zhao 等人,2019 年)。 在这种方法中,场景元素之间的关系是通过卷积深度架构捕获的。 然而,感受野的局部结构使得捕捉空间遥远的交互具有挑战性。 一种流行的替代方法是使用以实体为中心的方法。 使用这种方法,代理状态历史通常通过诸如 RNN 之类的序列建模技术进行编码(Mercat 等人,2020 年;Khandelwal 等人,2020 年;Lee 等人,2017 年;Alahi 等人,2016 年;Rhinehart 等人, 2019) 或时间卷积 (Liang et al., 2020)。 道路元素用基本基元(例如分段线性段)近似,这些基元编码姿势信息和语义类型。 实体之间的建模关系通常表现为信息聚合过程,模型采用池化(Zhao 等人,2020;Gao 等人,2020;Lee 等人,2017;Alahi 等人,2016;Gupta 等人,2016 年)。 , 2018)、soft-attention (Mercat et al., 2020; Zhao et al., 2020; Salzmann et al., 2020) 以及图神经网络 (Casas et al., 2020a; Liang et al., 2020; Khandelwal 等人,2020 年)。
与我们提出的方法一样,最近的几个模型使用 Transformers(Vaswani 等人,2017 年),由多头注意力层组成。 Transformer 是自然语言处理中序列建模的一种流行的最先进选择(Brown 等人,2020 年;Devlin 等人,2019 年),并且最近在检测等核心计算机视觉任务中显示出前景(Bello 等,2019;Carion 等,2020;Srinivas 等,2021)、跟踪(Hung 等,2020)和分类(Ramachandran 等,2019;Vaswani 等,2021;Dosovitskiy 等 .,2021 年;贝洛,2013 年;贝洛等人,2019 年)。 对于运动建模,最近的工作采用了自注意力和 Transformer 的变体来对不同轴进行建模:时间轨迹编码和解码(Yu 等人,2020 年;Giuliari 等人,2020 年;Yuan 等人,2021 年)、编码关系 代理之间(Li 等人,2020 年;Park 等人,2020 年;Yuan 等人,2021 年;Yu 等人,2020 年;Mercat 等人,2020 年;Bhat 等人,2020 年),以及与 道路元素。 当在多个轴上应用自注意力时,过去的工作对每个轴使用独立的自注意力(Yu 等人,2020),或者将两个轴一起展平成一个联合自注意力层(Yuan 等人,2021)——通过 相比之下,我们的方法以统一的方式提出了对时间步长、代理和道路图元素之间的模型关系的轴因素注意。
以场景为中心与以代理为中心的表示 另一个关键的设计选择是表示在其中编码的参考系。 一些模型在全局场景级坐标系中进行大部分建模,例如使用光栅化自顶向下图像的工作(Cui 等,2019;Chai 等,2019;Lee 等,2017; Hong 等人,2019;Casas 等人,2020a;Salzmann 等人,2020)。 由于在公共坐标系中对世界状态的单一共享表示,这可以导致更有效的模型,但伴随着姿势不变性的潜在牺牲。 另一方面,在代理坐标系中推理的模型(Mercat 等人,2020 年;Zhao 等人,2020 年;Khandelwal 等人,2020 年)本质上是姿势不变的,但与代理的数量成线性关系 ,或与代理之间的成对交互次数的二次方。 许多作品混合使用自上而下的栅格表示与每个代理表示融合的道路表示(Rhinehart 等人,2019 年;Tang 和 Salakhutdinov,2019 年;Lee 等人,2017 年)。 与我们自己的工作类似,LaneGCN(Liang 等人,2020 年)以代理为中心,但表示处于全局框架中——据我们所知,这是唯一这样做的其他工作。 这可以实现高效推理,同时无需光栅化即可捕获任意远距离的交互和高保真状态表示。
未来多代理表示 表示代理期货的一种常用方法是通过每个代理的一组加权轨迹(Alahi 等人,2016 年;Biktairov 等人,2020 年;Buhet 等人,2020 年;Casas 等人,2020a;a;Chai 等人 ., 2019; Cui et al., 2019; Gao et al., 2020; Hong et al., 2019; Lee et al., 2017; Marchetti et al., 2020; Mercat et al., 2020; Salzmann et al. , 2020; Zhao et al., 2020)。 这种表示受到主要关注每个代理距离误差度量的基准的鼓励(Caesar 等人,2020 年;Chang 等人,2019 年;Zhan 等人,2019 年)。 我们在这项工作中认为,在多智能体环境中建模联合期货(图 1,右)是一个重要的概念,在之前的工作中很少探索。 一些先前的工作考虑了分解成对联合分布,其中代理期货的子集以其他代理为条件——非正式地,为代理 X 和 Y 建模 P(X) 和 P(Y |X)(Khandelwal 等人,2020 年;Tolstaya 等人,2021 年;萨尔茨曼等人,2020 年)。 为了将联合预测推广到任意多智能体设置,其他工作(Tang & Salakhutdinov,2019;Rhinehart 等,2019;Casas 等,2020b;Suo 等,2021;Yeh 等,2019)迭代地推出每个代理的样本,其中每个代理都以先前采样的轨迹步骤为条件。 相比之下,我们的模型直接解码了一组具有相关可能性的 k 个不同的联合期货。

方法

Scene Transformer 模型分为三个阶段:(i) 将代理和道路图嵌入到高维空间中,(ii) 使用基于注意力的网络来编码代理和道路图之间的交互,(iii) 解码多个未来 使用基于注意力的网络。 该模型在每个时间步将每个代理的特征作为输入,并在每个时间步预测每个代理的输出。 我们使用一个关联的掩码,其中每个代理时间步都有一个关联的 1(隐藏)或 0(可见)指标,指示输入特征是否从模型中隐藏(即移除)。 这种方法反映了 BERT 等掩码语言模型的方法(Devlin 等,2019)。 该方法很灵活,使我们能够同时训练单个模型进行运动预测 (MP)(Cui 等人,2019 年;Chai 等人,2019 年;Lee 等人,2017 年;Hong 等人,2019 年;Casas 等人 al.,2020a;Salzmann 等人,2020;Casas 等人,2020a;Liang 等人,2020 年;Khandelwal 等人,2020 年),条件运动预测 (CMP)(Khandelwal 等人,2020 年;Tolstaya 等人 al., 2021; Salzmann et al., 2020) 和目标条件预测 (GCP) (Zeng et al., 2019; Liu et al., 2021a) 只需更改显示给模型的数据即可(图 2,左) )。 我们总结了下面的主要贡献,并为附录保留了详细信息。
多任务表示 模型中的关键表示是 A 代理的 3 维张量,具有跨 T 时间步长的 D 特征维度。 在架构中的每一层,我们的目标是维护形状 [A, T, D] 的表示,或者在解码时,[F, A, T, D] 跨越 F 个潜在的未来。 通过将指标掩码设置为 0,可以将每个任务(MP、CMP、GCP)表述为具有特定掩码策略的查询,从而向模型提供该数据(图 2,左)。 该模型的目标是估算每个阴影区域的特征,这些区域对应于场景中被屏蔽的时间和代理的子集。
3.1 代理和道路图的以场景为中心的表示
我们使用以场景为中心的嵌入,其中我们使用感兴趣的代理的位置作为原点 2 ,并对所有道路图和与其相关的代理进行编码。 这与使用以代理为中心的表示的方法形成对比,其中为每个代理分别计算表示,依次将每个代理视为原点。
详细地说,如果该时间步是可见的,我们首先为每个代理时间步生成一个特征。 其次,我们为静态道路图生成一组特征,道路元素在空间和时间上都是静态的,使用 PointNet(Qi 等人,2017 年)为每条折线学习一个特征向量(符号是长度为 1 的折线)。
最后,我们为动态道路图生成一组特征,它们是空间上静态但时间上动态的道路元素(例如交通灯),每个对象也有一个特征向量。 所有三个类别都有 xyz 位置信息,我们对其进行预处理以围绕感兴趣的代理居中和旋转,然后使用正弦位置嵌入进行编码(Vaswani 等,2017)。
3.2 编码转换器
我们专注于一个简单的基于编码器-解码器注意力的架构,该架构始终保持 [A, T, D] 的表示(图 2,右)。 我们简要总结了架构,但为附录和表 4 保留了细节。大多数层是 Transformer 层的一种形式(Vaswani 等,2017)(表 5)。 注意层被参数化为表示查询 Q、键 K 和值 V 的矩阵,其输出 y = softmax (Q KT )V √ dimk 。 每个矩阵都被计算为底层表示 x 的学习线性变换,例如 Q = Wq x。 每个注意力层后面跟着一个相同隐藏维度的前馈层,以及结果与整个 Transformer 层的输入的跳过连接相加。 编码器和解码器的所有层都采用 D 特征维度。 解码器之后的最后一层是预测 7 个输出的 2 层 MLP。 前 6 个输出对应于在给定时间步长中代理相对于感兴趣代理的绝对坐标(例如米)的 3 维位置,以及由拉普拉斯分布参数化的相应不确定性 (Meyer & Thakurdesai, 2020) . 其余维度预测航向。
有效的因式分解自注意力 大部分计算是使用 Transformer 执行的(Vaswani 等人,2017 年)(表 5)。 使用 Transformer 的一种简单方法是直接在整个代理和时间步长特征集上执行注意力(即跨 AT 维度的注意力)。
然而,这种方法在计算上很昂贵,并且还面临身份对称挑战:隐藏在同一未来位置的相同类型的两个代理将具有相同的输入表示。 因此,我们设计了基于时间轴和代理轴的分解注意力(相关想法,请参见 Wang 等人(2020);Szegedy 等人(2016);Ho 等人(2019))。
仅跨时间应用注意力允许模型学习独立于代理身份的平滑轨迹。 同样,仅跨代理应用注意力允许模型学习独立于特定时间步长的多代理交互。 最后,为了捕获时间和代理的依赖关系,该模型只是在后续层中交替关注代理和时间(图 2,右图)。 该模型也与输入时代理的排序是置换等变的,因为注意力操作是置换等变的。
交叉注意 为了利用辅助信息,在我们的例子中是道路图,我们使用交叉注意力来通过关注道路图来更新代理特征。 具体来说,我们计算来自代理的查询,但键和值来自道路图的嵌入。 道路图嵌入在每折线 PointNet 之后是最终的,因此在这些注意力层期间不会更新。 这要求模型学习道路结构与独立于特定时间步长或代理的代理之间的交互。 我们强调道路图表示在场景中的所有代理之间共享,而先前的方法通常使用以代理为中心的道路图表示。
3.3 预测每个期货的概率
我们的模型还需要预测每个未来(在联合模型中)或轨迹(在边际模型中)的概率分数。 为此,我们需要一个总结场景和每个代理的特征表示。 在第一组分解的自注意力层之后,我们分别计算代理特征张量在代理和时间维度上的均值,并将这些作为额外的人工代理和时间添加到我们的内部表示 [A + 1, T + 1 , D](图 2,左图)。
这个人工代理和时间步长通过网络传播,并为模型提供额外的能力来表示每个代理,这与任何时间步长无关。 在最后一层,我们切出人工代理和时间步长以获得每个代理(每个代理的额外时间)和场景(即额外时间和代理的“角落”特征)的摘要特征。 这个功能是然后由 2 层 MLP 处理产生单个 logit 值,我们将其与 softmax 分类器一起用于每个期货的概率的置换等变估计。
3.4 联合和边际损失公式
我们模型的输出是一个形状为 [F, A, T, 7] 的张量,表示每个代理在给定时间步长的位置和方向。 由于该模型通过位置嵌入对位置使用以场景为中心的表示,因此该模型能够在一次前馈过程中同时预测所有代理。 这种设计还可以在联合未来预测和边际未来预测之间进行直接切换。
为了执行联合未来预测,我们将每个未来(在第一维中)视为所有代理的一致未来。 因此,我们汇总了所有代理 3 和时间步长的位移损失,以构建形状 [F] 的损失张量。 我们仅通过在位移损失方面与地面实况最匹配的个体未来反向传播损失(Gupta 等人,2018 年;Yeh 等人,2019 年)。 对于边际未来预测,每个代理都被独立处理。 在计算形状 [F, A] 的位移损失后,我们不会跨代理聚合。 相反,我们分别为每个代理选择损失最小的未来,并相应地反向传播错误(附录,图 7)。 这允许代理在不同的期货中进行选择。 我们的方法的一个显着好处是我们能够同时为所有代理生成预测。
运动预测的评估指标 我们使用标准评估指标评估 k 个加权轨迹假设的质量:minADE、minFDE、未命中率和 mAP。 每个评估指标都试图衡量前 k 条轨迹与地面实况观察的接近程度。
一个简单且常见的基于距离的度量是测量给定轨迹和地面实况之间的 L2 范数(Alahi 等人,2016 年;Pellegrini 等人,2009 年)。 minADE 报告具有最小距离的轨迹的 L2 范数。 minFDE 同样报告具有最小距离的轨迹的 L2 范数,仅在轨迹的最终位置进行评估。 我们还报告了未命中率 (MR) 和平均平均精度 (mAP),以捕捉模型在概率上预测代理的所有未来轨迹的程度(Yeh 等,2019;Chang 等,2019;Ettinger 等。 , 2021)。 对于联合未来评估设置,我们测量场景级等价物(minSADE、minSFDE 和 SMR),用于评估最佳单一一致未来的预测(Casas 等人,2020b)。

结果

我们在来自 Argoverse 数据集(Chang 等人,2019 年)和 Waymo 开放运动数据集(WOMD)(Ettinger 等人,2021 年)的运动预测任务上评估了 Scene Transformer。 Argoverse 数据集包含来自 290 公里道路的 324,000 个运行段(每段长度为 5 秒),总共包含 1170 万条智能体轨迹,并且专注于单个智能体(边缘)运动预测。 WOMD 数据集包含来自 1,750 公里道路的 104,000 个运行段(每段长度为 20 秒),其中包含 764 万条独特的代理轨迹。 重要的是,WOMD 有两个任务,每个任务都有自己的一组评估指标:边缘运动预测挑战,它独立评估每个代理的运动预测质量(每个场景最多 8 个),以及联合运动预测挑战,评估 模型对每个场景恰好 2 个代理的联合预测的质量。 我们在 Cloud TPU 上训练每个模型(Jouppi et al., 2017)所有训练细节见附录。
首先,在第 4.1 节中,我们专注于边缘预测任务,并表明 Scene Transformer 在 Argoverse(Chang 等人,2019 年)和 WOMD(Ettinger 等人,2021 年)上都取得了有竞争力的结果。 在第 4.2 节中,我们专注于联合预测任务并使用我们的联合损失公式训练场景转换器(参见第 3.4 节)。 我们表明,通过损失公式的单个切换,我们可以实现卓越的关节运动预测性能。 在第 4.3 节中,我们讨论了因子化注意力和非因子化注意力。 最后,在第 4.4 节中,我们展示了我们的掩码序列模型公式如何使我们能够训练一个能够进行运动预测、条件运动预测和目标条件预测的多任务模型。 在附录 B.1 中,我们讨论了边际模型和联合模型之间的权衡。
4.1 边际运动预测
我们首先评估作为传统边际、每代理运动预测模型训练和评估的场景变换器的性能。 这类似于图 1(左)中所示的问题。
对于第 4.4 节之前的所有结果,我们使用屏蔽策略为模型提供所有代理作为输入,但隐藏他们的未来。 我们还屏蔽了未来的交通灯信息。
阿尔戈弗斯。 我们对流行的 Argoverse(Chang 等人,2019 年)基准进行评估,以证明我们架构的有效性。 在训练和评估期间,模型只需要预测感兴趣的单个代理的未来。 我们最好的 Argoverse 模型使用 D = 512 特征维度和标签平滑进行轨迹分类。 与已发表的先前工作 4 在 minADE 和 minFDE 方面相比,我们的模型实现了最先进的结果(表 1)。
Waymo 开放运动数据集 (WOMD)。 接下来,我们在最近发布的 WOMD(Ettinger 等人,2021 年)上使用 D = 256 评估我们的模型在边缘运动预测任务上的性能。 此任务是一个标准的运动预测任务,其中每个场景最多选择 8 个代理,以独立评估其前 6 个运动预测。 我们用边际损失训练的模型在 minADE、minFDE 和未命中率指标上取得了最先进的结果(表 2)。
4.2 联合运动预测
为了评估 Scene Transformer 在使用联合损失公式(第 3.4 节)进行训练时的有效性,我们在 WOMD 中的交互预测挑战中评估了我们的模型(Ettinger 等人,2021 年)。
此任务测量模型在预测两个联合未来轨迹方面的性能。
交互代理(图 1,右),并采用常见的 minADE、minFDE 和未命中率 (MR) 指标的联合变体,表示为 minSADE、minSFDE、SMR。 请注意,“S”表示“场景级”指标。 这些指标旨在衡量两个代理联合预测的质量和一致性——例如,如果两个交互代理的预测轨迹都在其各自的基本事实的阈值内,则未命中率 (SMR) 的联合变体仅记录“命中”。
我们发现对于交互预测挑战,我们的联合模型的联合预测很容易胜过 WOMD 提供的基线以及模型的边缘版本转换为联合预测 5 到联合预测。 (表3)。 这表明,除了我们整体架构和方法的优势之外,将模型明确训练为联合模型显着提高了联合指标的联合性能。 一个值得注意的观察是,即使交互预测任务只需要预测两个代理的联合轨迹,我们的方法是完全通用的,可以预测所有代理的联合一致的未来。
4.3 因子化代理自注意力
因子化自注意力为我们的模型带来两个好处:(a)它更有效,因为注意力集中在一个较小的集合上,(b)它在整个注意力过程中为每个代理提供了一个隐式身份 时间。 我们进行了一个实验,我们用一个非轴分解的注意力层替换了每个轴分解的注意力层(每对时间和代理分解的层)。 这增加了模型的计算成本,结果证明性能更差。 在我们的 Argoverse 验证数据集上,我们使用分解版本获得了 0.609 的 minADE,使用非分解版本获得了 0.639 的 minADE。
4.4 掩码序列建模策略的优势
我们的模型被表述为掩码序列模型(Devlin 等人,2019 年),其中在训练和推理时,我们指定要从模型中屏蔽哪些代理时间步长。 这个公式允许我们选择在任何时间步提供给模型的关于任何代理的哪些信息,并测量模型如何利用或响应这些附加信息。 我们可以在推理时间在掩码空间(图 2)中表达多个运动预测任务,实际上提供了一个多任务模型。
我们可以使用这种独特的功能来查询模型中的反事实。 给定一组智能体完整轨迹(条件运动预测),或给定一组智能体最终目标(目标调节运动预测),模型将预测什么? 此功能特别适用于自动驾驶汽车计划预测在给定自动驾驶汽车的预期目标的情况下,未来各种场景的展示会是什么样子(图 3)。
在之前的结果中,我们在训练和推理期间使用了 MP-mask,它对应于显示前几个时间步并预测所有代理的剩余时间步。 在这个实验中,我们进一步设计了另外两种掩蔽策略来测试 WOMD 的交互式分割,即“条件运动预测”(CMP),其中我们展示了两个交互代理之一的完整未来轨迹,以及“目标条件运动预测” " (GCP),我们展示了自动驾驶汽车所需的目标状态(图 2)。 我们用 1/3 的时间在三个掩码(包括 MP 掩码)中的每一个上训练多任务模型,并在每个这些任务上评估模型。 我们发现多任务模型在关节(表 3)和边缘指标(另见附录,表 10)上与我们仅 MP 训练的关节模型的性能相匹配,表明添加任务不会降低标准运动预测 表现。
通过额外的多任务训练,生成的模型现在可以以辅助信息为条件。作为第一个测试,我们在 CMP 和 GCP 设置中测量模型降低了预测的整体 minADE(对于 CMP,非 AV 为 1.34 → 1.25;对于 GCP,AV 为 0.95 → 0.60)。 作为第二个测试,我们定性地检查了 GCP 设置中多任务模型的性能,并观察到 ​​AV 和非 AV 代理的联合运动预测灵活地适应 AV 的任意选择的目标点(图 3) . 尽管社区中没有用于量化 GCP 预测的量化基准,但我们将这些结果视为模型正在适当响应的积极指示,并为未来的工作节省了对反事实分析的进一步探索。

讨论

我们提出了一种用于自动驾驶的统一架构,能够对环境中代理的复杂交互进行建模。 我们的方法使单个模型能够执行运动预测、条件运动预测和目标条件预测。 在自动驾驶领域,对这个问题的阐述可能会导致规划系统的学习模型在现有系统的基础上进行定量改进(Buehler 等人,2009 年;Montemerlo 等人,2008 年;Ziegler 等人,2014 年;Zeng 等人 等,2019)。 同样,此类建模工作可用于直接追踪识别环境中相互作用的代理的问题,并可能为识别因果关系提供一项重要任务(Arjovsky 等人,2019 年;Schölkopf 等人,2021 年)。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值