PRIME翻译

摘要

预测道路车辆的未来轨迹对于自动驾驶至关重要。 在本文中,我们介绍了一种称为 PRIME 的新型预测框架,它代表“基于模型的规划预测”。 与最近利用神经网络对场景上下文进行建模并产生不受约束的轨迹的预测工作不同,PRIME 旨在生成准确且有可行性保证的未来轨迹预测。 PRIME 通过利用基于模型的生成器在显式约束下生成未来轨迹来保证轨迹可行性,并通过利用基于学习的评估器选择未来轨迹来实现准确的多模态预测。 我们在大规模 Argoverse 运动预测基准上进行了实验,其中 PRIME 在不完美跟踪下的预测准确性、可行性和鲁棒性方面优于最先进的方法。

引言

在自动驾驶的架构中,预测作为桥接模块,根据上游检测和跟踪的感知信息推断未来状态,并提供预测的未来状态以促进下游规划。 因此,对道路车辆进行准确合理的轨迹预测对于规划自动驾驶车辆 (SDV) 的安全、高效和舒适的运动至关重要。
众所周知,轨迹预测的挑战在于建模多智能体交互并推断驾驶场景下的多模态未来状态。 传统方法 [1, 2, 3, 4, 5] 通过手工规则或具有嵌入物理和环境特征的模型产生运动预测,不足以在复杂场景中对交互代理进行建模。 基于学习的方法 [6, 7, 8] 与深度神经网络融合场景上下文信息并生成未来轨迹,显着提高了预测精度并主导了最近的自动驾驶运动预测基准 [9, 10]。
尽管在准确性方面取得了稳步提高,但人们对基于学习的轨迹预测的可行性和鲁棒性的关注却少得多。 事实上,大多数交通参与者在其固有的运动学约束(例如,车辆的非完整运动约束)下运行,同时遵守道路结构(例如,车道连接、静态障碍物)和语义信息(例如,交通灯、速度限制) . 所有这些运动学和环境约束都明确地规范了轨迹空间。 然而,大多数现有方法将交通代理建模为点,并在不施加约束的情况下生成未来轨迹。 这种无约束的预测可能不符合运动学或环境特征,从而在预测的未来状态中产生巨大的不确定性。 因此,下游规划模块不可避免地会承受一些额外的负担,甚至会出现“冻结机器人问题”[11]。 此外,通常由神经网络回归生成的轨迹预测高度依赖于长期跟踪。 对于一些密集驾驶场景,目标会瞬间被遮挡或突然出现在感应范围内,跟踪结果不连续或积累不够。 在这种不完美的跟踪情况下,预测精度将因此下降。
为了克服这些挑战,我们提出了 PRIME,一种用于车辆轨迹预测的新型架构,如图 1 所示。核心思想是利用基于模型的运动规划器作为预测生成器,在显式物理条件下生成可行性保证的未来轨迹 约束,连同作为预测评估器的深度神经网络,通过学习复杂的隐式交互来实现准确的多模态预测。 据我们所知,PRIME 是第一个将可解释的运动规划器纳入预测学习的方法,也是确保数据驱动轨迹预测中运动学和环境可行性的唯一方法。
我们在大规模 Argoverse 运动预测基准上进行了实验,并取得了比最先进技术更好的预测精度。 此外,PRIME在不完美跟踪下的轨迹可行性保证和预测鲁棒性方面表现出显着优势。 这些属性将促进 SDV 更灵活和安全的运动规划。为了克服这些挑战,我们提出了 PRIME,一种用于车辆轨迹预测的新型架构,如图 1 所示。核心思想是利用基于模型的运动规划器作为预测生成器,在显式物理条件下生成可行性保证的未来轨迹 约束,连同作为预测评估器的深度神经网络,通过学习复杂的隐式交互来实现准确的多模态预测。 据我们所知,PRIME 是第一个将可解释的运动规划器纳入预测学习的方法,也是确保数据驱动轨迹预测中运动学和环境可行性的唯一方法。
我们在大规模 Argoverse 运动预测基准上进行了实验,并取得了比最先进技术更好的预测精度。 此外,PRIME在不完美跟踪下的轨迹可行性保证和预测鲁棒性方面表现出显着优势。 这些属性将促进 SDV 更灵活和安全的运动规划。
图 1:PRIME 框架的图示。 基于模型的生成器(左)通过获取目标代理的实时状态 s 0 tar 和高清地图 M 为目标代理采样可行的未来轨迹 T,同时施加显式约束 C 以保证轨迹可行性。 基于学习的评估器(右)接收可行轨迹集 T 和所有观察到的轨迹 S 以对场景上下文中的隐式交互进行建模,然后选择最终的轨迹集 T tar ⊂ T 作为预测结果。

相关工作

预测和规划在自动驾驶中密切相关 [12, 13, 14, 15]。 规划是生成符合约束条件的候选轨迹,并在考虑安全性、舒适度、路径进展等后,选择最佳轨迹供 SDV(自我代理)执行。 预测通过推断周围车辆(目标代理)的未来轨迹来促进规划中的轨迹选择。 它们的侧重点不同,使得相应的主流解决方案出现分歧。 基于模型的方法 [16, 17, 18, 19] 在规划中是首选,因为它们在显式约束下计算安全轨迹的可解释性和可靠性。 相比之下,基于学习的方法 [6, 7, 20, 21] 通过利用其在建模隐式交互方面的优势在预测中占主导地位。
一些基于学习的预测工作结合了从规划到推断可能目标的目标导向思想,然后产生目标条件轨迹 [22, 23, 24, 25]。 此外,引入了新颖的规划-预测耦合框架,以根据自我意图 [26] 或运动计划 [27、28] 进行预测。 尽管非常强调提高点级预测精度,但数据驱动的框架并不能确保给定的约束确实强加于轨迹生成。 尽管 DKM [29] 在输出层中嵌入了两轴车辆运动学 [30] 以确保运动学的可行性,但仍然无法保证环境合规性。
受车辆运动规划中流行的基于采样的范式的启发 [13, 17],我们采用基于模型的规划器来提供可行性保证的轨迹集,从而减少基于学习的部分来评估未来的轨迹。 通过充分利用基于模型的规划和基于学习的预测,PRIME 处理复杂的智能体-地图交互,同时满足环境和运动学约束。
建模代理-地图交互是从场景地图和动态代理中捕获信息的基础。 栅格化表示 [20, 31, 32] 被提出用于基于学习的方法,该方法将交通实体按不同颜色或强度呈现为图像,然后使用卷积神经网络对栅格进行编码。 作为替代方案,矢量化表示 [33, 34, 25] 将场景上下文矢量化为节点以构建图形,从而更明确地利用高清 (HD) 地图并提高预测精度。 相比之下,我们解决了代理映射建模具有层次结构,结合了 [3] 中的车道关联思想,同时扩展到学习全局场景上下文。 具体来说,我们的预测生成器以规划方式在本地起作用以生成路径条件轨迹集,预测评估器通过聚合所有轨迹和地图特征来学习对场景上下文的全局理解。
生成多模态轨迹对于处理固有的多模态预测分布至关重要。 随机模型主要建立在条件变分自动编码器 [7, 35, 36, 37, 38] 和生成对抗网络 [39, 40, 41, 42] 上,而在推理时使用不可控的潜在变量进行采样可能会阻碍它们在安全关键型上的部署 驱动系统。 确定性模型主要基于多模式轨迹回归 [43, 44, 20, 34]。
为了缓解预测学习中的模式崩溃,最近的工作将任务分解为锚轨迹 [45] 或目标条件轨迹 [25] 上的分类,然后是轨迹偏移回归。 但是,无法确保回归结果的可行性。 CoverNet [32] 通过直接对预先构建的轨迹集进行分类来制定多模态预测,但它的预测仍然可能违反代理运动学或场景约束。 对于我们的框架,利用基于模型的规划作为预测生成器在以下方面具有优势:1)通过在不同可达路径上生成轨迹来维持多模态分布,2)通过施加实时约束来确保轨迹可行性,3)减轻对长期依赖的高度依赖。 术语跟踪,以及 4) 生成具有连续信息的轨迹,而不仅仅是离散位置。

概述

问题表述 假设自动驾驶车辆配备检测和跟踪模块以提供道路代理 A 的观察状态 S 并可以访问高清地图 M。让 s 表示代理位置、航向、速度、转弯率和 nai 的状态 ∈ A 在第 t 帧,包括 o −TP +1 −TP +2 0 演员类型,并且 si = si , si , …, si 表示观察周期 TP 中的状态序列。 给定任何代理作为预测目标,我们用一个 tar 表示它,它周围的代理用 A nbrs = {a 1 , a 2 , …, am } 表示以进行区分,它们的状态序列相应地表示为 s tar 和 S nbrs = {s 1 , s 2 , …, sm }。 因此,S = {s tar } ∪ S nbrs 和 A = {a tar } ∪ A nbrs 。
我们的目标是预测多模态未来轨迹 T tar = {T k |k = 1, 2, …, K} 以及相应的轨迹概率 {pk },其中 T k 表示目标代理的预测轨迹 a tar 具有连续 直到预测范围 TF 的状态信息,K 是预测轨迹的数量。 此外,需要确保每个预测 T k ∈ T tar 对现有约束 C 是可行的,包括环境约束 C M 和运动学约束 C tar 。
我们的框架 PRIME 的两阶段架构由基于模型的生成器 G 和基于学习的评估器 E 组成。 具体来说,生成器 G : (s 0 tar , M, C) 7→ (P, T ) 的任务是生成轨迹空间 对于目标,它由一组有限的可行轨迹 T 近似。 这部分首先从高清地图 M 中搜索一组可达路径 P = {P j |j = 1, 2, …, l},为轨迹生成提供参考路径。 然后利用经典的基于采样的规划器在 C 中的约束下生成轨迹样本,从而提供可行的未来 S l 轨迹集 T = j=1 {T j,k |k = 1, 2, …, nj } 为目标。 T j,k 表示从路径 P j 生成的第 k 条可行轨迹,轨迹总数为 n = j=1 n j 。 基于模型的部分专门用于生成保证可行性的轨迹,但忽略了多代理交互。 评估器 E : (P, T , S) 7→ (T tar , {pk }) 负责学习隐式交互,它具有空间信息的双重表示和注意力机制来处理不同大小的 l 可达 路径、m 个周围代理和 n 个可行的轨迹。
值得注意的是,评估器 E 被简化为对轨迹进行评分并选择预测结果 T tar ⊂ T ,而不是像大多数基于学习的框架那样回归位置或位移。

基于模型的生成器

4.1 路径搜索
基于模型的生成器路径搜索 与给定可控自我代理的参考路径的运动规划不同,预测中不可控目标的未来路径是未知的。 因此,我们在轨迹生成之前进行路径搜索,以便任何预测目标都可以与一组潜在路径 P + 相关联。 我们的路径搜索算法 G path : (M, s 0 tar ) 7→ P + 由 DepthFirst-Search 在高清地图 M 上实现,更多细节在补充材料中描述。 产生具有每个车道段序列的中心线坐标的潜在路径 P j ∈ P +,我们期望 P + 的所有路径为 tar 的未来轨迹空间提供足够的覆盖。 由于在此阶段没有强加动态约束,对于当前状态为 s 0 tar 的目标,P + 中的某些路径在帧 t = T F 时可能无法到达。 例如,高速车辆不能在几秒钟内掉头就变到对向车道。 在接下来的轨迹生成阶段可以识别这种无法到达的路径,因为没有可行的轨迹样本。 最后,一组可达路径 P ⊆ P + 将被保留。
4.2轨迹生成
给定 P + 中的潜在路径作为动态参考,我们选择以规划的方式生成未来的轨迹。
path 对于 SDV,运动规划通常旨在找到连接当前状态和目标状态的最佳中心线轨迹,这与为未知意图的车辆推断可能的轨迹 t ? r 的预测有本质区别。 尽管如此,规划中的基于模型的生成器,它为后续选择计算大量的轨迹样本,也可以在预测中被利用。
轨迹 x(s Ԧ t , d(t)) s 0 tar nrd(t) 我们采用 Frenét plan 的轨迹生成阶段 - 图 2:轨迹生成器 G traj 中的 ner [17] 中的轨迹生成:(P + , s 0 tar , C) 7→ 一个 Frenét 框架 T 。 给定 P + 中的参考路径,动态曲线框架由路径中心线上某个点 r 处的切向向量 ~t r 和法向量 ~n r 给出。 笛卡尔坐标 ~x = (x, y) 可以转换为 Frenét 坐标 (s, d),关系为
公式(1)
其中 ~r 表示从路径根指向的向量,s 和 d 表示覆盖的弧长和垂直偏移,如图 2 所示。轨迹生成阶段首先将当前状态 s 0 tar 投影到 Frenét 框架上,然后 获得状态元组 [s 0 , ṡ 0 , s̈ 0 , d 0 , d ̇ 0 , d ̈ 0 ]。 然后通过使用参数曲线将固定的开始状态与不同的结束状态连接起来以覆盖不同的驾驶操作,从而独立地生成预测范围 T F 内的纵向运动 s(t) 和横向运动 d(t)。 与规划相比,预测对目标的状态估计不太准确,并且不需要细粒度的轨迹。 因此,在我们的轨迹生成器中,一些高阶状态变量被简化为零。 对于纵向运动,ˆ ṡ 0 + δ + TF )] 我们在[max(0, ṡ 0 − δ − TF ), min( ṡ, − + ˆ while 使 s(TF) 不受约束。通过考虑 tar 的actor 类型和 M 中的速度限制给出常数 δ , δ 和 ṡ,以将纵向速度 ṡ i 控制在合理范围内。每个纵向轨迹 si (t) 是 使用四次多项式计算
公式(1)
对于横向运动,我们在[−d车道/2,d车道/2]范围内对目标偏移d(T F ) ← d j 进行采样,其中d车道表示车道宽度。 每个横向轨迹 d j (t) 使用五次多项式计算
公式(1)
得到的纵向和横向轨迹集T lon 和T lat ,由T lon × T lat 中的每个组合形成完整的轨迹~x (s(t), d(t))。 接下来,将过滤掉不符合给定约束 C 的轨迹。 我们首先将 Frenét 坐标 (s, d) 投影回全局坐标 (x, y) 以检查轨迹是否与 C M 中给出的静态障碍物碰撞。 对于无碰撞轨迹,它们的高阶状态变量然后通过 Frenét-Cartesian-transfomation 进行转换
公式(2)
检查是否有任何速度 v、加速度 α 或曲率 κ 超过 C tar 中给出的运动学约束。 最后,每条参考路径 P j ∈ P 会生成一组 nj 条可行性保证的未来轨迹 {T j,k |k = 1, 2, …, nj },所有的轨迹一起形成一个整体的轨迹空间 T . 虽然约束设置保守,为基于学习的评估器留有一些余量,但我们基于模型的生成器通过施加约束有效地缩小了轨迹空间 T。 这种独特的优势将使我们的框架具有更高的准确性和鲁棒性。
图 3:PRIME 框架概述。 基于模型的生成器通过地图搜索可达路径 P 并生成可行的未来轨迹 T 。 基于学习的评估器对 (P, T, S) 中的交通实体进行编码,并在随后的注意力模块中学习隐式交互。
之后,每个未来轨迹 T j,k 可以从 P2T 查询其轨迹张量 X j (s tar ),从 A2A 查询交互张量 Y j (s tar ) 和来自 F2F 的未来张量 Z(T j,k ),并对其进行评分 通过将这些张量的串联提供给全连接层。 最后,评估器通过评分并输出 K 个预测轨迹的最终集合,对 T 中所有可行的未来轨迹进行排序。
基于学习的评估器
5.1 状态表示
预测评估器聚合场景上下文,包括观察到的状态序列 S、路径集 P 和未来轨迹集 T。 为了使其与大多数现有的轨迹预测数据集兼容,在学习部分将状态序列 s i 简化为历史轨迹。 在馈入网络之前,我们将每个历史轨迹 s i 和未来轨迹 T j,k 离散为时间间隔为 ΔT 的位置序列,将每个参考路径 P j 离散为距离间隔为 ΔD 的航路点序列。
由于纵向移动 s 和横向偏移 d 表示代理如何相对于参考路径移动,因此它们更直接地表示局部空间关系。 为此,除了笛卡尔坐标 (x, y) 之外,我们还使用 Frenét 坐标 (s, d) 来形成对偶空间表示。 这里,T中未来轨迹的空间信息(x,y,s,d)由生成器给出,而S中历史轨迹的(s,d)坐标是通过将(x,y)坐标投影到 对应的参考路径。 此外,我们采用 [34] 的方法将二进制掩码 b 添加到历史轨迹的表示 (x, y, s, d, b) 以指示该位置是否被填充。
5.2编码场景上下文
在捕获交通实体之间的相互关系之前,我们首先对场景中的每种实体进行编码。 所有编码器都由一个时间卷积层和一个长短期记忆 (LSTM) 层构成。 轨迹编码器和未来编码器使用单向 LSTM,将最后的隐藏状态 h(·) 作为历史轨迹和未来轨迹的运动编码,而路径编码器使用双向 LSTM 并提供隐藏状态序列 H(·) ) 作为路径空间编码。 给定场景上下文描述 (S, P, T ),每条可达路径 P j ∈ P 被编码为 H(P j ),其中 j = 1, 2, …, l。 考虑到 Frenét 表示依赖于路径帧,我们针对每个参考路径 P j 对所有历史轨迹进行编码,这导致 l 组轨迹编码 {h(s tar ), h(s 1 ), … , h(sm )} j . 每个未来轨迹 T j,k ∈ T 都相对于其参考路径 P j ,因此所有未来轨迹都被相应地编码以形成 l 组未来编码 {h(T j,k )|k = 1, 2, … , nj }。
5.3 交互建模
接下来是捕获静态环境和多个动态代理导致的隐式交互。 为了融合场景上下文中来自不同数量实体的时空信息,采用注意力机制[46]构建四个模块,即跟踪路径(P2T)、未来路径(P2F)、代理到代理( A2A) 和未来到未来 (F2F)。 它们以相同的缩放点积注意力方式实现,并使用线性层来映射键、查询和值。
整个工作流程如图 3 所示。在上分支中,P2T 将每个路径编码 P j 的空间信息带入相应的轨迹编码 {h(s tar ), h(s 1 ), …, h( sm )} j . 轨迹编码由 A2A 中的自注意力结构进一步处理,旨在捕获过去时域中代理之间的交互。 较低的分支强调更新包含在未来编码中的特征。 P2F 将路径编码 H(P j ) 的空间信息带入相应的未来编码 {h(T j,k )|k = 1, 2, …, n j }。 紧随其后的是 F2F 融合 S l 所有未来编码 j=1 {h(T j,k )|k = 1, 2, …, nj } 来自不同路径 P j (j = 1, 2, … ., l) 使用自注意力。 特别是,F2F 获得了对 P 给出的可达空间的全局理解,并试图通过这种方式进一步感知 T 中不同轨迹之间的差异。
对于任何未来轨迹 T j,k ∈ T ,对应的轨迹张量 X j (s tar )、交互张量 Y j (s tar ) 和未来张量 Z(T j,k ) 可以从 P2T、A2A 和 F2F 模块中获得 ,然后将它们连接在一起形成完整的描述 U j,k = Concat(X j (s tar ), Y j (s tar ), Z(T j,k ))。
以 U j,k 作为完整描述,我们使用最大熵模型对所有 n 个轨迹 T j,k 进行评分:
公式(3)
其中 f (·) 在评估网络 E 的末端使用 3 层 MLP 实现。 分数标签 ψ(T j,k ) 是通过计算未来轨迹之间的累积平方距离误差 Dist(·) 得出的 T j,k 和预测范围 TF 内的真实轨迹 T GT :
公式(4)
其中 τ 被设置为温度因子。 整个网络通过评估分数和标记分数之间的交叉熵进行训练 L = CrossEntropy(γ(T j,k ), ψ(T j,k ))。 对于需要 K 个预测轨迹的推理阶段,我们采用非最大抑制 (NMS) 算法来去除接近重复的轨迹,如 [25] 中所做的那样。 根据预测的分数,该方法贪婪地从 T 中挑选轨迹,并排除非常接近的轨迹之间得分较低的轨迹。 最后,K个分数降序的轨迹形成预测结果T tar = PK {T i |k = 1, 2, …, K},预测概率pk由pk = γ(T k )/导出 k=1 γ(T k )。

实验

数据集 Argoverse [10] 是最大的公开可用的运动预测数据集之一,其中包含从复杂的城市驾驶场景中收集的超过 324K 的数据序列。 训练、验证和测试集取自城市的不相交部分。 每个序列持续 5 秒,包含以 10 Hz 采样的每个跟踪代理的质心位置,其中将一辆运动相对复杂的车辆标记为预测目标。 目标是在最初的 2 秒观察中预测未来 3 秒的位置。
指标 我们遵循 K = 1 和 K = 6 下的 Argoverse 评估标准。最小平均位移误差 (minADE K) 是最佳预测轨迹的平均 L2 距离误差。 最小最终位移误差 (minFDE K ) 是最终时间戳时最佳预测轨迹的 L2 距离误差。 Miss Rate (MR K ) 是 K 个预测轨迹中没有一个具有小于 2 米 L2 最终位移误差的场景的比率。 对于多模态预测,基于概率的度量 p-minADE K 和 p-minFDE K 是通过将 -log§ 添加到 minADE K 和 minFDE K 来计算的,其中 p 对应于最佳预测轨迹的概率。
在 Argoverse 基准测试中,最佳是指具有最小端点误差的预测轨迹。
实施细节 我们的实施在补充材料中有详细说明。 在最先进的方法中,只有 LaneGCN [34] 是开源的。 因此,我们使用其官方实现和 Argoverse 基线 [10] 进行关于轨迹可行性和不完美跟踪的额外测试。
6.1与最新结果对比
我们将我们提出的 PRIME 与 Argoverse 基线 [10](CV、LSTM+map、NN+map)、Argoverse 运动预测竞赛 2020(Jean [21]、Poly、Alibaba-ADLab)中的前 3 种方法以及 最近发布的最新技术,LaneGCN [34] 和 TNT [25]。
Argoverse 测试集下的性能比较如表 1 所示。 可以注意到,PRIME 在未命中率 (K = 6) 上优于所有其他方法,这是 2020 年 Argoverse 竞赛的官方排名指标。这反映了我们的方法产生准确 多模态预测在不同场景中始终如一。 我们还在基于概率的度量 pminFDE 6 上取得了最好的成绩,这对于在制定决策和运动计划时在多个预测之间进行权衡非常有益。 从具有公开细节的方法,包括 LaneGCN [34]、TNT [25] 和 Jean [21],我们可以发现它们都执行基于学习的范式,利用神经网络对交通实体进行建模并生成未来轨迹,而 PRIME 是唯一一种将基于模型的运动生成器集成到预测学习中的方法。 值得注意的是,由于 Argoverse 数据集中缺乏更详细的道路信息,例如车辆类型、边界框、静态障碍物等,量化结果是通过对基于模型的生成器施加一般约束来实现的。 这表明在真正的自动驾驶系统中部署我们的框架时,还有更多的改进空间。 此外,以可解释的基于模型的方式处理环境和动态约束并生成具有连续状态信息的轨迹对于现实世界的部署非常重要,这无法从评估指标中反映出来。
6.2消融研究
至于提供局部空间关系的 Frenét 表示和融合所有可行轨迹以获得对可达空间的全局理解的 F2F 模块,它们都提升了性能。 相比之下,包含 Frenet 表示更有效。 此外,完整的网络只有 1.02M 的参数,性能最好,这表明分离轨迹生成功能将在实现高性能的同时减少学习负担。
6.3 轨迹可行性
作为典型的非完整运动系统,车辆受到固有运动学特性的约束。 因此,我们研究了预测模型产生的不可行轨迹的比率。 由于无法从常见的基于学习的模型预测的离散位置准确估计高阶状态(速度、加速度或转弯率),因此我们仅使用曲率来评估轨迹可行性。 通过用成对三次样条插值预测位置,我们得到每个点的曲率。 如果曲率 κ > 1/3(即最小转弯半径为 3 米),则轨迹被标记为不可行。 不可行轨迹的比例如表 1 最后一列所示。 除了物理基线 Argo-CV(Constant Velocity),其他作为无约束学习模型的代表,至少有 16.5% 的不可行预测。 虽然我们只使用曲率来判断,并设置了一个相当保守的阈值(普通轿车的最小转弯半径在4.5~6.0米左右),但不可行的预测仍然占相当大的比例,这会给SDV的决策带来多余的负担 和计划。 相比之下,我们框架中基于模型的生成器可以处理任何运动学和环境约束,从而确保轨迹可行性。
6.4不完美的追踪
虽然大多数运动预测数据集为预测目标提供一定持续时间的跟踪结果,但自动驾驶汽车不可避免地会遇到目标在某些时间戳中丢失或跟踪时间不够长的现实情况。 然后需要预测模型来稳健地处理不完美的轨迹,而不是仅限于固定持续时间的跟踪输入。 为了让模型(我们的、LaneGCN 和 NN+map 基线)知道不完美的轨迹,我们通过随机删除跟踪位置来重新训练它们。 为了在保持网络结构的同时处理此类输入,我们用最近的跟踪位置填充丢弃的时间戳的位置,并添加二进制掩码的维度来表示图 4:填充位置下预测稳健性的比较。 丢弃率是运行不完美的跟踪。
对于训练中的每个数据序列,domly 从 0 ∼ 0.6 采样,但在测试中是固定的。 掉落率是逐点应用的,即 0.6 的掉落率可能会掉落更多或少于轨道上 60% 的位置。 始终保留最后一个时间戳,以确保在推理时可以检测到预测目标。 图 4 显示了丢失率如何随轨道丢失率变化,我们观察到我们的模型运行稳定,MR 6 仅相对增加 3.6%,而其他模型的相对增加约为 30% ~ 40%。 结果表明,基于学习的预测模型依赖于长期跟踪的结果来回归轨迹,而我们的框架设计在一定程度上缓解了这一点,从而提高了预测的鲁棒性。

结论

我们提出了预测框架PRIME ,它学习使用基于模型的规划来预测车辆轨迹。 PRIME 通过利用基于模型的生成器在显式约束下生成未来轨迹来保证轨迹可行性。 它通过采用基于学习的评估器来捕获场景上下文中的隐式交互并通过评分选择未来的轨迹,从而做出准确的轨迹预测。 凭借新颖的框架设计,PRIME 在预测准确性、可行性和鲁棒性方面优于最先进的技术。 此外,合理调整轨迹空间、预测具有连续状态的轨迹以及与道路信息的兼容性的优势将使我们的框架在实际系统部署中非常有用。

A 实现细节

A.1 基于模型的生成器
状态估计 Argoverse 缺乏车辆的完整状态描述,而仅通过一系列离散质心位置提供其历史轨迹 si。 因此,我们的框架从估计目标车辆的当前状态 s 0 tar 开始,以初始化基于模型的轨迹生成器。
由于没有给出边界框信息,并且存在一定程度的数据噪声,使得状态估计更加困难,因此在基于模型的部分,我们通过卡尔曼滤波器处理轨迹数据。 然后,根据处理后的数据估计目标车辆的当前速度和航向,同时将其当前的高阶状态变量,包括加速度和转弯率设置为零。
路径搜索。 我们使用Depth-First-Search算法在HD Map M上搜索预测目标星可能到达的潜在路径P+。路径搜索算法Gpath : (M, s 0 tar) 7→ P+部分建立在基线之上 [10] 中的实现。 首先我们在地图上定位 atar 并查询其周围的车道段作为根段。 利用高清地图 M 提供的车道连接信息,我们通过 M 上的深度优先搜索沿着每个根段的前驱和后继搜索段序列,其中前向搜索距离 DF 和后向搜索距离 DB 设置为 140 和 20 米。 接下来,我们连接每对前向和后向段序列并去除冗余序列,最后,每个段序列的中心线坐标产生一条潜在路径 Pj ∈ P+。 通过使用路径搜索 Gpath,我们期望得到的路径集 P + 将提供对 atar 未来路径空间的足够覆盖。 通过统计,数据集中的每个预测目标平均与 3.04 条可达路径相关联。
轨迹生成 给定目标车辆的当前状态估计 s 0 tar 作为初始条件,并将搜索到的潜在路径 P + 作为动态参考,我们的轨迹生成器 Gtraj : (P +, s 0 tar, C) 7→ T 产生纵向运动 s( t) 和横向移动 d(t) 通过使用参数曲线将固定的开始状态与预测范围内的不同结束状态连接起来。 对于纵向运动,我们在 [max(0, s˙0 − δ −TF ), min(s, ˆ˙ s˙0 + δ +TF )] 范围内对目标速度 s˙(TF ) 进行采样,sˆ ˙ = 30m/s, δ − = −6m/s2 , δ + = 6m/s2 且样本数设为35。对于横向运动,我们在[− dlane/2, dlane/2],样本数设置为9。由于无法从Argoverse API查询到位车道宽度,我们在横向采样中将dlane固定为5米。 使用生成的纵向和横向轨迹集 Tlon 和 Tlat,Tlon×Tlat 中的每个组合形成一个完整的轨迹 ~x(s(t), d(t))。 然后我们将 Frenet 坐标 ´ (s, d) 投影回全局坐标 (x, y),以检查相对于环境约束 CM 和运动学约束 Ctar 的轨迹可行性。 鉴于Argoverse Dataset中既没有标注静态障碍物,也没有标注车辆详细信息,我们省略了与静态障碍物碰撞的检查,采用一般的城市轿车设置来保证动态可行性,最大速度v = 33.33m/s, 最大加速度/减速度 α = ±8m/s2 ,曲率 κ = 0.33。 如果可以访问更多的道路信息(静态障碍物、道路边界和交通规则)和车辆信息(边界框、车辆类别或粗略轴距),我们未来的轨迹空间 T 将通过施加更详细的约束来进一步规范化。 最后,数据集中的每个预测目标平均获得 484 条可行的轨迹。
A.2 基于学习的评估器 预测评估器 G : (s 0 tar,M, C) 7→ (P, T ) 编码场景上下文,包括历史轨迹集 S、路径集 P 和未来轨迹集 T。 Argoverse 以时间间隔 ∆T = 0.1s 提供 S 中的历史轨迹,因此 T 中连续的未来轨迹以相同的时间间隔离散化。 P 中的所有可达路径均以距离间隔 ∆D = 2m 进行离散化。 评估网络的详细参数设置可以参考我们的代码库。 我们以 64 的批量大小训练评估网络。网络使用 Adam 进行优化,学习率初始化为 0.001,每 10 个 epoch 衰减 10。 我们使用组数为 4 的组归一化来归一化数据,使用 LeakyReLU 来处理非线性。 此外,我们应用全局随机缩放,缩放比例从 0.75 ∼ 1.25 采样,用于训练中的数据增强。

B 定性分析

B.1 不同交通场景下的结果
图 5 展示了我们的方法在 Argoverse 验证集上复杂交通场景下的可视化结果,涵盖了不同的驾驶速度(高/低速)、机动模式​​(超车、制动、车道 变化、转弯,甚至掉头),道路场景(直路、丁字路口和十字路口)。 从所有这些情况来看,未来轨迹集 T(蓝色)反映了基于模型的生成器通过施加环境和动态约束来合理调整预测空间,同时为目标代理的未来轨迹提供足够的覆盖。 预测结果 Ttar(红色)表明基于学习的评估器能够通过建模交互为 T 中的不同未来轨迹分配权重,从而实现准确的多模态未来预测。 总之,目标的真实轨迹(绿色)与我们的预测结果(红色)大部分重叠,证明了我们提出的框架的有效性。
B.2 与完全基于学习的预测
比较与通过神经网络生成无约束轨迹预测的主流基于学习的方法相比,我们提出的 PRIME 框架的主要区别在于明确约束预测空间,从而确保轨迹的可行性。 在这里,我们使用 LaneGCN [34] 作为典型的完全基于学习的预测模型的代表,考虑到它在表 1 中的多个评估指标上表现最佳,并且在当前最先进的方法中,它是 开源。 我们在图 6 和图 7 中展示了运动学和环境不可行预测的一些常见失败。
由于运动学的限制,车辆不能在高速下突然转弯(图 6 中的第一排),或反转移动方向(图 6 中的第二排)。 此外,跨车道边界转弯(图 7 中的第 1 行)或转向反向车道(图 7 中的第 2 行)的预测结果不符合环境约束。 此外,LaneGCN 预测的反直觉双向轨迹(图 6 中的第 2 行)还表明,完全基于学习的预测依赖于相对长距离轨迹来回归轨迹,但在短距离轨迹下可能会退化。
在上面的一些例子中,虽然看起来 PRIME 和 LaneGCN 在被 minADE6 和 minFDE6 评估时表现出相当的性能,但它们对下游规划的影响却大不相同。 LaneGCN 产生的不可行轨迹给预测的未来状态带来了巨大的不确定性,这会给自动驾驶汽车的决策和运动计划带来多余的负担。 特别是在需要预测多个周边车辆的密集交通中,不可行预测的负面影响将进一步加剧。 相比之下,PRIME 通过给定的约束来规范未来的轨迹空间(蓝色),从而做出准确合理的未来预测(红色)。
B.3 缺陷数据造成的影响
尽管 Argoverse 因其高质量的轨迹和地图注释而成为最受认可的轨迹预测基准之一,但它的一些真实轨迹并不完全正确。 常见问题源于用于注释数据的跟踪方法,包括位置振荡(图 8a)和 id 切换(图 8b),即真实轨迹突然切换到相邻代理。 这样的缺陷案例会导致我们的方法在定量评估中的性能指标(基于 ADE/FDE 的指标)更差,但很明显 PRIME 预测的平滑轨迹更加现实和合理。
B.4 失败案例
最后,我们在图 9 中的 Argoverse 验证集上展示了失败案例。失败主要与目标车辆当前状态 s 0 tar 的估计偏差和高速下较大的未来预测空间有关 场景。
虽然我们的生成器中基于采样的策略可以在一定程度上补偿不准确的状态估计,但是当存在严重的数据噪声时,根据 Argoverse 中给定的质心位置序列估计航向和速度将是难以处理的。 例如,短距离历史轨迹的位置振荡会使航向方向难以估计,如图 9a(左)所示。 结果,真实轨迹位于结果预测空间的跨度范围之外。 当位置序列振动过大时,甚至会影响速度估计的准确性。 如图 9a(右)所示,由于对目标低速的估计不准确,未来轨迹空间没有覆盖地面真实轨迹,导致预测结果中出现相对较大的位移误差。 在自主的同时
在驾驶系统中,检测给出的车辆边界框除了提供离散位置外还提供几何信息,这将使预测目标的状态估计更加稳健和准确。
另一种故障情况发生在高速行驶中。 如图 9b 所示,预测目标高速向其前方空地移动。 它的 3 秒未来轨迹空间要大得多,自然会导致更高的预测失败概率(minFDE6 > 2m)。
尽管如此,可以观察到,我们的预测位于紧凑的可行轨迹空间内,以可接受的位移误差准确捕捉目标的意图,这对于下游的决策和规划是有意义的。

C 运行时分析

我们预测框架的推理频率取决于场景复杂度、采样密度和计算能力。 在 Intel i7-7820X 上运行,单线程生成一条轨迹平均耗时 0.1 ∼ 0.2 ms。 通过独立生成每个轨迹样本,基于模型的轨迹生成器可以高度并行化,从而以令人满意的实时性能全面覆盖未来的预测空间。 对于基于学习的评估器,它是由一个只有 102 万个参数的轻量级网络实现的。 它在 NVIDIA 2080TI 上的推理时间为 8 ∼ 12 ms。 总的来说,PRIME 的整个框架可以很好地满足自动驾驶的实时性要求。

D 局限性和未来工作

该框架可以从以下几个方面进一步完善。 我们在基于模型的生成器中使用了一些固定参数,但在给出所需信息时可以应用更好的策略。 首先,路径搜索阶段的距离阈值可以根据目标车辆的状态进行调整,并且可以通过考虑路缘石、围栏等给出的车道连通性来修剪得到的路径。其次,轨迹生成阶段可以通过 根据限速和就地车道宽度调整横向和纵向采样边界,并根据目标对自动驾驶汽车的影响(例如距离)采用不同的采样密度。 所有这些调整都将有助于减轻基于模型的生成器的计算成本。 对于基于学习的评估器,分离轨迹生成功能使其能够使用具有 1.02M 参数的轻量级网络获得良好的性能,这也为优化网络结构留下了空间。 我们计划将场景编码从可达路径扩展到车道图(如 VectorNet [32] 和 LaneGCN [33] 中提出的),其中完整的上下文编码有望带来性能提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值