multipath翻译

摘要

预测人类行为是运动规划所需的一项艰巨而关键的任务。 它在很大程度上具有挑战性,因为在现实世界领域(例如自动驾驶)中可能产生的结果具有高度不确定性和多模态集。
除了单个 MAP 轨迹预测 [1, 2],获得未来的准确概率分布是一个积极关注的领域 [3, 4]。 我们提出了 MultiPath,它利用了一组固定的未来状态序列锚点,这些锚点对应于轨迹分布的模式。 在推理时,我们的模型预测锚点上的离散分布,并且对于每个锚点,回归锚点航路点的偏移量以及不确定性,在每个时间步产生高斯混合。 我们的模型是高效的,只需要一次前向推理即可获得多模态未来分布,并且输出是参数化的,允许进行紧凑的通信和分析概率查询。 我们在几个数据集上展示了我们的模型实现了更准确的预测,并且与采样基线相比,这样做的轨迹数量减少了一个数量级

引言

我们专注于预测未来代理状态的问题,这是现实世界环境中机器人规划的关键任务。 我们对解决自动驾驶汽车的这个问题特别感兴趣,该应用程序具有潜在的巨大社会影响。 重要的是,预测该领域其他代理的未来对于安全、舒适和高效的操作至关重要。 例如,重要的是要知道如果车辆要在我们的机器人前面切入,或者何时是并入车流的最佳时间,则该车辆让行。 这种未来预测需要了解静态和动态的世界环境:道路语义(例如,车道连接、停车线)、交通灯信息以及其他代理的过去观察,如图 1 所示。
未来状态预测的一个基本方面是它本质上是随机的,因为代理无法知道彼此的动机。 开车时,我们永远无法真正确定其他司机接下来会做什么,重要的是要考虑多种结果及其可能性。
我们寻求一种未来模型,它可以提供 (1) 一组加权、简约的离散轨迹,涵盖可能的结果空间,以及 (2) 对任何轨迹的可能性的封闭形式评估。 这两个属性可以在关键的规划用例中进行有效推理,例如,对离散轨迹假设(例如,屈服、跟随)的类人反应,以及概率查询,例如时空区域中的预期碰撞风险。
这两个属性都带来了建模挑战。 试图实现多样性和覆盖率的模型在训练过程中经常遭受模式崩溃 [4, 5, 6],而由于可能的轨迹空间随时间呈指数增长,因此难以进行易处理的概率推理。
我们的 MultiPath 模型通过一个关键的洞察力解决了这些问题:它采用一组固定的轨迹锚作为我们建模的基础。 这让我们可以分层考虑随机不确定性:首先,意图不确定性捕获了代理打算做什么的不确定性,并被编码为锚轨迹集上的分布。 其次,给定一个意图,控制不确定性代表我们对他们如何实现它的不确定性。 我们假设控制不确定性是正态分布的在每个未来的时间步 [7],参数化使得均值对应于锚状态的上下文特定偏移,相关联的协方差捕获单峰任意不确定性 [8]。
图 1 说明了一个典型场景,其中给定场景上下文有 3 个可能的意图,控制均值偏移细化与道路几何形状有关,并且控制不确定性随着时间的推移直观地增长。
我们的轨迹锚是通过无监督学习在状态序列空间的训练数据中发现的模式。 这些锚为代理的粗粒度未来提供模板,并且可能对应于诸如“改变车道”或“减速”之类的语义概念(尽管要清楚,我们在建模中不使用任何语义概念)。
我们的完整模型在每个时间步预测高斯混合模型 (GMM),混合权重(意图分布)随时间固定。 给定这样的参数分布模型,我们可以直接评估任何未来轨迹的可能性,并且还有一种简单的方法来获得紧凑、多样化的加权轨迹样本集:来自每个锚点意图的 MAP 样本。
我们的模型与过去流行的方法形成对比,过去流行的方法要么仅提供单个 MAP 轨迹 [1, 2, 9, 10, 11],要么通过生成模型 [3, 4, 6, 12, 13, 14, 15] 提供一组未加权的样本 ]。
在涉及自动驾驶汽车等实际应用时,基于样本的方法有许多缺点:(1) 安全关键系统中的不确定性,(2) 对近似误差的处理不佳(例如, .“我必须抽取多少样本才能知道行人过马路的几率?”),(3) 没有简单的方法来对相关查询执行概率推理,例如计算对时空区域的期望。
我们凭经验证明,我们的模型发出的分布可以更好地预测在合成和现实世界预测数据集上观察到的结果:与发出单峰参数分布的模型相比,我们获得了更高的可能性,这表明了多个锚点在现实世界数据中的重要性。 我们还通过使用我们每个锚点的加权 MAP 轨迹集与基于采样的方法进行比较,这在样本集度量上使用更少的样本更好地描述了未来。

相关工作

我们将之前预测未来轨迹分布的方法大致分为两类模型:确定性和随机性。 确定性模型通常通过监督回归 [1, 2, 9, 10, 11, 16] 预测每个代理的单个最可能的轨迹。
随机模型在训练和推理过程中结合了随机抽样,以捕捉未来的非确定性。 Kitani 等人的开创性运动预测工作。 [14] 将此作为马尔可夫决策过程并学习 1 步策略,正如关注以自我为中心的视频和行人的工作一样 [15, 17]。 为了鼓励样本多样性和覆盖率,R2P2 [4] 提出了预测分布和数据分布之间的对称 KL 损失。 一些作品探索了使用条件变分自动编码器 (CVAE) 和 GAN 来生成样本 [3, 6, 13, 18, 19]。 这种非确定性方法的一个缺点是它们会使在更大的系统中重现和分析结果变得困难。
像我们一样,之前的一些工作直接对概率分布进行建模,无论是参数化 [6, 12, 20] 还是概率状态空间占用网格 (POG) [6, 11] 的形式。 虽然非常灵活,但 POG 需要状态空间密集的存储来描述分布,而不仅仅是几个参数,而且从 POG 时空体积中提取轨迹样本的最佳方式并不明显。
我们的方法深受预定义锚概念的影响,该概念在处理多模态问题的机器学习应用中有着丰富的历史,从经典的半参数方法开始,例如局部加权逻辑回归、径向基 SVM 和高斯混合模型 [5]。 在计算机视觉文献中,它们已被有效地用于检测 [21] 和人体姿态估计 [22]。 像我们的一样,这些有效的方法预测了锚点的可能性,并预测了以这些锚点为条件的状态的持续改进(例如框角、关节位置或车辆位置)。

方法

给定场景中所有代理的过去轨迹形式的观察值 x 和可能的附加上下文信息(例如,车道语义、交通灯状态),MultiPath 试图提供(1)未来轨迹 s 的参数分布:p(s| x),以及 (2) 一组紧凑的加权显式轨迹,它很好地总结了这种分布。
让 t 表示离散时间步长,让 st 表示代理在时间 t 的状态,未来轨迹 s = [s1, . . . , sT ] 是从 t = 1 到固定时间范围 T 的状态序列。我们也将轨迹中的状态称为航点。
我们将不确定性的概念分解为独立的数量。 意图不确定性对代理潜在的粗尺度意图或预期目标的不确定性进行建模。 例如,在驾驶环境中,代理试图到达哪条车道的不确定性。 以意图为条件,仍然存在控制不确定性,它描述了代理为满足其意图而遵循的状态序列的不确定性。 意图和控制的不确定性都取决于过去对静态和动态世界环境 x 的观察。
我们将一组离散的意图建模为一组 K 个锚轨迹 A = {ak} K k=1,其中每个锚轨迹是一个状态序列: a k = [ak 1 , . . . , ak T ],假设现在给出。 我们使用 softmax 分布对这组离散意图的不确定性进行建模:π(ak |x) = Pexp fk(x) i exp fi(x)) ,其中 fk(x) : R d(x) 7→ R 是 深度神经网络的输出。
我们简化假设不确定性是单峰给定意图,并将控制不确定性建模为依赖于锚轨迹的每个航路点状态的高斯分布:
公式(1)
对于每个锚轨迹 a k t 的每个时间步长,我们的模型直接将高斯参数 µ k t 和 Σ k t 预测为 x 的函数。 注意在高斯分布平均值 a k t + µ k t 中, µ k t 表示与锚点状态 a k t 的特定场景偏移; 它可以被认为是在先验锚分布之上对特定场景的残差或误差项进行建模。 这允许模型将静态锚轨迹细化到当前上下文,变化来自例如 特定的道路几何形状、交通灯状态或与其他代理的交互。
假设时间步分布在给定锚点的情况下是条件独立的,即我们写成 φ(st|·) 而不是 φ(st|·, s1:t−1)。 这种建模假设使我们能够通过单个推理通道对所有时间步长进行预测,从而使我们的模型易于训练且评估效率高。
如果需要,可以使用循环结构 (RNN) 直接向我们的模型添加条件下一个时间步依赖。
公式(2)
请注意,这会产生高斯混合模型分布,混合权重在所有时间步长内都是固定的。 这是对两种类型的不确定性进行建模的自然选择:它具有丰富的表示能力、封闭形式的分区函数,并且也很紧凑。 很容易在离散采样网格上评估这种分布以获得概率占用网格,比原生占用网格公式更便宜且参数更少 [6, 11]。
获取锚轨迹我们的分布由锚轨迹 A 参数化。正如 [6, 5] 所指出的,直接学习混合物会遇到模式崩溃的问题。 与其他领域(例如对象检测 [23] 和人体姿态估计 [22])的常见做法一样,我们先估计我们的锚点,然后再修复它们以学习我们的其余参数。 在实践中,我们使用 k-means 算法作为简单的近似来获得具有以下轨迹之间距离平方的 A: d(u, v) = PT t ||Muut − Mvvt||2 2 ,其中 Mu, Mv 是仿射的 将轨迹放入规范的旋转和平移不变代理中心坐标系的变换矩阵。 在秒。 4,在某些数据集上,由于先验分布严重偏向于一些常见模式,k-means 导致高度冗余的集群。 为了解决这个问题,我们采用了一种更简单的方法通过均匀采样轨迹空间来获得 A。
学习 我们通过模仿学习来训练我们的模型,通过拟合我们的参数来最大化记录的驾驶轨迹的对数似然。 让我们的数据形式为 {(x m,ˆsm)}M m=1。 我们学习预测分布参数 π(a k |x)、μ(x) k t 和 Σ(x) k t 作为由权重 θ 参数化的深度神经网络的输出,具有以下基于等式 2 的负对数似然损失:
公式(3)
这是标准 GMM 似然拟合的时间序列扩展 [5]。 符号 1(·) 是指示函数,而 ˆk m 是与真实轨迹 ˆsm 最匹配的锚点的索引,以状态序列空间中的 2 -范数距离衡量。 这种对真实锚点的硬分配避开了直接 GMM 似然拟合的棘手性,避免了诉诸期望最大化过程,并让从业者按照自己的意愿控制锚点的设计(请参阅下面的选择)。 还可以对锚点进行软分配(例如,与锚点到地面实况轨迹的距离成正比),同样容易。
推断一组不同的加权测试时间轨迹我们的模型允许我们在测试时避开标准采样技术,并在没有任何额外计算的情况下获得一组加权的 K 个轨迹:我们从 K 个锚模式中的每一个中获取 MAP 轨迹估计,并考虑锚 π(ak| x) 样本权重(即重要性抽样)。 当指标和应用程序需要一组顶部 κ < K 轨迹进行评估时,我们根据这些样本权重返回顶部 κ。
输入表示我们遵循其他最近的方法 [2, 6, 11] 并将动态和静态场景上下文的历史表示为从自上而下的正交角度渲染的 3 维数据数组。 前两个维度代表自上而下图像中的空间位置。 深度维度中的通道包含固定数量的先前时间步长的静态和时变(动态)内容。 代理观察被呈现为定向边界框二进制图像,每个时间步长一个通道。 其他动态上下文,例如交通灯状态和道路的静态上下文(车道连接和类型、停止线、速度限制等)形成了额外的通道。 见秒。 有关更多详细信息,请参见图 4,因为输入内容因数据集而异。 使用这种自顶向下表示的一个重要好处是可以简单地表示上下文信息,例如代理彼此之间的空间关系和语义道路信息。 在秒。 B.4,我们凭经验强调了它对行为预测的好处。
神经网络细节 如图 1 所示,我们设计了一个联合训练的两阶段架构,首先提取整个场景的特征表示,然后关注场景中的每个智能体以进行特定于智能体的轨迹预测。
第一阶段是全卷积以保留空间结构; 它采用上述 3D 输入表示并输出整个自上而下场景的 3D 特征图。 我们选择对这个场景级特征提取器使用基于 ResNet 的架构 [24]。 我们为所有实验采用深度稀疏网络,并根据数据集使用不同数量的残差层。 见秒。 B.2 用于不同 ResNet 设置的速度精度分析。
第二阶段提取大小为 11×11 的块,以该特征图中的代理位置为中心。 为了保持方向不变,提取的特征也通过可微分双线性扭曲旋转到以代理为中心的坐标系。 这种类型的航向归一化的功效在第 2 节中显示。 B.3. 第二个以代理为中心的网络然后在每个代理的基础上运行。 它包含 4 个卷积层,内核大小为 3 和 8 或 16 个深度通道。 它产生 K×T×5 个参数,描述每个锚点的每个时间步长的双变量高斯(由 μx、μy、log σx、log σy 和 ρ 参数化;最后 3 个参数定义了以代理为中心的 x 中的 2×2 协方差矩阵 Σxy, y 坐标空间),以及 K 个 softmax logits 来表示 π(a|x)。

实验

本节介绍了许多预测任务的实证结果。 我们考虑以下方法以对比 MultiPath 的不同方面。
多径 μ [, Σ]。 我们提出的具有多个锚点、建模偏移 μ 和控制不确定性协方差 Σ 的方法。 对于一些实验,我们保持 Σ 冻结,这将最大似然损失减少到简单的 2 损失。 然而,我们不能再在没有 Σ 的情况下估计似然 p(s|x),只能报告基于距离的度量。
回归 μ [, Σ]。 为了验证我们的假设,即建模多个意图很重要,我们修改了 MultiPath 架构以回归单个输出轨迹。 这类似于 [1] 的输出(但扩展到包括不确定性)。
最小 K [20]。 该方法直接预测 K 条轨迹,无需预定义的锚点。 作者在单个轨迹(在 K 中)上定义了一个 ` 2 -loss,与地面真实轨迹的距离最小。 这与我们的方法类似,但随着训练的进行,隐式锚点和锚点的硬分配逐渐演变为地面实况。 这种表示具有固有的歧义问题,可能会受到模式崩溃的影响。 在我们下面的实验中,我们扩展了这个方法来预测每个路点的 μ、Σ 值来评估可能性。
CVAE。 Conditional Variational Auto-Encoder 是一个标准的隐式生成采样模型,在[3]中已经成功地适用于预测自动驾驶的轨迹。 我们有兴趣将其生成不同样本集的能力与 MultiPath 的每个锚点的 MAP 轨迹进行比较——我们假设 MultiPath 将由于其选择的锚点而在相同数量的轨迹下具有更好的覆盖范围。 对于这个基线,我们在第二阶段以代理为中心的特征提取器的末尾添加了一个 CVAE。 解码器和编码器具有相同的架构:4 个全连接层,每层 32 个单元。
线性。 遵循 [25],我们使用过去状态的线性模型来建立简单的恒速模型的性能。 我们将过去观察到的位置拟合为时间的线性函数:对于 t ≤ 0,x t = [αt + β, γt + δ],并使用这些模型来评估未来的位置 x 1 , 。 . . , × T 。 我们使用高阶多项式进行了调查,结果更糟。
我们使用相同的输入表示和可比较的模型架构实现了单轨迹回归、Min-of-K 和 CVAE,以实现公平的比较。 对于基准数据集,我们还报告了取自最近出版物的数字。
4.1指标
不同的方法使用各种输出表示; 主要示例是单轨迹预测 [1]、一组未加权的轨迹样本 [3]、轨迹分布(我们的)或概率占用网格 [11]。 每个表示都有自己的显着指标,因此很难在所有方法之间进行比较。 让 ŝ = ŝ t=1…T 是一个真实轨迹。 我们考虑以下指标:
对数似然 (LL)。 如果模型承认似然评估,我们报告 log p(ŝ|x),当所有参数都被学习时 MultiPath 也是如此(见等式(2))。 该度量按比例缩小了 2 × T ,其中 T 是时间步长的数量,两个空间维度的值为 2。
基于距离。 在这一类别中是常用的平均位移误差 (ADE) PT 1 ∗ ∗ ∗ t=1 kŝ t − stk 2 和最终位移误差 (FDE) kŝ T − s T k 2 ,其中 s 是最可能的 TPT 在一个加权集合内。 为了评估一组轨迹,minADE M min sm T 1 t=1 kŝ t − sm,tk 2 测量相对于大小为 M 的集合中最近轨迹的位移误差,因此合理的预测恰好不是 记录的地面真相不会受到惩罚。 请注意,还有 minMSD M ​​[4],它是类似的,但平均值是根据平方距离计算的。
图 2:三向交叉玩具示例的结果。 由于动态范围很大,用 jet 颜色图显示的不确定性是按每个时间步按图缩放的,不能直接比较。 (a) 从数据生成过程中抽取的样本,真实路径显示为蓝线。 (b) K = 3 个锚点的 MultiPath 正确学习意图和不确定性分布,实现高可能性。 锚点(浅灰色)是通过平均 10 5 个样本来估计的。 © 单轨迹建模预测所有路径的平均值,相应的位置不确定性随着路径发散而增加。 (d) 具有核密度估计分布拟合的 CVAE 样本 [5]。 (e) Min-of K = 5 条轨迹。 该模型对初始权重非常敏感,并且在 4 种学习率的 5 次试验中,仅折叠为 1 或 2 种活动模式(此处显示了 2 种)。 我们在 t = 0 位置周围的小区域内将起始回归权重初始化为均匀随机,以便更好地学习多个独特模式。
4.2玩具实验:三岔路口
我们首先探索基于我们的建模假设生成的简单概念验证数据集。
我们生成合成的 3 路交叉点,选择左侧、中间或右侧路径的概率先验设置为意图不确定性分布 {0.3, 0.5, 0.2}。 为了强调我们的单轨迹控制不确定性建模的灵活性,每个路径都是通过对参数化正弦波进行采样生成的:y = sin(ωt + φ),其中频率 ω ∼ U(0, 2) 和相移 φ ∼ U( -π, π)。 如图 2 所示,MultiPath 能够正确拟合底层分布,恢复意图不确定性,并达到近似贝叶斯最优似然,而其他方法则更糟。
4.3自动驾驶行为预测。
为了验证所提出系统的性能,我们收集了来自北美几个城市的真实驾驶场景的大型数据集。 数据由配备摄像头、激光雷达和雷达的车辆捕获。 与 [2, 6] 中一样,我们假设工业级感知系统为所有附近的代理(包括车辆、行人和骑自行车的人)提供足够准确的姿势和轨迹。 在我们的实验中,我们将传感车辆视为一个额外的代理,与场景中的任何其他代理没有区别。 大多数收集到的车辆轨迹要么是静止的,要么是匀速直线运动。 从行为预测的角度来看,这两种情况都不是特别有趣。 为了解决这个和其他数据集的偏差,我们通过一个统一的二维网格在恒定的曲率和距离上划分未来轨迹的空间,并进行分层采样,使得每个分区中的示例数量上限为最多 5% 结果数据集。 平衡数据集共有 385 万个示例,包含 575 万条代理轨迹,构成大约 200 小时的驾驶时间。
该数据的自上而下渲染的输入张量的分辨率为 400 px × 400 px,对应于现实世界坐标中的 80 m × 80 m。 我们每 0.2 秒 (5 Hz) 采样一次时间步长。 以下特征在深度维度上堆叠:3个颜色编码道路语义的通道,1个通道距离到道路边缘地图,1个通道编码限速,5个通道编码过去5个时间步长(=1秒)的交通灯状态,5个通道每个显示车辆自上而下的正投影 过去 5 个时间步长。 这导致总共 15 个输入通道。
我们预测未来 30 帧/6 秒的轨迹。 锚点 K 的数量对于 MultiPath μ、Σ 设置为 16,对于 MultiPath μ 设置为 64。 场景级网络是一个深度乘数为 25% 的 ResNet50 [24],然后是一个深度到空间的操作,将 ResNet 中一些丢失的空间分辨率恢复到 200 × 200。最后,我们训练 模型端到端 500k 步,批量大小为 32,具有学习率预热阶段和余弦学习率衰减实验结果如表所示。 1. MultiPath 在所有指标上都优于基线。 关于对数似然,我们观察到此任务的最大对数似然测量值落在 3 到 4.2 nat 之间,因此与回归基线相比,MultiPath 大约 0.2 nat 的增益非常显着。 见秒。 A 用于对这些结果进行深入分析。 16 个锚点用于 MultiPath μ, Σ,而 64 个锚点是 MultiPath μ 的最佳 K。 锚点数量 K 的影响分析在 Sec 中。 B.1,而Sec中的数字。 C 可视化锚点。
4.4斯坦福数据集
斯坦福无人机数据集 [28] 由无人机收集的大学校园场景的自上而下的近正交视频组成,其中包含相互作用的行人、骑自行车者和车辆。 RGB 相机帧提供类似于驾驶车辆环境中渲染道路语义的上下文,并且我们是这样对待的。 我们使用文献中最常见的设置:以 2.5 Hz 采样,并使用 2 秒的历史记录(5 帧)预测未来 4.8 秒(12 帧)。 其他实验细节在 Sec. D.
如表所示。 2,我们在最佳单轨迹距离度量方面的表现达到或优于最先进的技术。 值得注意的是,CAR-Net [9] 优于我们的类似单轨迹模型; 他们的方法侧重于复杂的注意力和顺序架构,以获得最佳的单轨迹距离度量性能。 有趣的是,我们的单轨迹模型在训练来预测不确定性时表现更好,这是 [8] 中讨论的建模不确定性的潜在好处。
4.5CARLA
我们在使用 CARLA [29] 模拟器由 [18] 生成的公开可用的多智能体轨迹预测和规划数据集上评估 MultiPath。 实验细节在Sec。 E. 标签。 图 3 再现了 [18] 报告的 DESIRE [3]、SocialGAN [19]、R2P2-MA [4] 和 PRECOG-ESP [18] 方法的结果,并将 MultiPath 的性能与它们进行了比较。 我们使用 [18] 中定义的前 K = 12 个预测报告 minMSD 指标,以报告我们的评估结果。

结论

我们引入了 MultiPath,这是一个模型,可以预测现实世界中代理的未来轨迹的参数分布。 通过合成和真实世界的数据集,我们已经展示了 MultiPath 在实现似然性和轨迹集度量并且只需要 1 次前馈推理传递方面优于以前的单轨迹和随机模型的优势。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值