Goal-GAN: Multimodal Trajectory Prediction Based on Goal Position Estimation

Goal- gan:基于目标位置估计的多模态轨迹预测

摘要

在这篇文章中,我们提出了目标- gan,一个可解释和端到端可训练的人体轨迹预测模型。受人类导航的启发,我们将轨迹预测的任务建模为一个直观的两阶段过程:(i)目标估计,它预测agent最可能的目标位置,然后是一个(ii)路由模块,它估计一组通向估计目标的似是而非的轨迹。我们利用关于过去的轨迹和场景的视觉上下文的信息来估计在可能的目标位置上的多模态概率分布,这用于在推断期间采样潜在的目标。路由由一个循环神经网络控制,它对附近环境中的物理约束作出反应,并生成向采样目标路由的可行路径。我们广泛的实验评估表明,我们的方法在多个基准上建立了新的技术状态,同时能够生成符合物理约束的现实和多样化的轨迹集。

1 引言

对于在公共空间运行的自动驾驶系统,如自动驾驶汽车或社交机器人,人体运动建模是必不可少的。在拥挤的场景中安全航行和防止碰撞不仅需要知道当前的位置,而且需要知道所有移动物体未来的路径。人类轨迹预测尤其具有挑战性,因为行人的轨迹主要取决于他们的意图——而行人的目的地对于外部观察者来说是天生未知的。考虑一个行人到达十字路口的例子,如图1所示。仅仅基于过去的观察,我们无法推断出行人未来的路径:向右、向左或直走,都是等可能的结果。因此,一个强大的预测模型应该能够捕捉该任务的多模态,即预测覆盖场景中呈现的不同模态的轨迹。此外,它应该在每个模式中产生不同的路径集,反映步行风格、速度和不同的避障策略的内在不确定性。

为了捕捉轨迹预测的随机性,最先进的方法利用生成式变分自编码器(VAEs)[1,2,3]和/或生成式对抗网络(GANs)[4,5,6]的力量来预测每一次观测的一组轨迹。
虽然生成方法被广泛用于生成不同的输出,但它们无法明确地捕捉行人轨迹固有的多模态。通常,这些方法产生高度多样化的轨迹,但往往忽略了环境的物理结构。由此产生的轨迹并不一定可行,而且往往不能完全覆盖行人可以走的多个可能的方向(图1a)。捕获所有可行方向的一种更自然的方法是,首先确定一个从似是而非的位置分布采样的中间目标,如图1b所示。在第二步中,模型生成到达采样位置的轨迹(图1c)。虽然主体间的社会互动[7,4,5,6]和局部场景互动已被广泛研究,但几乎没有方法解决明确学习行人轨迹固有的多模态分布的挑战。

在本文中,我们的目标是弥合这一差距,并明确关注生成符合物理约束的不同多模态轨迹的未充分探索的问题。受人类导航研究[8]的影响,我们提出了一种端到端可训练的方法,将轨迹预测的任务分为两个阶段。首先,我们估计可能目标的后验,考虑到行人的动态和视觉场景的背景,然后预测轨迹,这些估计目标的路线。因此,由我们的模型产生的轨迹同时考虑了局部场景信息和agent过去的运动。可能目标位置的估计分布反映了场景中的多模性,而路由模块对局部障碍物做出反应,产生多样化的可行路径。我们确保输出轨迹的多样性和现实主义,通过在生成式对抗设置中训练我们的网络。

综上所述,我们的主要贡献有三方面:(i)我们提出了一种基于人类导航的两阶段端到端可训练轨迹预测方法——goal - gan,该方法将预测任务分为目标位置估计和路径选择两部分。(ii)为此,我们设计了一个新的架构,可以明确估计未来目标位置的可解释概率分布,并允许我们从中取样。使用Gumbel Softmax技巧[9],我们可以通过随机过程来训练网络。(iii)我们在几个公共基准上建立了一个新的最先进水平,并定性地证明我们的方法预测了现实的最终目标位置以及通向它们的似是而非的轨迹。goal - gan1的代码是公开的。

2. 相关工作

有几种方法侧重于建模人-人[4,7],人-空间互动[10,2,11],或两者[5]。最近的方法利用生成模型学习一对多映射,用于对未来多模态轨迹进行采样。
轨迹预测。Helbing和Molar引入了社会力模型(Social Force Model, SFM)[12],这是一种基于物理的模型,能够考虑agent-agent和agent空间相互作用。该方法成功地应用于多目标跟踪领域[13,14,15,16]。从那时起,数据驱动模型[17,18,7,19,4]的表现大大优于基于物理的模型。基于编码器-解码器的方法[2,7]利用循环神经网络[20],以长期短期记忆(LSTM)单元[21]为模型来模拟轨迹的时间演化。这些确定性模型无法捕捉任务的随机性,因为它们被训练成最小化预测与地面真实轨迹之间的L2distance。这通常会导致难以置信的平均轨迹。
最近的方法[22,11]侧重于使用鸟瞰图像[5]和占用网格[10,23]来预测尊重场景结构约束的轨迹。我们的方法同样利用了鸟瞰视图。然而,我们使用视觉信息来明确估计可行和可解释的目标位置,反过来,这些可以用来明确地对最终目标进行取样,从而简化未来轨迹估计的任务。
生成式轨迹预测模型。最近的研究[4,5,6]利用生成模型对不同的轨迹进行取样,而不仅仅是预测单一的确定性输出。大多数方法要么使用变分自编码器(V AEs)[24,3,2,25,26,27,11],要么使用生成对抗网络(GANs)[28,4,5,6,29]。Social GAN (S-GAN)[4]使用一个判别器来学习社会可信路径的分布。Sadeghian等人通过引入软注意[30]机制,将该模型扩展到人类-环境交互作用。GANs在轨迹预测的任务中显示了有希望的结果,但往往受到模式崩溃的影响。为了鼓励生成器产生更多样化的预测,[1]在训练过程中使用最优采样方法,而[6]强制网络利用潜在的噪声向量,结合基于bi[31]的训练。当产生具有高方差的轨迹时,许多轨迹是不现实的,不同可行目的地之间的明确划分(反映固有任务的固有多模态)是不清楚的。为了说明这一点,我们从之前的工作中获得灵感,对特定的目标目的地进行轨迹预测。
Goal-conditioned预测。与上述直接学习一对多映射的生成模型不同,有几种方法提出了两阶段预测方法。与我们的方法类似,这些方法首先预测最终(目标)位置,然后根据这个位置生成轨迹。[32]的早期工作使用粒子滤波器[33]对可能目标的分布进行了建模,而其他方法[34]提出了一个贝叶斯框架,可以同时估计目标点和轨迹。然而,这些纯粹的概率方法在训练过程中是高度不稳定的。条件生成神经系统(CGNS)[35]使用了变分最小化和软注意[30],而[36]提出了条件流VAE,在有效的结构化序列预测之前使用了基于条件流的。这些模型将它们的轨迹生成器限定在初步估计的潜在代码上,但并不明确地预测目标分布,也不采样明确的目标位置。最近,[37]提出了p2tir,该方法使用最大熵逆强化学习策略在离散网格上推断目标和轨迹计划。P2TRL对通过训练策略学习到的未来目标给予奖励,这种策略很慢,计算成本很高。相反,我们使用(离散)概率分布估计和地面真值目标位置之间的二值交叉熵损失直接学习可能目标的多模态分布。这使我们的工作成为第一个直接预测多模态目标的明确(和离散)概率分布的方法(就我们所知),并且是有效的端到端可训练的。

3. 问题定义

通过二维地平面上的x、y坐标参数化,实现了对行人未来位置的预测。作为输入,我们得到他们过去的轨迹和现场的视觉信息,从一个鸟瞰。
我们观察轨迹Xi= {(xt i, yt i)∈R2|t = 1,…, tobs}的N个当前可见的行人,以及在tobs时间步长的自上而下的场景图像I。我们的目标是预测未来头寸Yi= {(xt i, yt i)∈R2|t = tobs+ 1,…, tpr}。
在数据集中,我们只给出tobs的一条未来路径——特别是在实践中观察到的路径。我们注意到,对于这个观测到的输入轨迹,多个独特的轨迹可能是现实的。我们的目标是,给定输入过去的轨迹Xi,生成k∈{1,…, K}多个未来样本ˆYk执行所有行人i∈{1,…N}。这些应该涵盖所有可行的模式,并符合场景的物理约束。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值