Y-net翻译

摘要

人类轨迹预测本质上是一个多模态问题。 未来轨迹的不确定性源于两个来源:(a) 代理已知但模型未知的来源,例如长期目标和 (b) 代理和模型都不知道的来源,例如意图 其他代理和决策中不可减少的随机性。 我们建议将这种不确定性分解为它的认知和任意来源。 我们通过长期目标中的多模态对认知不确定性进行建模,并通过航路点和路径中的多模态对任意不确定性进行建模。 为了举例说明这种二分法,我们还提出了一种新的长期轨迹预测设置,预测范围长达一分钟,比以前的工作长一个数量级。 最后,我们提出了 Y-net,这是一种场景兼容的轨迹预测网络,它利用所提出的认知和任意结构在长预测范围内进行不同的轨迹预测。 Y-net 在 (a) 斯坦福无人机和 ETH/UCY 数据集上经过充分研究的短预测范围设置和 (b) 重新设计的长期预测范围设置上显着提高了以前的最先进性能 斯坦福无人机和交叉路口无人机数据集。

引言

序列预测是信号处理、模式识别、控制工程等多个工程学科以及几乎所有与时间测量相关的领域中的基本问题。 从 A. A. Markov [29] 用马尔可夫链预测诗歌 Eugene Onegin 中的下一个音节的开创性工作,到现代的自回归后代,如 GPT-3 [6],序列中的下一个元素预测有着悠久的历史。 时间序列预测是序列预测问题的关键实例,其中序列由及时采样的元素形成。 在现代最先进的时间序列预测方法 [37] 中,自回归移动平均模型 (ARMA) [43] 等几种经典技术已被纳入深度学习架构 [41、18]。然而,人类不是没有生命的牛顿实体,是预定物理定律和力量的奴隶。 预测在摩擦和物理约束下在台球桌上平稳滚动的台球的未来运动是一个问题与预测人体运动和位置不同的性质。 人类是目标条件代理,与球不同,他们通过行动来发挥自己的意志以达到预期的结果 [40]。 预测人体运动对于其他人类、自主机器人 [3] 和自动驾驶车辆 [39] 等动态代理至关重要。 人体运动本质上是目标导向的,并且由代理放置到位以产生所需的效果。
然而,即使以智能体过去的动作和总体长期目标为条件,未来的轨迹是否是确定性的? 想想自己站在繁忙街道的十字路口,等待行人灯变绿。 虽然您有过马路的全部意图,但确切的未来轨迹仍然是随机的,因为您可能会突然转向以避开其他行人,在红灯即将变红时加快步伐,或者在不守规矩的骑车人冲过时突然停下来。 因此,即使以过去观察到的运动和场景语义为条件,未来的人类运动本质上也是随机的 [16],这是由于潜在决策变量(如长期目标)和随机决策变量(如环境)引起的任意可变性 [11] 引起的认知不确定性。 因素。 这种二分法在长期预测中更加尖锐,因为由于未来不确定性增加,任意随机性在长期而不是短期时间范围内对轨迹的影响更大。
这激发了人类动力学建模的分解多模态方法,其中随机性的两个因素都是分层建模的,而不是联合集总。
我们假设代理的长期潜在目标代表了运动预测的认知不确定性。
这是由于观察到,虽然智能体在规划和执行其轨迹时心中有一个目标,但预测系统不知道这一点。 在物理方面,这类似于代理想去哪里的问题。 类似地,任意不确定性以通向目标的路径的随机性表示,其中包括代理的惯用性、其他代理等环境变量、代理可用的部分场景信息以及最重要的是人类决策中的无意识随机性等因素。 19]。 在物理方面,这类似于代理如何达到目标的问题。
因此,我们建议首先对认知不确定性进行建模,然后对以获得的估计为条件的任意随机性进行建模。 具体来说,使用 RGB 场景和过去的运动历史,我们首先估计智能体在轨迹末端的最终位置的显式概率分布,即智能体的长期目标。 这代表了预测系统中的认知不确定性。 我们还估计了几个选定的未来航点位置的分布,这些位置与采样的目标点一起用于获得所有剩余轨迹位置的显式概率图。 这代表了预测系统中的任意不确定性。 来自认知目标的样本和任意航路点和轨迹分布一起形成预测的未来轨迹。
总之,我们的贡献是三方面的。 首先,我们提出了一种新的长期预测设置,它可以在未来延长一分钟,比以前的文献长一个数量级。 我们还对之前最先进的短期预测模型在此设置上的性能以及简单的基线进行了基准测试。
其次,我们提出了 Y-net,这是一种符合场景的长期轨迹预测网络,它通过有效利用场景语义对目标和路径多模态进行显式建模。 第三,我们展示了分解多模态建模使 Y-net 能够在提议的长期设置和经过充分研究的短期预测设置上改进最新技术。 我们在短期环境中对 Y-net 在斯坦福无人机 [31] 和 ETH [30]/UCY[23] 基准上的表现进行了基准测试,在 ADE 和 FDE 指标分别增长 34.0% 和 51.9%。 此外,我们还研究了 Y-net 在斯坦福无人机和交叉无人机数据集 [5] 上提出的长期预测设置中的性能,其中它大大提高了最先进的短期方法的性能超过 50.6% 和 ADE 指标分别为 35.0%,FDE 指标分别为 77.1% 和 55.9%。

相关工作

最近的几项研究调查了不同环境下的人类轨迹预测。 从广义上讲,这些方法可以根据为预测中的多模态提出的公式、预测模型可用的输入信号以及模型提供的预测结果的性质和形式进行分组。 几种不同的输入信号,例如代理过去的运动历史 [17]、人体姿势 [27]、RGB 场景图像 [14、35、8、22、26]、场景语义线索 [8]、位置 [36、24、4] 与场景中其他行人 [27, 46] 的凝视、汽车等移动车辆 [36] 以及代理目标等潜在推断信号 [28] 已被使用。 产生的预测结果的形式也多种多样,多模态 [26] 和场景兼容预测是先前工作的核心。
2.1. 单峰预测
早期的轨迹预测工作侧重于对未来的单峰预测。 Social Forces [17] 建议将相互作用建模为吸引力和排斥力,并将未来轨迹建模为在这些力量下演化的确定性路径。 Social LSTM [1] 专注于场景中的其他代理,并通过新颖的池化模块对其效果进行建模。 [46] 在以自我为中心的观点中解决运动预测问题,并开发了一种利用身体等微妙线索的系统姿势和凝视以及相机佩戴者的自我运动,用于其他智能体的未来位置预测。 [42] 建议使用注意力来模拟当前代理与其他代理的交互。 [27] 将轨迹预测为姿势预测的“全局”分支,并建议在预测的单峰轨迹上调节下游任务,例如姿势预测。
2.2. 通过生成建模实现多模态
一系列工作旨在通过具有定义先验分布的潜在变量,通过条件变分自动编码器 [20] 等方法对未来预测中固有的随机性进行建模。 李等人。 [22] 提出了 DESIRE,这是一种基于逆向强化学习的方法,它使用多模态对潜在变量进行采样,该潜在变量通过细化模块进行排序和优化。 CF-VAE [4] 使用带有 VAE 的归一化流来对轨迹等序列中的结构进行建模。 [27] 介绍了使用 CVAE 来捕获以过去运动历史为条件的行人最终位置的多模态。 Trajectron++ [36] 在图形结构的循环网络中表示代理的轨迹,用于场景投诉轨迹预测,同时考虑到与不同代理集的交互。 CGNS [24] 在多模态潜在空间中使用变分散度最小化程序来学习未来轨迹的可行区域。
另一项工作包括 Social GAN [14],它使用对抗性损失 [13] 将多模态纳入预测。 SoPhie [35] 进一步结合了注意力模块来模拟代理与环境和其他代理的交互。
虽然这种生成方法确实会产生不同的轨迹,但不能保证关键模式的整体覆盖,并且几乎无法控制预测轨迹的属性,例如方向、样本数量等。 相反,我们的方法 Y-net 估计显式概率 允许轻松合并下游任务的空间约束的地图。
2.3. 通过空间概率估计的多模态 另一项工作通过估计的概率图获得多模态。 Kitani 等人的活动预测。 [21] 建议使用隐马尔可夫决策过程对未来路径进行建模。 然而,与我们的工作相反,[21] 中的未来预测取决于活动标签,例如“接近车”、“出发车”等。
最近,一些作品使用基于网格的场景表示来估计未来时间步长的概率 [25, 26, 10]。 相关地,一些先前的工作,如 [27, 47, 8] 提出了一种目标条件的轨迹预测方法。 然而,之前的工作没有提出像 Y-net 使用的那样对认知不确定性或目标和任意不确定性或路径进行分解建模。

方法

多模态轨迹预测问题可以正式表述如下。 给定 RGB 场景图像 I 和场景中行人的过去位置,我用 {un } n=1 表示过去 tp = np /FPS 秒以帧速率 FPS 采样的行人的位置,该模型旨在预测行人的位置 未来 tf 秒的行人,用 {u in } n=n 表示 np +nf,其中 tf = nf /FPS。
p 由于未来是随机的,因此对未来轨迹产生了多个预测。 在这项工作中,我们将整体随机性分解为两种模式。 首先是与认知不确定性相关的模式,即模块产生 K e 预测的代理最终目的地的多模态。 其次是与任意不确定性相关的模式,即到达目的地的路径中的多模态源于给定目标的不受控制的随机性,为此模块为每个给定的目的地生成 K 个单独的预测。 在短时间范围限制中,由于总路径长度很小,因此到达给定目标的路径选项有限且彼此相似。 因此,这导致设置 K a = 1,因此预测的总路径(先前工作中的 K)与 K e 相同。 然而,对于更长的时间范围,有几条路径可以达到相同的目标,因此 K a > 1。接下来,我们详细描述我们的模型 Y-net 及其三个子网络 U e 、U g 和 U 的工作 t(第 3.1 节)后面是所使用的非参数采样过程(第 3.2 节)和损失函数(第 3.3 节)的详细信息。
3.1. Y-net Sub-Networks
为了有效利用语义空间中的场景信息和坐标表示的轨迹信息,需要在不同信号之间创建对齐。 一些先前的工作 [35] 通过将二维 RGB 图像 I 编码为从一些预训练网络中提取的一维隐藏状态向量来实现这一点。
虽然这为网络提供了场景信息,但任何有意义的空间信号在展平为向量时都会被高度混淆,并且像素对齐被破坏。
这在 [28] 中得到了强调,它建立了先前的最先进技术,没有任何 RGB 信息,强调了先前作品中对图像信息的滥用。 在这项工作中,我们采用场景热图表示的轨迹,通过在与图像 I 相同的二维空间中空间表示轨迹来解决对齐问题。
3.1.1 场景热图表示的轨迹
RGB 图像 I 首先用语义分割网络(如 U-net [33])进行处理,该网络生成 I 的分割图 S,包括根据表面提供的可供性确定的 Nc 个类别 行走、站立、跑步等动作的代理。在一个并行分支中,代理 p 的过去运动历史 {u n } n=1 被转换为 I 和 n p 通道的空间大小的轨迹热图 H,对应于以帧速率采样的过去 t p 秒。 在数学上,
公式()
然后将热图轨迹表示与沿通道维度的语义图 S 连接起来,在场景热图张量 H S a H × W × (N c + n p ) 维输入张量上生成轨迹,该输入张量被传递到编码器网络 U e 。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值