A Location-Velocity-Temporal Attention LSTM Model for Pedestrian Trajectory Prediction

行人轨迹预测的位置速度时空注意LSTM模型

1. 引言

轨迹预测对于广泛的应用至关重要,例如在交通环境中预测易受伤害的道路用户的轨迹[1]和基于位置的服务[2],[3]。它也是高级驾驶员辅助系统(ADAS)和自动驾驶汽车的重要组成部分[4]。
预测场景中行人轨迹的一种方法是对人类运动模式的物理模型进行建模。经典论文是社会力量模型(SFM)[5],该模型使用两种不同类型的力量来捕捉这些模式:将人们拉向目的地的吸引力;以及将人们拉向目的地的吸引力。以及使人们远离现场障碍物的排斥力。在过去的几年中,对行人轨迹预测的兴趣激增,并且已经报道了各种新方法。 2015年之前提出的方法通过探索人群运动的物理方面来遵循SFM方法;例如,通过最小化行人之间的碰撞[6],通过根据相互作用力和粒子的势能对行人动力学进行建模[7],并考虑场景中的小障碍物,例如自动售货机,垃圾箱等,影响行人的轨迹[8],或通过使用集成卡尔曼滤波对人体运动进行建模[9]。随着数据驱动的深度学习网络的蓬勃发展,我们最近在行人轨迹预测的文献中看到了巨大的增长,重点是卷积神经网络(CNN),递归神经网络(RNN)和长短期记忆的使用(LSTM)网络[10] – [21]。但是,在这些新方法中仍然存在建模人与人互动和人与人之间关系的概念,并且已经以网络的社交池层或社交池模块的形式实现[11],[22],[23]。其中一些新方法结合了行人的头部姿势等附加信息[17],或者对场景上下文进行了更明确的处理,例如静态障碍物[24],标记为入口/出口区域[25],甚至整个背景场景[12],[18]。
尽管上述方法产生了有希望的预测结果,但它们要求在空间和时间上与每个感兴趣的人(POI)一起捕获相邻的行人。这种要求不仅增加了计算时间和存储空间,而且还必须为每个场景定义一个适当的POI附近大小,以使这些方法发挥最佳性能。这进一步降低了这些方法的通用性,即,这些方法不能直接应用于未训练该方法的场景。显然,如果场景信息不可用,则也不能应用需要场景信息作为输入的方法。
与上面概述的方法相反,还研究了更简单但类似的有效方法。一个例子是Nikhil和Morris的轨迹预测方法[14]。为了实现实时性能,他们的方法使用可并行化的卷积层,并且不包含社交或场景信息。另一个例子是Schöller等人的方法。 [26]作者重新审视并使用简单的等速模型来预测连续位置点之间的相对位移。在我们以前的工作中[27],除了直接从输入轨迹计算出的速度信息之外,基于LSTM的联合位置速度注意网络(LVA)也不需要邻域或场景信息。对于计算资源有限的ADAS和无人驾驶车辆应用,这些更简单的方法更可取。
在本文中,我们通过合并两种我们称为时间注意的注意力机制来扩展我们以前的L V A方法,以适当地加权网络的location-LSTM和speed-LSTM层输出的隐藏状态向量。我们将提出的轨迹预测方法命名为LVTA,其中“ T”代表添加的时间注意机制。我们的L VTA方法的优势在于,预测过程仅取决于POI的轨迹。在L VTA中,场景信息和相邻轨迹都不是必需的。取而代之的是,使用一个调整模块来融合在POI轨迹的观察部分中捕获的位置和速度信息。因此,这两种方法的体系结构都没有[11],[22],[23]中使用的池化层或池化模块。如我们先前的工作[27]所示,LVA已经具有良好的预测性能,我们广泛的实验证实,将时间注意机制包括在内可以显着提高LVTA的性能及其可推广性。具体来说,当两种方法在同一场景(数据集)上进行训练和测试时,我们提出的LVTA优于LVA。此外,LVTA具有更好的通用性,这是由其在新的,看不见的场景中的预测预测所表现出的优异性能所证明的。对于不同的轨迹预测长度,LVTA也始终优于LVA。此外,与几种最新的轨迹预测方法相比,LVTA在两个大型基准数据集上实现了最新的预测性能。
总而言之,我们的研究贡献是:
•我们提出的体系结构具有两个LSTM层,以捕获轨迹的位置和速度坐标的嵌入。它不依赖于场景信息,并且具有良好的通用性。
•我们的体系结构具有一个模块,其中包括位置-速度注意层,用于调整LSTM层的输出。如我们的消融研究所示,调整模块有助于显着改善预测结果。
•我们的L VTA方法中包含的时间注意机制是受机器翻译工作启发的。它捕获了轨迹的观测部分和预测部分之间的隐藏状态向量的关系。我们的实验表明,时间注意力有助于进一步提高预测性能。
本文的其余部分安排如下。第二节概述了有关轨迹预测的相关工作。第三节详细介绍了我们的L VTA体系结构和两个主要的关注机制。第四部分从实验中使用的数据集和度量的概述开始。本节的大部分内容包括详细的实现,包括超参数调整,消融研究,可概括性研究以及与最新方法的比较。本节中还包括L V A和L VTA的计算时间。最后,论文在第五节中总结。
在这里插入图片描述
图1.我们建议的L VTA网络。两个LSTM层分别用于位置和速度嵌入。对于每个LSTM层,使用时间关注机制来生成上下文向量。在预测阶段,位置和速度LSTM层的输出将通过调整模块进行修改,然后再传递到下一个时间步。为了简化可视化,未显示所有t的嵌入向量el t和ev t。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值