Res-gcn

自动驾驶汽车(ADV)寄希望于解决交通拥堵问题并减少交通事故的发生。 ADV周围其他交通代理的准确轨迹预测对于实现安全高效的驾驶至关重要。 尤其是行人,由于其复杂的社交互动和随机移动的方式,因此他们的预测更具挑战性。 我们提出了一种残差图卷积神经网络(ResGCNN),该残差图卷积神经网络使用当前场景的构造图的相邻矩阵来对行人的交互行为进行建模。 尽管所提出的Res-GCNN非常轻巧,仅具有约6.4千克参数,在参数大小方面优于所有其他方法,但我们的实验结果表明,最终位移误差(FDE)比现有技术提高了13.3%, 0.65米。 至于平均位移误差(ADE),我们获得了次优的结果(该值为0.37米),这也非常具有竞争力。
Res-GCNN在带有NVIDIA GeForce RTX1080Ti GPU的平台上进行了评估,其整个数据集的平均推断时间仅为2.2微秒。
与其他方法相比,该方法在船上应用中显示出巨大的潜力,可预测准确度和时间效率。 该代码将在GitHub上公开提供。

引言

随着环境污染和交通拥堵的加剧,许多研究都集中在ADV上,这被认为是解决这些日益恶化的问题的方法。 为了实现大规模的商业应用,ADV的驾驶能力(包括效率和安全性)必须比人类驾驶员好得多。 在未来相当长的一段时间内,ADV和自动驾驶汽车将共享道路。 因此,了解ADV的驾驶场景的能力非常重要,这对于获得更安全,更高效的驾驶是必不可少的。 理解驾驶场景最重要的一点是其他车道的准确预测轨迹ADV周围的交通代理商。
与ADV的其他技术(例如感知,计划和控制)相比,对预测技术的研究相对较晚。 然而,近年来已经对其进行了广泛的研究,并且提出了许多有前途的方法。 我们的工作集中在行人的轨迹预测上,由于三个原因,这被认为是最具挑战性的任务。 第一个是社会互动[1],这意味着当行人在环境中移动时,他/她与其他代理商(例如其他行人,汽车,树木等)进行很多互动。 例如,行人总是绕过诸如树木和垃圾箱之类的静态环境障碍,而屈服于快速行驶的汽车和一群人。 第二个问题是多模式问题[2],这意味着通过避免在遇到路径冲突时发生碰撞,行人可以进行许多合理的运动,例如停止,向右移动或加速并通过。
最后一个是运动的随机性[3]。 与车辆相比,行人不受交通法规的限制,因为行人经常在越野地区行走。 而且,由于小的惯性和灵活的运动,行人的步行方向和速度不断变化。
先前对该问题的研究分为三类。 第一种是非深度学习方法,例如HMM(隐马尔可夫模型)[4]和KF(卡尔曼滤波器)[5]。 这些方法无法对行人之间的社交互动进行建模,并且由于相对简单的模型具有较弱的非线性建模能力,因此效果较差。
第二个是RNN(递归神经网络),例如LSTM(长短期记忆)网络[6、7、8]和GRU(门控递归单元)[10]。 通常,这些方法通过多个RNN对每个行人建模,并通过合并或串联操作实现社交互动。 但是,RNN在参数大小方面效率低下,这意味着要达到相同的精度,RNN需要更多的数据来学习模式。 此外,用于建模社交互动的合并或连接操作缺乏直观的物理意义。
最后一个是GCNN(图卷积神经网络)[9、12、13、15、18、20]。 这些方法将整个场景建模为图形形式的非结构化数据,其中图形中的节点表示实体,边缘表示连接的相对关系节点。 GCNN具有高效的参数和省时的在线推理功能。 最重要的是,这些图形能够直接对行人之间的交互模式进行建模,并考虑来自同一场景中所有其他行人的影响。 因此,在这项工作中,我们采用GCNN来预测行人的轨迹。
具体来说,我们提出了一种新颖的鲁棒轨迹预测网络,称为Res-GCNN。 我们应用残差结构[14,26],它由快捷连接和卷积映射组成。 在这项工作中,轨迹分为两部分:线性部分和非线性部分。
线性运动不涉及方向和速度的变化,而非线性运动则涉及运动方向或速度的变化。 通过采用残差结构,通过实现身份映射的快捷方式学习线性运动,而通过卷积映射对非线性部分进行建模。 同时,提出了一种新颖的方法来构造所研究场景图的相邻矩阵。 当计算两个感兴趣的行人之间的核函数时,新颖性包括速度和方向校正。
本文的其余部分结构如下:在第2节中,对一些密切相关的工作进行了回顾。 拟议的Res-GCNN在第3节中进行了详细介绍。 在第4节中介绍了对包括ETH和UCY在内的基准数据集的最新轨迹预测方法的实验比较。最后,在第5节中得出了结论。

相关工作

本部分简要回顾了相关工作。 考虑到最近的进展,我们集中在以下三个方面。
轨迹预测的RNN
文献[6]中的Social-LSTM是第一个考虑到近端行人之间的社交互动的研究。 它应用LSTM提取场景中每个轨迹的顺序位置数据模式。 创造性地,提出了池化机制以在一定的空间距离内池化邻居的隐藏状态。 然后,将合并的信息用作下一个时间步的输入,以实现时间信息共享。 但是,仅计算特定半径内相邻网格的部分交互,而不是全局交互。
文献[10]中的Social-GAN使用编码器-解码器体系结构。 编码器为每个人采用LSTM,然后将编码后的信息连接到新的合并层。 池化层计算感兴趣的人和所有其他人之间的相对位置。 这些位置与每个人的隐藏状态相关联,由MLP(多层感知器)独立处理,然后逐元素合并以计算感兴趣的人的合并向量。 预测轨迹是基于合并向量生成的。
Meituan [11]中的方法提出了一个交互网络,该交互网络对全局交互信息进行建模。 在第一阶段,将LSTM应用于每个行人以对轨迹特征进行编码。 然后,使用最大池操作来对社交互动进行建模。 最大池化层的输出连接到GRU,以进一步编码当前场景的时空特征。 当预测某些特定行人的未来轨迹时,查询操作被设计为查询社交互动。
用于轨迹预测的图形模型
[22]中的STGAT采用编码器-解码器框架。 LSTM用于提取嵌入,然后将嵌入的特征连接到图形注意模型。
对于特定场景,行人在每个时间步都被视为完整图上的节点,而图上的边则代表了人与人之间的互动。 而且,它允许节点将加权的重要性分配给邻域内的不同节点,并从中聚合特征。
文献[13]中的Social-BiGAT利用图模型来收集与之交互的邻居行人的加权注意力。 LSTM连接在图形模型后面,以进一步提取更深更广的属性。
文献[21]中的Social-STGCNN构造了给定观测数据帧的时空图。 然后对构造的图执行卷积运算以创建时空嵌入。 在此之后,时间外推卷积神经网络可以预测未来的路径。 值得注意的是,Social-STGCNN与其对应的对象不同,直接将观察位置用作图节点,并且比较了几个核函数以计算图的边缘。
与[21]中类似,我们通过图表示直接比RNN更直观,更有效地对研究场景进行建模。 不同地,我们将轨迹解耦为线性和非线性特征。 然后,我们在工作中创造性地采用残差结构,以从输入中捕获线性特征。
社交互动建模
如上所述,通常有两种技术可以对社交互动建模。 一种是置换不变对称函数,例如最大池或平均池。 合并方法有两个缺点,即参数效率低和物理意义不足。 显然,池化方法中使用的RNN比其他网络单元具有更多的参数,这进一步花费了更多的时间和数据来训练此类模型。
另一方面,合并方法缺乏对交互行为的直观感。
另一个是图模型,它主要由节点和边组成。 通常,将行人的特征用作节点,并将成对的特征之间的关系用作图形边缘。 特征可以是历史轨迹或从历史轨迹提取的编码信息。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值