美团注意力翻译

摘要

人群场景中的行人轨迹预测在许多应用中非常有用,例如视频监控,自动驾驶汽车和机器人系统。然而,由于人群运动的复杂相互作用和不确定性,这仍然是一项艰巨的任务。本文提出了一种新的轨迹预测方法,称为基于注意力的交互感知时空图​​神经网络(AST-GNN)。AST-GNN使用注意力机制来捕获多个行人之间的复杂交互。注意机制允许对附近行人的交互进行动态和自适应的汇总。获得注意力矩阵后,将其公式化为图神经网络的传播矩阵。最后,在聚集特征的时间维度中使用了时间外推器卷积神经网络(TXP-CNN)来预测行人的未来轨迹。在基准行人数据集(ETH和UCY)上的实验结果表明,与最新的轨迹预测方法相比,AST-GNN在最终位移误差(FDE)和平均位移误差(ADE)方面均具有竞争优势。

1引言

人群场景中的行人轨迹预测在许多应用中都很重要,包括机器人系统,视频监控和自动驾驶汽车。监视系统中的准确轨迹预测有助于识别可疑活动。当应用于机器人技术和自动驾驶汽车时,它使控制器能够在某些紧急情况下(例如紧急制动或避免碰撞)提前制定智能策略。

早期的行人轨迹预测方法,例如高斯过程回归方法[14],运动学和动力学方法[16]和贝叶斯网络方法[7],则忽略行人之间的互动,只能做出合理的短期预测。如[1个],行人轨迹预测是一项具有挑战性的任务,因为行人之间复杂的交互作用被称为社会行为。行人在朝相反的方向行走时往往会成群走动并避免碰撞,他们的互动大致受常识和社会习俗的驱使。因为他们的目的地和可能的路径是未知的,所以人群场景中多个行人的运动通常是随机分布的。GRIP方法[9提出使用图神经网络(GNN)进行轨迹预测。但是,该图是通过参考代理之间的欧几里得距离构造的,并不是最佳选择,因为所有邻居均得到同等对待。

注意机制代替了对局部邻域假设的限制,它有助于对行人之间的相对影响和潜在的空间相互作用进行编码,因为相邻行人对轨迹预测的重要性不同。在本文中,使用图注意(GAT)[17提出了一种机制来捕获行人之间的交互,然后将信息公式化为GNN的传播矩阵[18岁]。由于GNN可以定义特征的归一化加权聚合,因此它是组合相互作用并做出合理预测的强大工具。利用GNN汇总的功能,将时间外推器卷积神经网络(TXP-CNN)用作解码器,以便在数据的时间维度上进行预测。

本文的其余部分安排如下。在Sect中提供了有关工作的简要概述。 2,提出的预测模型在Sect中定义和表示。 3。在ETH上使用最新方法进行实验比较[12]和UCY [8行人数据集显示在Sect中。 4。最后,在本节中给出了一些总结性说明。 5。

2相关作品

最近的一项研究[1个]表示递归神经网络(RNN)及其变体,即长短期记忆(LSTM)和门控递归单元(GRU),在轨迹预测中是成功的。基于多模式分布假设,Social-GAN [4]将社交LSTM扩展为基于RNN的生成模型。CIDNN方法[19]使用LSTM网络提取的运动特征来编码代理之间的交互。展望未来(PIF)[10]和Sophie [15]使用深度卷积神经网络(CNN)从场景中提取视觉特征,并将运动特征组合到LSTM中,以进行符合场景的轨迹预测。或者, [2个]使用时间卷积网络对轨迹进行编码或解码。

许多预测方法建议使用注意力模型来自动为节点分配重要性。社交BiGAT [6]方法使用图注意力模型来捕获行人与周围场景之间的交互。STGAT方法[5首先使用LSTM捕获每个代理的轨迹信息,然后应用GAT在每个时间步对多个代理的交互进行建模。最近,VectorNet方法[3提出了一种方法,并利用一种自我注意机制来汇总道路代理的所有运动特征。社交STGCNN [11通过基于欧几里德距离的核函数定义空间图。与Social-STGCNN相比,基于注意力的自适应图而不是基于距离的图[11],用于建议的方法中。

3拟议计划

为了克服Social-STGCNN的弱图表示问题[11],本节提出了一种新颖的基于注意力的时空GNN(AST-GNN)来进行行人轨迹预测。该模型分为三个部分:(1)基于注意力的空间图表示;(2)基于注意力的空间GNN模型;(3)时间外推器轨迹预测模型。所提出的AST-GNN方案的体系结构如图1所示 。
3.1行人预测
基于注意力的空间图表示输入表示。 原始轨迹数据稀疏,因此首先将原始数据转换为适合后续高效计算的格式。 假设在过去的t个时间步长中观察到场景中的n个行人,则此信息以3D数组输入表示,大小为(n×𝑡×𝑐),其中𝑐= 2表示坐标 行人。

行人预测的图形表示。 用于行人轨迹预测的图是在空间维度上构建的。 在时间t,构造一个空间图,它表示时间步t场景中行人的相对位置。 𝐺𝑡定义为𝐺𝑡= {𝑉𝑡,𝐸𝑡},其中𝑉𝑡= {𝑣𝑖𝑡∣∀𝑖∈ {1,…,𝑁}}是场景中行人的节点集。 节点上的feature的特征向量是时间步长t上第i个行人的坐标。 𝐸𝑡= {𝑒𝑖𝑗𝑡∣∀𝑖,𝑗∈{1,…,𝑁}}是图within内设置的边,𝑒𝑖𝑗𝑡表示𝑣𝑖𝑡和between之间的边。
为了建模两个节点之间相互影响的程度,使用加权邻接矩阵代替正常的邻接矩阵。 通常,行人之间的距离关系用于建立邻接矩阵的权重。 然而,一个人的社交网络是一个复杂的问题,不能简单地由行人与另一个人之间的距离来确定。 因此,在这项工作中,GAT机制用于自适应地学习加权邻接矩阵。

图注意机制。 GAT机制用于计算时间步长t的加权邻接矩阵。 GAT机制𝐻𝑡= {ℎ𝑖𝑡∣ℎ𝑖𝑡∈ℝ𝔽,∀𝑖∈{1,…,𝑁}}的输入是时间步长t节点的所有特征向量的集合。 为了获得足够的表达能力以将输入特征转换为高级特征,可学习的线性转换𝐖∈ℝ𝔽′×𝔽用于将特征向量从transform转换为ℝ𝔽′。 然后,在节点上执行自我关注机制:
公式(注意力)
其中𝛼𝑖𝑗𝑡表示在时间步t处第j个节点对第i个节点的影响,𝐚∈ℝ2𝐹’是权重向量,⋅𝐓表示转置,而‖表示级联运算符。 应该注意的是,激活函数LeakyReLU使用负输入斜率𝛼 = 0.2。
3.2基于注意力的空间
GNN模型在提出的AST-GNN模型中,添加了GAT机制以自适应地学习加权邻接矩阵。 如图1所示,AST-GNN由两部分组成,即空间图卷积块和时间卷积块。 此外,剩余连接用于连接输入和输出,以避免显着的信息丢失。
空间图神经网络。 如章节中所述。 在图3.1中,输入数据格式为(𝑡×𝑡×𝑐),每个节点的属性为行人的坐标。 首先使用内核大小为1的卷积层提取卷积特征图。 然后,在Sect中介绍了基于注意力的图形表示运算符。 3.1用于使用特征图construct构造加权邻接矩阵𝑓𝑡𝑐𝑜𝑛𝑣。 然后将标准化的加权邻接矩阵𝐴𝑡通过与𝑓𝑡𝑐𝑜𝑛𝑣相乘来执行图操作,如下所示:
公式(2)
其中𝑓𝑡𝑔𝑟𝑎𝑝ℎ是时间步t的图形特征图,, =,+𝐼,是𝑡的对角矩阵,𝜎是参量ReLU(PReLU)的激活函数。

时间外推器轨迹预测模型。 时间卷积块用于在时间维度上对图形信息进行建模。 首先,将不同时间步长的空间图卷积块的输出以(𝑛×𝑡×𝑐1)的格式堆叠到特征V中,其中𝑐1= 32是特征维。 然后,使用内核大小为1的卷积层将特征维从𝑐1减少到𝑐2,以进行后续有效计算,其中𝑐2= 5。 然后使用内核大小为(1×3)的卷积层沿时间维处理图特征。 最后,输入和输出之间的残余连接用于产生图嵌入。
3.3轨迹预测模型
如图1所示,采用编解码器模型来预测场景中所有行人的轨迹。 AST-GNN模型用作编码器,时间外推器卷积神经网络(TXP-CNN)作为解码器。 如图1所示,模型首先从输入图中提取嵌入的空间节点。 然后,TXP-CNN接收特征,并生成行人的预测轨迹。
时间外推器卷积神经网络。 TXP-CNN接收图嵌入,直接在时间维度上运行。 嵌入𝑉〜的图形的形状为(𝑛×𝑡×𝑐2),我们首先将特征重塑为格式(𝑛×𝑐2×𝑡)。 然后,使用五个内核大小为(3×1)的卷积层对整形后的特征进行算子运算,并沿每个卷积算子添加PReLU激活函数。 接下来,使用内核大小为(3×1)的卷积层来生成格式为(𝑛×𝑐2×𝑡𝑓)的输出特征,其中𝑡𝑓= 12是预期的预测时间步长。 最后,我们将输出特征重塑为(𝑛×𝑐2×𝑡𝑓)格式,并将重塑的特征输入GMM模型以预测未来的轨迹。

4实验

4.1数据集和指标
在本节中,将在两个著名的行人轨迹预测数据集上对所提出的方法进行评估:即ETH [12]和UCY [8]。ETH包含分别表示为ETH和HOTEL的两个场景,而UCY包含分别表示为ZARA1,ZARA2和UNIV的三个场景。两个数据集中的样本在8 s内以0.4 s采样。为了与其他方法公平比较,该方法的实验设置遵循了社会LSTM [1个]。在训练和评估期间,将最初的3.2 s(8帧)用作观察的历史记录,将剩余的4.8 s(12帧)视为预测的地面真实性。

评估使用了两个常用指标,即平均位移误差(ADE)[13]和最终位移误差(FDE)[1个]。ADE测量沿轨迹的平均预测性能,而FDE仅考虑端点的预测精度。
4.2实施细节
使用PyTorch深度学习框架来实现建议的网络。这些模型是使用Nvidia Tesla V100 GPU进行训练的。随机梯度下降(SGD)算法用作优化程序。对模型进行了250个时期的训练,批量大小为128。150个时期后,初始学习率设置为0.01,衰减设置为0.002。

4.3与最新方法的比较
如表 1所示,在ADE / FDE指标方面,将所提出的方法与ETH和UCY数据集上的其他最新方法进行了比较。可以看出,所提出的AST-GNN方法在FDE度量方面达到了新的最新性能,并且优于所有现有的最新技术。这种改进归因于增加的GAT机制。关于FDE指标,与最近的最新方法SR-LSTM-2相比,拟议的方法实现了0.74的误差,降低了20%。21岁]。关于ADE度量,该方法的误差比SR-LSTM-2的误差稍大4%,但这仍然是最好的结果之一。更值得注意的是,所提出的不使用场景图像信息的方法要优于使用图像信息的方法,例如SR-LSTM,PIF和Sophie。

5结论

本文提出了一种新颖的AST-GNN方法,该方法学习了行人轨迹预测的代表性,鲁棒性和判别性图嵌入。该方法利用GAT机制自适应学习加权邻接矩阵,提高了图表示能力。在ETH和UCY数据集上的实验结果表明,该方法优于现有的行人轨迹预测方法。将来,GAT机制将进一步用于行人轨迹预测模型的时间图上,以增强表示能力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值