美团注意力翻译

最新推荐文章于 2024-06-07 09:44:48 发布

zzzzz忠杰

最新推荐文章于 2024-06-07 09:44:48 发布

阅读量517

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43889128/article/details/114965922

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

人群场景中的行人轨迹预测在许多应用中非常有用，例如视频监控，自动驾驶汽车和机器人系统。然而，由于人群运动的复杂相互作用和不确定性，这仍然是一项艰巨的任务。本文提出了一种新的轨迹预测方法，称为基于注意力的交互感知时空图神经网络（AST-GNN）。AST-GNN使用注意力机制来捕获多个行人之间的复杂交互。注意机制允许对附近行人的交互进行动态和自适应的汇总。获得注意力矩阵后，将其公式化为图神经网络的传播矩阵。最后，在聚集特征的时间维度中使用了时间外推器卷积神经网络（TXP-CNN）来预测行人的未来轨迹。在基准行人数据集（ETH和UCY）上的实验结果表明，与最新的轨迹预测方法相比，AST-GNN在最终位移误差（FDE）和平均位移误差（ADE）方面均具有竞争优势。

1引言

人群场景中的行人轨迹预测在许多应用中都很重要，包括机器人系统，视频监控和自动驾驶汽车。监视系统中的准确轨迹预测有助于识别可疑活动。当应用于机器人技术和自动驾驶汽车时，它使控制器能够在某些紧急情况下（例如紧急制动或避免碰撞）提前制定智能策略。

早期的行人轨迹预测方法，例如高斯过程回归方法[14]，运动学和动力学方法[16]和贝叶斯网络方法[7]，则忽略行人之间的互动，只能做出合理的短期预测。如[1个]，行人轨迹预测是一项具有挑战性的任务，因为行人之间复杂的交互作用被称为社会行为。行人在朝相反的方向行走时往往会成群走动并避免碰撞，他们的互动大致受常识和社会习俗的驱使。因为他们的目的地和可能的路径是未知的，所以人群场景中多个行人的运动通常是随机分布的。GRIP方法[9提出使用图神经网络（GNN）进行轨迹预测。但是，该图是通过参考代理之间的欧几里得距离构造的，并不是最佳选择，因为所有邻居均得到同等对待。

注意机制代替了对局部邻域假设的限制，它有助于对行人之间的相对影响和潜在的空间相互作用进行编码，因为相邻行人对轨迹预测的重要性不同。在本文中，使用图注意（GAT）[17提出了一种机制来捕获行人之间的交互，然后将信息公式化为GNN的传播矩阵[18岁]。由于GNN可以定义特征的归一化加权聚合，因此它是组合相互作用并做出合理预测的强大工具。利用GNN汇总的功能，将时间外推器卷积神经网络（TXP-CNN）用作解码器，以便在数据的时间维度上进行预测。

本文的其余部分安排如下。在Sect中提供了有关工作的简要概述。 2，提出的预测模型在Sect中定义和表示。 3。在ETH上使用最新方法进行实验比较[12]和UCY [8行人数据集显示在Sect中。 4。最后，在本节中给出了一些总结性说明。 5。

2相关作品

最近的一项研究[1个]表示递归神经网络（RNN）及其变体，即长短期记忆（LSTM）和门控递归单元（GRU），在轨迹预测中是成功的。基于多模式分布假设，Social-GAN [4]将社交LSTM扩展为基于RNN的生成模型。CIDNN方法[19]使用LSTM网络提取的运动特征来编码代理之间的交互。展望未来（PIF）[10]和Sophie [15]使用深度卷积神经网络（CNN）从场景中提取视觉特征，并将运动特征组合到LSTM中，以进行符合场景的轨迹预测。或者， [2个]使用时间卷积网络对轨迹进行编码或解码。

许多预测方法建议使用注意力模型来自动为节点分配重要性。社交BiGAT [6]方法使用图注意力模型来捕获行人与周围场景之间的交互。STGAT方法[5首先使用LSTM捕获每个代理的轨迹信息，然后应用GAT在每个时间步对多个代理的交互进行建模。最近，VectorNet方法[3提出了一种方法，并利用一种自我注意机制来汇总道路代理的所有运动特征。社交STGCNN [11通过基于欧几里德距离的核函数定义空间图。与Social-STGCNN相比，基于注意力的自适应图而不是基于距离的图[11]，用于建议的方法中。

3拟议计划

为了克服Social-STGCNN的弱图表示问题[11]，本节提出了一种新颖的基于注意力的时空GNN（AST-GNN）来进行行人轨迹预测。该模型分为三个部分：（1）基于注意力的空间图表示；（2）基于注意力的空间GNN模型；（3）时间外推器轨迹预测模型。所提出的AST-GNN方案的体系结构如图1所示。
3.1行人预测
基于注意力的空间图表示输入表示。原始轨迹数据稀疏，因此首先将原始数据转换为适合后续高效计算的格式。假设在过去的t个时间步长中观察到场景中的n个行人，则此信息以3D数组输入表示，大小为（n×𝑡×𝑐），其中𝑐= 2表示坐标行人。

行人预测的图形表示。用于行人轨迹预测的图是在空间维度上构建的。在时间t，构造一个空间图，它表示时间步t场景中行人的相对位置。 𝐺𝑡定义为𝐺𝑡= {𝑉𝑡，𝐸𝑡}，其中𝑉𝑡= {𝑣𝑖𝑡∣∀𝑖∈ {1，…，𝑁}}是场景中行人的节点集。节点上的feature的特征向量是时间步长t上第i个行人的坐标。 𝐸𝑡= {𝑒𝑖𝑗𝑡∣∀𝑖，𝑗∈{1，…，𝑁}}是图within内设置的边，𝑒𝑖𝑗𝑡表示𝑣𝑖𝑡和between之间的边。
为了建模两个节点之间相互影响的程度，使用加权邻接矩阵代替正常的邻接矩阵。通常，行人之间的距离关系用于建立邻接矩阵的权重。然而，一个人的社交网络是一个复杂的问题，不能简单地由行人与另一个人之间的距离来确定。因此，在这项工作中，GAT机制用于自适应地学习加权邻接矩阵。

图注意机制。 GAT机制用于计算时间步长t的加权邻接矩阵。 GAT机制𝐻𝑡= {ℎ𝑖𝑡∣ℎ𝑖𝑡∈ℝ𝔽，∀𝑖∈{1，…，𝑁}}的输入是时间步长t节点的所有特征向量的集合。为了获得足够的表达能力以将输入特征转换为高级特征，可学习的线性转换𝐖∈ℝ𝔽′×𝔽用于将特征向量从transform转换为ℝ𝔽′。然后，在节点上执行自我关注机制：
公式（注意力）
其中𝛼𝑖𝑗𝑡表示在时间步t处第j个节点对第i个节点的影响，𝐚∈ℝ2𝐹’是权重向量，⋅𝐓表示转置，而‖表示级联运算符。应该注意的是，激活函数LeakyReLU使用负输入斜率𝛼 = 0.2。
3.2基于注意力的空间
GNN模型在提出的AST-GNN模型中，添加了GAT机制以自适应地学习加权邻接矩阵。如图1所示，AST-GNN由两部分组成，即空间图卷积块和时间卷积块。此外，剩余连接用于连接输入和输出，以避免显着的信息丢失。
空间图神经网络。如章节中所述。在图3.1中，输入数据格式为（𝑡×𝑡×𝑐），每个节点的属性为行人的坐标。首先使用内核大小为1的卷积层提取卷积特征图。然后，在Sect中介绍了基于注意力的图形表示运算符。 3.1用于使用特征图construct构造加权邻接矩阵𝑓𝑡𝑐𝑜𝑛𝑣。然后将标准化的加权邻接矩阵𝐴𝑡通过与𝑓𝑡𝑐𝑜𝑛𝑣相乘来执行图操作，如下所示：
公式（2）
其中𝑓𝑡𝑔𝑟𝑎𝑝ℎ是时间步t的图形特征图，, =，+𝐼，是𝑡的对角矩阵，𝜎是参量ReLU（PReLU）的激活函数。

时间外推器轨迹预测模型。时间卷积块用于在时间维度上对图形信息进行建模。首先，将不同时间步长的空间图卷积块的输出以（𝑛×𝑡×𝑐1）的格式堆叠到特征V中，其中𝑐1= 32是特征维。然后，使用内核大小为1的卷积层将特征维从𝑐1减少到𝑐2，以进行后续有效计算，其中𝑐2= 5。然后使用内核大小为（1×3）的卷积层沿时间维处理图特征。最后，输入和输出之间的残余连接用于产生图嵌入。
3.3轨迹预测模型
如图1所示，采用编解码器模型来预测场景中所有行人的轨迹。 AST-GNN模型用作编码器，时间外推器卷积神经网络（TXP-CNN）作为解码器。如图1所示，模型首先从输入图中提取嵌入的空间节点。然后，TXP-CNN接收特征，并生成行人的预测轨迹。
时间外推器卷积神经网络。 TXP-CNN接收图嵌入，直接在时间维度上运行。嵌入𝑉〜的图形的形状为（𝑛×𝑡×𝑐2），我们首先将特征重塑为格式（𝑛×𝑐2×𝑡）。然后，使用五个内核大小为（3×1）的卷积层对整形后的特征进行算子运算，并沿每个卷积算子添加PReLU激活函数。接下来，使用内核大小为（3×1）的卷积层来生成格式为（𝑛×𝑐2×𝑡𝑓）的输出特征，其中𝑡𝑓= 12是预期的预测时间步长。最后，我们将输出特征重塑为（𝑛×𝑐2×𝑡𝑓）格式，并将重塑的特征输入GMM模型以预测未来的轨迹。

4实验

4.1数据集和指标
在本节中，将在两个著名的行人轨迹预测数据集上对所提出的方法进行评估：即ETH [12]和UCY [8]。ETH包含分别表示为ETH和HOTEL的两个场景，而UCY包含分别表示为ZARA1，ZARA2和UNIV的三个场景。两个数据集中的样本在8 s内以0.4 s采样。为了与其他方法公平比较，该方法的实验设置遵循了社会LSTM [1个]。在训练和评估期间，将最初的3.2 s（8帧）用作观察的历史记录，将剩余的4.8 s（12帧）视为预测的地面真实性。

评估使用了两个常用指标，即平均位移误差（ADE）[13]和最终位移误差（FDE）[1个]。ADE测量沿轨迹的平均预测性能，而FDE仅考虑端点的预测精度。
4.2实施细节
使用PyTorch深度学习框架来实现建议的网络。这些模型是使用Nvidia Tesla V100 GPU进行训练的。随机梯度下降（SGD）算法用作优化程序。对模型进行了250个时期的训练，批量大小为128。150个时期后，初始学习率设置为0.01，衰减设置为0.002。

4.3与最新方法的比较
如表 1所示，在ADE / FDE指标方面，将所提出的方法与ETH和UCY数据集上的其他最新方法进行了比较。可以看出，所提出的AST-GNN方法在FDE度量方面达到了新的最新性能，并且优于所有现有的最新技术。这种改进归因于增加的GAT机制。关于FDE指标，与最近的最新方法SR-LSTM-2相比，拟议的方法实现了0.74的误差，降低了20％。21岁]。关于ADE度量，该方法的误差比SR-LSTM-2的误差稍大4％，但这仍然是最好的结果之一。更值得注意的是，所提出的不使用场景图像信息的方法要优于使用图像信息的方法，例如SR-LSTM，PIF和Sophie。

5结论

本文提出了一种新颖的AST-GNN方法，该方法学习了行人轨迹预测的代表性，鲁棒性和判别性图嵌入。该方法利用GAT机制自适应学习加权邻接矩阵，提高了图表示能力。在ETH和UCY数据集上的实验结果表明，该方法优于现有的行人轨迹预测方法。将来，GAT机制将进一步用于行人轨迹预测模型的时间图上，以增强表示能力。

zzzzz忠杰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
美团注意力翻译

最近的一项研究[1个]表示递归神经网络（RNN）及其变体，即长短期记忆（LSTM）和门控递归单元（GRU），在轨迹预测中是成功的。基于多模式分布假设，Social-GAN [4]将社交LSTM扩展为基于RNN的生成模型。CIDNN方法[19]使用LSTM网络提取的运动特征来编码代理之间的交互。展望未来（PIF）[10]和Sophie [15]使用深度卷积神经网络（CNN）从场景中提取视觉特征，并将运动特征组合到LSTM中，以进行符合场景的轨迹预测。或者， [2个]使用时间卷积网络对轨迹进行编码或解码。许多
复制链接

扫一扫

专栏目录