meituan2020轨迹预测翻译

最新推荐文章于 2023-11-14 07:01:39 发布

zzzzz忠杰

最新推荐文章于 2023-11-14 07:01:39 发布

阅读量1.1k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43889128/article/details/111310869

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

动态场景中多个交互代理的轨迹预测或轨迹预测对于许多应用（例如机器人系统和自动驾驶）是一个重要问题。由于代理之间的复杂交互以及它们与周围场景的交互，这个问题是一个巨大的挑战。在本文中，我们提出了一种用于动态场景中的多个智能主体的鲁棒轨迹预测的新方法。所提出的方法包括三个主要的相互关联的组件：用于全局时空交互特征提取的交互网络，用于解码动态场景的环境网（即代理的周围道路拓扑），以及结合时空特征的预测网，场景特征，智能体的过去轨迹以及用于智能体的稳健轨迹预测的一些随机噪声。在行人步行和车辆行人异构数据集上的实验表明，该方法在预测准确性方面优于最新的预测方法。

引言

在许多场景中，例如，具有社交意识的机器人系统[Van den Berg等，2011]，自动驾驶[Ma等，2019b]和行为理解[ Liang等，2019]。诸如人员，车辆和独立机器人之类的智能代理应该能够理解和预测其他人的运动，以避免碰撞并制定更智能的运动计划。轨迹预测已被广泛研究。传统的预测方法，例如高斯过程回归[Rasmussen and Williams，2005]，运动学和动力学方法[ToledoMoreo and Zamora-Izquierdo，2009]和贝叶斯网络方法[Lefèvreet al。，2011]，都忽略了相互作用。代理商，并且只能做出短期预测。最近，递归神经网络（RNN）及其变体[Alahi et al。，2016]，例如长短期记忆（LSTM）和门控递归单元（GRU），已显示出有前途的捕获试剂和药物相互作用的能力。基于它们，提出了许多轨迹预测方法。
但是，由于轨迹预测的几个属性，它仍然是一项具有挑战性的任务：1）当智能主体在公共场所移动时，它们通常会与其他主体（例如人或场景中的障碍物）交互，这被称为社会行为。包括避免碰撞和成组移动在内的动作需要能够预测其他主体的可能移动或动作。社交互动可能不仅限于附近的代理人或障碍。 2）主体的移动不仅取决于附近的主体，而且还受周围的物理场景（即动态场景）的影响。场景的重要因素之一是道路拓扑，例如交叉路口，转弯和滑行道。某些道路拓扑会严重影响移动代理的速度和方向。自治代理应始终在可行的地形上移动。 3）多模式运动特性说明，由于存在多种合理的运动选择，因此交互主体可以遵循多个可行的轨迹。当两个独立的主体相互接近时，会有许多可能的未来轨迹避免碰撞，例如向左，向右移动或停止。
在这项研究中，我们为动态场景中的多个智能主体提出了一种新颖的鲁棒轨迹预测方法。
本文的主要贡献概述如下。
•我们通过具有软代理跟踪模块的交互网络对全局时空交互进行建模。交互网络不仅考虑代理的当前位置和交互，而且还考虑了LSTM在过去轨迹上的隐藏状态下代理之间的时间交互。
•引入了一个环境网来对动态场景进行编码。首先将周围的道路拓扑（例如交互作用，转弯和滑行车道）转换为高清地图，然后通过预训练的卷积神经网络对该地图进行编码。
•我们的轨迹预测网结合了时空交互，环境特征和过去轨迹的特征，以预测所有主体的未来轨迹。注意模型用于自适应编码一个代理与其他代理的时空交互。
本文的其余部分结构如下：在第2节中，回顾了一些相关的工作。在第3节中介绍了所提出的鲁棒轨迹预测方法。在第4节中介绍了与基准数据集上最新轨迹预测方法的实验比较。最后，在第5节中得出了结论。
本文的其余部分结构如下：在第2节中，回顾了一些相关的工作。在第3节中介绍了所提出的鲁棒轨迹预测方法。在第4节中介绍了与基准数据集上最新轨迹预测方法的实验比较。最后，在第5节中得出了结论。

2 相关工作

2.1RNN网络和轨迹预测
递归神经网络（RNN）及其变体，例如LSTM和GRU，在许多序列预测任务中均显示出非常成功的效果[Chung等，2014]。因此，许多研究集中于使用RNN及其变体进行轨迹预测。 [Martinez et al。，2017]提出了一种用于人类运动预测的简单且可扩展的RNN架构。 CIDNN方法[Xu et al。，2018]使用通过LSTM获得的运动特征的内积来编码代理之间的相互作用，并将相互作用特征馈入多层感知器进行预测。通过将单独的LSTM用于道路上的异构媒介，VP-LSTM方法[Bi等人，2019]旨在同时学习和预测行人和车辆的轨迹。在[Choi and Dariush，2019]中，提出了一个关系门模块来代替LSTM单元，以捕获更具描述性的时空交互，并且将局部和全局尺度的人-人和人-场景交互用于未来轨迹预测。这些研究表明，仅RNN无法解决复杂的场景，例如交互作用，物理场景和道路拓扑。准确，可靠且长期的预测始终需要其他结构和操作。
2.2社会行为和互动
基于手工规则和功能，社会力量模型[Helbing andMolnár，1995; Pellegrini等人，2010]使用吸引力和排斥力来描述人群中行人的互动。但是，手工规则和功能无法针对复杂的交互方案进行概括。代替手工参数，最近的方法使用RNN及其变体直接从数据中学习参数。 Social-LSTM [Alahi et al。，2016]提出了一个社交池化层来模拟附近代理之间的交互，其中池化层使用LSTM来编码和解码轨迹。在[Su et al。，2017]中，该方法将LSTM与具有社交意识的循环高斯过程结合使用，以模拟人群中个体的复杂转变和不确定性。 SoPhie方法[Sadeghian et al。，2019]使用来自物理场景上下文和代理之间的社会互动的信息进行预测。 TraPHic方法[Chandra等，2019]建议使用基于水平的权重和基于异质性的权重来描述道路代理之间的相互作用。社交网络方法[Amirian et al。，2019]应用了生成对抗网络（GAN）来得出代理的未来可能轨迹，其中GAN的生成器和鉴别器网络都是由LSTM建立的。
2.3用于轨迹预测的图形模型
许多先前的研究将智能体的交互关系表示为图形，其中节点是指智能体，而边沿则用来表示两两交互。边缘权重用于量化代理之间的重要性。
社交BiGAT方法[Kosaraju等人，2019]提出了一种图注意力网络来对场景中人类之间的交互进行编码，并使用循环编码器-解码器架构来预测轨迹。在[Ivanovic and Pavone，2019]中提出了一种用于多模态轨迹预测的动态图结构模型，称为Trajectron。 TrafficPredict方法[Ma et al。，2019a]构建于4-D图上，由两个主要层组成，一个是实例层，用于学习交互；另一个是类别层，用于学习同一类型实例的相似性。 TrafficPredict对于异类道路代理（如自行车，车辆和行人）的轨迹预测显示出令人鼓舞的结果。 STGAT方法[Huang et al。，2019]首先使用LSTM捕获每个主体的轨迹信息，并应用图注意力网络对每个时间步长中主体之间的交互进行建模。然后，STGAT采用另一个LSTM来明确学习交互的时间相关性。

3 提出的方法

3.1问题的表述
在本研究中，我们考虑两种类型的移动代理：自我代理和其他代理。给出了从时间步骤1到T obs的所有代理的空间坐标，以预测它们在时间步骤T obs + 1到T pred的未来位置。轨迹预测的一般公式表示为N Prediction {θ}：{X i} N i = 1，X ego，Y ego 7-→{Y i} i = 1，其中X i和Y i表示第i个主体的过去和未来轨迹，X ego和Y ego代表自我代理的轨迹，θ表示模型参数。与以往的研究不同，我们考虑了在真实的自动驾驶系统上的预测问题，其中给出了自我代理Y ego的计划轨迹作为参考。计划的轨迹可以提高预测准确性，因为它带来了有关未来的一些先验知识。具体来说，观察到的轨迹或未来的轨迹可以是坐标o X i（或Y i）= n，表示为一组时间（t）（t）（1）（1）（2）（ 2）。
我们使用xi，yi，···，xi，yixi，yi T（t）（t）（t）pi = xi，yi表示在时间步t处第i个代理的位置，并设置自我代理的ID为0。
如图1所示，我们提出的方法由三个相互关联的组件组成：用于时空交互特征提取的交互网络，用于解码动态物理场景的环境探索网络（即周围道路拓扑）和轨迹预测网络。该方法的各个组成部分和实现细节将在下面详细描述。
3.2交互网络
代理交互网络（AIN）旨在对动态中所有代理之间的交互功能进行编码场景。与以往研究中注意模型的成对互动特征相反，我们的方法能够捕获代理之间的集体影响。此外，我们的方法可以考虑egoagent的未来发展以供参考。 AIN将所有代理的三个信息源作为输入：过去的轨迹，LSTM的隐藏状态和自我代理的计划轨迹。根据这些数据，AIN计算全局时空中介之间的交互以及未来的自我他人交互。
全局时空交互的智能体
交互作用所有智能体的过去轨迹都包含动态场景中交互运动的潜在模式。在本模块中，我们打算通过神经网络学习潜在模式。习得的潜在特征代表了路上所有行动者的全球时空相互作用。
给定所有代理在时间t的位置，我们利用线性和最大池化函数生成大小为1×d o的全局位置特征，如下所示：
公式（1 2）
其中W o∈R d o×2和b o∈R d o是权重矩阵和嵌入层的偏差。 Cat（[·]，1）表示串联函数，该函数将所有输入沿第一维连接在一起。 Maxpool（·）函数沿相同的维度（即批处理维度）压缩拼接的数据。
此外，等式中给出的位置特征的关键问题。（2）是暂时性的问题。没有时间信息的过程将忽略过去的交互，并可能导致性能下降。从图2的顶部子图中可以看出，显示了两个相邻时间步长处的两个代理（两个圆圈）的位置。如果不跟踪信息（座席ID），就不可能知道哪个座席以及该座席在该时间段内如何与蓝色三角形交互。如图2的底部子图所示，从时间步长k到k + 1，这些行为者有两种不同的可能的运动行为。在情况1中，两种行为者都可以与蓝色三角形相互作用。
在情况2中，蓝色三角形更有可能与代理2互动。
为了解决时间问题，我们在预测网络中使用LSTM的隐藏状态来跟踪所有代理的位置。全局跟踪特征r（t）∈R 1×d r如下获得：
公式（3,4）
其中W r和b r是层参数，并且h i（t）T obs，h i（t）= h e，i（t）h h，i，当t≤=时t≥T obs + 1。
在实际的自动驾驶系统上，给出了自我代理的计划轨迹，以解决坐标系转换的问题（从世界坐标系到自我代理居中原点的相对坐标系）。从自我角度看，全局代理间交互模块可以用以下数学方式表示：
公式（5,6,7）
其中参数为W m和b m的线性层将自我车辆在两个相邻时间的位移嵌入R 1×d m中的特征中。值得注意的是，这里我们沿第二维连接了三种特征，并生成了大小为1×d st的综合表示。尺寸长度d st等于（d o + d r + d m）。 GRU与LSTM相似，只不过它使用较少的参数并以较少的训练样本收敛得更快。之所以在这里使用GRU，是因为在我们的问题中，自我代理的数量比其他移动代理的数量要少得多。
未来的自我轨迹互动
随着计划的轨迹给出，周围的特工倾向于调整其未来的运动以避免碰撞。
给定自我轨迹Y 0，我们首先使用嵌入层将其映射到高维空间，然后将获得的嵌入特征通过maxpooling函数传递，以生成自我代理的积分表示f t∈R 1×d f。
这种表示方式就是我们所说的未来自我轨迹功能，因为它会影响其他路上人员的轨迹。整个过程制定如下
公式（10）
3.3环境网络
道路拓扑（例如交叉路口，转弯和滑移）对代理的速度和方向都具有重大影响。因此，它是预测代理轨迹的重要因素。在这里，我们使用网络对道路拓扑进行编码，该网络被称为环境网络（EN）。在我们的方法中，EN从高清（HD）映射中显式提取可驾驶区域。通过减去自我视角的自我代理的位置来规范道路的中心线。然后，将经过处理的道路线转换为分辨率为H×W的地图的语义图像I。也就是说，自我代理总是位于图像的中心。此外，为了确保图像和地图的一致性，对道路区域进行了修剪，使距离自发智能体周围的高清地图固定为h×w米。然后，语义图像的分辨率为每像素[h / H，w / W]米。在任何时候，EN都会以道路图像I作为输入，并通过预先训练的ResNet18网络对环境进行编码[He et al。，2016]。
ResNet18的第二个块的输出用作地图功能。与图像I的大小相比，地图特征的下采样系数是8。
给定代理的位置，我们将从计算的地图特征中将本地道路表示合并到其当前位置。从获得的地图特征中提取代理商周围R s米内的环境信息。
因此，特征图上的相应关注区域（ROI）具有[HR s / 4h，W R s / 4w]的空间窗口。
我们在接收场上应用ROIAlign以生成固定的（t）大小表示形式G i∈R C×K×K，其中C是最后一层中输出通道的数量，而K是合并大小。
（t）在生成环境特征Gi时，我们将其馈送到嵌入层以进行尺寸缩减和特征提取。
嵌入操作的计算写为：
公式（8,9）
3.4轨迹预测网络
全球时空相互作用和环境信息分别由AIN和EN编码。
此外，给定移动代理的位置，即第i个，我们首先通过注意力模型计算代理周围的局部交互作用。这是因为一个人在移动时总是专注于周围的区域。
注意模型如下所示：
公式（10,11）
其中W c和b c是嵌入层的参数，σ（·）是S型激活函数，并且是逐元素矢量-矢量或矩阵-矩阵运算。该层（t）将输入映射到关注权重e c，i，其维数与f st（t）相同。
在先前的工作之后，我们利用基于LSTM的序列到序列模型来解决预测问题。
对于每个障碍物，编码器将在最初的Tobs时间步长中将观察到的轨迹作为输入：
公式（15,16）
公式（17,18,19,20,21,22）
3.5实施细节
我们的网络通过最小化均方误差来进行端到端培训，如下所示：
公式（23）
其中T是等于T pred-T obs的预测时间步长。 H是模态数（预测的轨迹）。
我们仅以最小的误差将梯度反向传播到模态。
我们将所有嵌入层（不包括轨迹预测网络中的注意力和噪声嵌入层）的输出尺寸设置为64。AIN中的GRU具有128个像元，而轨迹预测网络中的LSTM则具有64个像元。在EN中，局部区域大小R s和池大小K分别设置为20和3。同时，将道路语义图像的高度H和宽度W设置为224.道路面积h和w设置为100米。
我们的网络使用Adam优化器以0.0005的初始学习率进行了批量为8的20000步训练。
使用NVIDIA GeForce RTX2080 GPU在平台上完成了整个培训过程。

4实验

在本节中，我们在四个基准数据集上评估该方法，以进行未来的轨迹预测，并证明我们的方法相对于最新的预测方法表现良好。我们方法的代码和预先训练的模型将向公众发布。
4.1数据集描述
ETH [Pellegrini等，2009]和UCY [Lerner等，2007]是行人轨迹预测的两个常见基准。这两个数据集包含5个场景，包括ETHuniv，ETH-hotel，UCY-zara01，UCY-zara02和UCY-univ。
总共有1536名行人，具有数千种非线性轨迹。与以前的研究[Alahi等，2016]相同的“一人一出”策略被用于评估比较的方法。
除了行人步行数据集之外，还使用了ApolloScape [Ma等，2019a]和Argoverse [Chang等，2019]数据集来演示比较方法的性能。 ApolloScape数据集由不同类型的交通代理商组成，包括汽车，公共汽车，行人和自行车。该数据集非常具有挑战性，因为它是一个异构的多主体系统。另一方面，Argoverse数据集包含327790个不同场景的序列。
每个序列遵循自我代理的轨迹持续5秒钟，同时跟踪所有其他代理（汽车，行人等）。该数据集被分为具有208272个序列的训练数据和具有79391个序列的验证数据。对于ApolloScape，观察到了3秒（6个时间步长）的轨迹，并且需要使用预测方法来预测接下来的3秒（6个时间步长）的轨迹。对于Argoverse，观察到了20秒的2秒步长，并且需要使用方法来预测接下来的30秒30秒的轨迹。
4.2实验设置
实验结果以两个评估指标报告，即平均位移误差（ADE）和最终位移误差（FDE）。 ADE定义为轨迹的所有预测点和轨迹的地面真值点，而FDE是预测最终位置与地面真值最终位置在预测时间段结束时的距离。
我们使用线性回归，扩展卡尔曼滤波器（KF）和vanila-LSTM作为基线。此外，还比较了许多最新的轨迹预测方法。
Social-LSTM [Alahi et al。，2016]是一种将LSTM与社交池层相结合的预测方法。社交GAN [Gupta et al。，2018]将GAN模型应用于社交LSTM以进行预测。 Social-Way [Amirian et al。，2019]利用GAN模型来提出可能的未来轨迹并训练预测器。 Sophie [Sadeghian et al。，2019]为GAN预测器引入了社交和身体关注机制。
由于没有高清地图信息和自我代理的计划轨迹，因此在针对ETH＆UCY和ApolloScape数据集的拟议方法中，没有自我轨迹特征，自我运动特征和环境特征。
对于Argoverse数据集，将所建议的方法具有所有特征和组成部分以进行比较。
4.3性能评估
ETH和UCY表1给出了ETH和UCY数据集的实验结果。正如预期的那样，基线，线性和LSTM无法捕获行人轨迹中的复杂度模式。
我们的方法在UCY-univ和UCY-zara02子集上优于其他方法，并且在ETH-univ和UCY-zara01子集上显示出竞争结果。在ETH-hotel上，线性方法和社交方法均显示出比其他方法低的预测误差。这表明ETH-hotel中的轨迹是线性分布的，因此比其他4个子集更简单。由于这些方法都在其他4个子集上进行了训练，因此这些非线性预测变量（例如，Social LSTM，Social-GAN，Sophie）在ETH-hotel上显示出较差的泛化能力。另一方面，在ETH-hotel子集上，我们的方法仍然优于Social LSTM，Social-GAN和Sophie。
表2中显示了比较方法在ApolloScape上的性能。可以看出，在ADE / FDE方面，所提出的方法优于第二名，准确度提高了约10％。这意味着我们的交互网络忠实地学习了内在的交互模式，并且关注模块可以为异构交通代理的每个类别提取专门的功能Argoverse Argoverse提供了高清路线图和自我车的规划路径。所提出的方法具有所有组件。实验结果如表3所示。可以看出，该方法的预测误差明显低于其他方法。当使用相对坐标系（自我视角）时，与社交GAN和社交LSTM方法相比，我们观察到ADE分别提高了11％和4％。使用世界坐标系时，与使用社交GAN和使用社交LSTM方法相比，ADE的改进分别为14％和6％。
消融研究所提出的方法由多个独立的组件组成，每个组件具有不同的功能。
为了显示这些组件的有效性，我们对提出的方法进行了消融研究，结果列于表4中。我们使用PF，TF，EMF，ETF，EF来表示位置特征，跟踪特征，自我运动该方法的特征，自我轨迹特征和环境特征。结果表明，PF和TF有助于显着提高，预测误差的减少值分别为0.47和0.14。 EMF，ETF和EF都显示出一定程度的贡献，因此预测误差的减少值分别为0.5、0.4和0.2。误差减小的值正在下降，因为当误差较低时，更难减小预测误差。

5结论

我们提出了一种动态场景中多主体轨迹预测的新方法。该方法能够从过去的轨迹中提取全局时空相互作用特征，并通过软跟踪来考虑主体之间的时间相互作用。我们的方法中引入了一个环境网来对道路拓扑进行编码，以进行准确的预测。预测网结合了时空相互作用和环境特征，预测了主体的未来发展轨迹。提出了在四个基准数据集上进行的实验，并进行了消融研究，以显示该方法各个组成部分的有效性。