TrafficPredict 翻译

摘要

为了在复杂的城市交通中安全高效地导航,自动驾驶汽车必须对周围的交通媒介(车辆,自行车,行人等)做出负责任的预测。 一项艰巨而艰巨的任务是探索不同交通代理的移动方式并准确预测其未来轨迹,以帮助自动驾驶汽车做出合理的导航决策。 为了解决此问题,我们提出了一种基于长短期记忆(基于LSTM)的实时流量预测算法TrafficPredict。 我们的方法使用实例层来学习实例的移动和交互,并使用类别层来学习属于同一类型的实例的相似性以完善预测。 为了评估其性能,我们收集了一个由变化的条件和交通密度组成的大城市的轨迹数据集。 该数据集包括许多具有挑战性的场景,其中车辆,自行车和行人之间相互移动。 我们评估了TrafficPredict在新数据集上的性能,并通过与先前的预测方法进行比较,突出了其对轨迹预测的更高准确性。

简介

自动驾驶是一项艰巨而艰巨的任务,可能会影响人们的日常生活。 目的是使车辆感知环境,并在没有人工干预的情况下安全有效地导航任何交通情况。 一些挑战出现在人口稠密的城市环境中,那里的交通由不同种类的交通代理组成,包括汽车,自行车,公共汽车,行人等。这些交通代理具有不同的形状,动力学和变化的行为,并且可以 被视为异构多主体系统的一个实例。 为了保证自动驾驶的安全性,该系统应该能够分析其他交通代理的运动模式并预测其未来的轨迹,以便自动驾驶汽车可以做出适当的导航决策。

在城市环境中驾驶比在高速公路上驾驶更具挑战性。 城市交通充满了更多的不确定性,复杂的道路条件和多样化的交通媒介,尤其是在某些交叉路口。 不同的交通代理具有不同的运动方式。 同时,交通代理的行为也受到其他交通代理的深刻影响。 必须考虑主体之间的相互作用以提高轨迹预测的准确性。

预测移动剂轨迹的问题已被广泛研究。 一些传统算法基于运动模型,例如运动学模型和动力学模型(Toledo-Moreo和Zamora-Izquierdo 2009),贝叶斯滤波器(Kalman 1960),高斯过程(Rasmussen和Williams 2006)等。这些方法没有考虑相互作用 在交通媒介和环境之间,难以分析复杂的场景相关工作简介或执行长期预测。 随着LSTM网络成功地在序列学习和生成任务中对非线性时间依存关系进行建模(Ma等,2017),越来越多的工作已在使用这些网络来预测人群的轨迹(Alahi等。2016)和车辆轨迹(Lee et al。2017)。 这些作品的共同局限性在于只能预测一种类型的人群(例如,仅行人或汽车)。 这些方法可能不适用于异构交通,其中不同的车辆和行人共存并相互影响(Chandra等人2018b)。

主要结果:对于异构交通中的轨迹预测任务,我们提出了一种新的基于LSTM的算法TrafficPredict。 给定一系列的轨迹数据,我们构建了一个4D图,其中二维用于实例及其交互,一维用于时间序列,一维用于高级分类。 在此图中,将交通代理的所有有效实例和类别表示为节点,并将时空中的所有关系表示为边。 顺序运动信息和交互信息由这些节点和边缘存储和传输。 我们的LSTM网络体系结构是在4D图上构建的,可以分为两个主要层:一个是实例层,另一个是类别层。 前者旨在捕获微观级别的动态属性和交通代理之间的相互作用。 后者旨在使用宏观视图得出同一类别实例的行为相似性,并依次指导实例的预测。 我们还使用类别层中的自我关注机制来捕获历史运动模式并突出显示类别差异。 我们的方法是第一个将针对不同类型交通代理的轨迹预测整合到一个统一框架中的方法。

为了更好地加快在具有挑战性的自动驾驶场景中进行预测和导航的研究进展,我们提供了一个新的轨迹数据集,用于高峰时段具有异构交通代理的复杂城市交通。 我们的数据集的场景和数据样本如图1所示。在实践中,TrafficPredict在单个CPU内核上花费了大约一秒的时间,与以前的预测方案相比,精度提高了20%。 我们工作的新颖组成部分包括:

•为异构交通中的轨迹预测提出一种新方法。

•在城市交通中收集一个新的轨迹数据集,其中不同类别的交通代理之间会产生很大的交互作用。

•与其他最新方法相比,我们的方法具有较小的预测误差。

本文的其余部分安排如下。 我们在第2节中简要介绍了相关的先前工作。在第3节中,我们定义了问题并提供了预测算法的详细信息。 我们将介绍新的流量数据集,并在第4节中展示我们方法的性能。

相关工作

轨迹预测的经典方法

轨迹预测或路径预测的问题已得到广泛研究。 存在许多经典方法,包括贝叶斯网络(Lefèvre,Laugier和J.Ibañez-Guzmán2011),蒙特卡洛模拟(Danielsson,Petersson和Eidehall 2007),隐马尔可夫模型(HMM)(Firl等人2012), 卡尔曼滤波器(Kalman 1960),线性和非线性高斯过程回归模型(Rasmussen and Williams 2006)等。这些方法着重于根据对象自身的先前运动来分析其自身的固有规律。它们可用于汽车之间几乎没有交互的简单交通场景,但是当不同类型的车辆和行人同时出现时,这些方法可能效果不佳。

轨迹预测的经典方法

行为建模和交互有关人类行为和交互的工作很多。 社会力量模型(Helbing and Molnar 1995)提出了具有吸引力和排斥力的行人运动模型,该模型得到了扩展(Yamaguchi et al。2011)。 还提出了一些类似的方法,这些方法使用连续体动力学(Treuille,Cooper和Popović2006),高斯过程(Wang,Fleet和Hertzmann 2008)等。 (2016年; 2017年)结合了Ensemble Kalman滤波器和人体运动模型来预测人群的运动轨迹。 这些方法对于分析不同场景(例如购物中心,广场和步行街)中行人的运动非常有用。 还有一些方法可以对群体情绪进行分类或识别驾驶员的行为(Cheung et al.2018)。 为了将这些方法扩展到一般交通场景,(Ma,Manocha,and Wang 2018)通过考虑运动学和动态约束来预测多个交通主体的轨迹。 但是,此模型假定所有交通代理均具有完美的感测以及形状和动力学信息。

用于序列预测的RNN

网络近年来,由于深层神经网络(DNN)在许多领域中的良好性能,其概念受到了广泛关注(Goodfellow et al.2016)。

递归神经网络(RNN)是DNN架构之一,广泛用于许多领域的序列生成,包括语音识别(Graves和Jaitly 2014),机器翻译(Chung等2015)和图像字幕(Vinyals等) (2015年)。 已经提出了许多基于长期短期记忆(LSTM)(RNN的变体)的方法来进行机动分类(Khosroshahi 2017)和弹道预测(Altché和Fortelle 2017)。 某些方法(Kim等,2017; Park等,2018; Lee等,2017)利用编码器-解码器结构在占用栅格图或样本上生成有关车辆未来位置的概率信息。 但是,由于离散化限制,这些基于采样的方法存在固有的误差。 另一种方法(Deo and Trivedi 2018)提出了一个模型,该模型输出多峰分布,然后生成轨迹。 尽管如此,大多数这些方法都需要清晰的车道和简单的驾驶场景,而没有其他类型的交通代理通过。 (Chandra et al.2018a)基于图像,通过LSTM-CNN混合网络对不同交通代理之间的交互进行了轨迹预测模型。 考虑到人与人之间的相互作用,一些方法(Alahi等人2016; Gupta等人。2018; Vemula,Muelling和Oh 2017)使用LSTM预测人群中行人的轨迹,并且在公众人群数据集上表现出良好的性能。 但是,这些方法在复杂交通场景中的轨迹预测方面也受到限制,在复杂交通场景中,交互作用不仅是行人,而且是异构交通代理。

数据集

有几个与交通场景有关的数据集。Cityscapes(Cordts et al.2016)包含针对30个类别的2D语义,实例级密集像素注释。 ApolloScape(Huang et al.2018)是大规模的街景综合数据集,包含更高的场景复杂性,2D / 3D注释和姿势信息,车道标记和视频帧。 但是,这两个数据集不提供轨迹信息。 Simulation(NGSIM)数据集(Administration 2005)具有汽车的轨迹数据,但场景仅限于具有相似简单路况的高速公路。 KITTI(Geiger等人,2013年)是用于不同计算机视觉任务(如立体声,光流,2D / 3D对象检测和跟踪)的数据集。 但是,具有Tracklet的数据集的总时间约为22分钟。 此外,在KITTI中,车辆,行人和骑自行车的人之间很少有交叉路口,这使得它不足以探索具有挑战性的交通条件下交通代理的运动方式。 有一些行人轨迹数据集,如ETH(Pellegrini等,2009),UCY(Lerner,Chrysanthou和Lischinski 2007)等,但此类数据集仅针对人群而没有任何车辆。

TrafficPredict

在本节中,我们介绍了一种新颖的算法来预测不同交通代理的轨迹。

问题定义
我们假设每个场景都经过了预处理以获得交通代理的类​​别和空间坐标。 在任何时间t,第i个业务代理A ti的特征都可以表示为fit =(x ti,yit,c ti),其中前两项分别是x轴和y轴的坐标,并且 最后一项是交通代理的类​​别。 在我们的数据集中,我们目前考虑了三种类型的交通代理,c i∈{1,2,3},其中1代表行人,2代表自行车,3代表汽车。 我们的方法可以轻松扩展,以考虑更多代理类型。 我们的任务是在时间间隔[1:T obs]中观察所有交通代理的特征,然后预测它们在[Tobs + 1:T pred]的离散位置。

4D图形生成
在各种交通代理与其他人交互的城市交通场景中,每个实例在任何时候都具有与其他人交互的状态,并且它们在时间序列上也具有连续的信息。 将流量代理视为实例节点,并将关系视为边缘,我们可以在实例层中构建图,如图2(b)所示。 一帧中两个实例节点之间的边缘称为空间边缘(Jain等人,2016; Vemula,Muelling和Oh,2017),它可以在空间空间中的两个交通代理之间传递交互信息。 相邻帧中同一实例之间的边缘是时间边缘,它能够在时间空间中逐帧传递历史信息。 A ti的空间边缘tt(A ti,A tj)的特征可以计算为f ij =(x tij,y ij,c tij),tttttt其中x ij = xj-xi,y ij = yj-yi 代表从A tj到A ti的相对位置,c tij是(A ti,A tj)的唯一编码。 当交通代理A j考虑空间边缘时,空间边缘表示为(A tj,A ti)。 以相同的方式计算时间边缘的特征(A ti,A t + 1)。

通常观察到,相同种类的交通代理具有相似的行为特征。 例如,行人不仅对附近的其他交通代理商具有相似的速度而且具有相似的反应。 这些相似之处将直接反映在它们的轨迹上。 我们为每种流量代理构造一个超节点C u t,u∈{1,2,3}以了解它们的轨迹的相似性,然后利用该超级节点细化实例的预测。 图2(c)显示了类别层中的图形。 所有相同类型的实例都集成到一个组中,每个组的边都指向相应的超级节点。在总结了运动相似性之后,超级节点将引导通过定向的边缘传递到实例组。 在顺序帧中的同一超级节点之间也存在时间边缘。 此类别层是专为异构流量设计的,可以充分利用数据来提取有价值的信息以改善预测结果。 该层非常灵活,当某些类别在某些帧中消失时,很容易退化。

最后,我们获得了交通序列的4D图,其中交通代理及其交互具有两个维度,时间序列具有一个维度,高级类别具有一个维度。 通过此4D图,我们为整个流量构建了一个信息网络。 所有信息都可以通过图的节点和边缘进行传递和利用。

模型架构
我们的TrafficPredict算法基于4D图形,它由两个主要层组成:实例层和类别层。 细节在下面给出。

实例层实例层旨在捕获流量中实例的移动模式。 对于每个实例节点A i,我们都有一个LSTM,表示为L i。 因为不同种类的业务代理具有不同的动态属性和运动规则,所以只有相同类型的实例共享相同的参数。 我们的数据集中有三种类型的交通代理:车辆,自行车和行人。 因此,对于实例节点,我们有三种不同的LSTM。 我们还将LSTM L ij分配给图的每个边(A i,A j)。所有空间边缘共享相同的参数,并且所有时间边缘根据对应的节点类型分为三种类型。

对于任意时刻t的边缘LSTM L ij,我们将特征f ij嵌入到固定向量e tij中,该向量用作LSTM的输入:

公式( 1 2)

其中φ(·)是嵌入函数,h tij是隐藏状态e也是LSTM L ij的输出,W spa是嵌入r权重,W spa是LSTM单元权重,其中包含实例的移动模式 本身。 用参数e r W tem和W tem以类似的方式定义时间边缘L ii的LSTM。

每个实例节点可以经由空间边缘与几个其他实例节点连接。 但是,其他每个实例对节点的行为都有不同的影响。 我们使用一种软注意力机制(Vemula,Muelling和Oh 2017)为一个实例节点的所有空间边缘分配各种权重:

公式(3)

其中W i和W ij为嵌入权重,Dot(·)为点积,√m d为缩放因子(Vaswani等,2017)。

e最终权重是w(h tij)与总和之比。 输出向量H i t被计算为h tij的加权和。 H i t代表周围交通媒介对实例轨迹的影响,h tii表示经过时间边缘的信息。 我们将它们串联起来,并将结果嵌入到固定向量a ti中。 最终,节点特征f i t和ti可以相互连接,以提供实例LSTM L i。

公式(4 5 6)

其中W ins和W ins是嵌入权重,W ins是实例节点的LSTM单元权重,h1 ti是实例LSTM的第一个隐藏状态。 h2 t-1是实例LSTM在最后一帧中的最终隐藏i状态,将在下一部分中进行描述。

类别层通常,同一类别的交通代理具有相似的动态属性,包括速度,加速度,转向等,并对其他类型的交通代理或整个环境具有相似的反应。 如果我们可以从同一类实例中学习运动模式,则可以更好地预测整个实例的轨迹。 类别层基于图2(c)中的图。有四个重要组件:指定类别的超级节点,从一组实例到超级节点的有向边,从超级节点到实例的有向边以及超级节点的时间边。

以一个带有三个实例的超级节点为例,类别层的体系结构如图3所示。假设当前帧中有n个实例属于同一类别。 我们已经从实例LSTM获得了隐藏状态h1和单元状态c,它们是类别层的输入。 由于单元格状态c包含实例的历史轨迹信息,因此通过softmax操作在c上使用自注意力机制(Vaswani et al.2017)探索模式的模式内部序列。 在时间t,如下捕获类别中的第m个实例的运动特征d。

公式(7 8)

Ft从实例中捕获有效的轨迹信息,并学习该类别的内部运动定律。 公式(7)-(8)显示了将有向边上的信息从一组实例传输到超级节点的过程。

超级节点的时间边缘的t t是特征F uu e t作为嵌入权重,由F u-F u t-1计算。 以W st r作为LSTM池权重。 相邻帧中同一超级节点之间的时间和W storal边缘的LSTM可以计算如下。

公式(9 10)

接下来,我们将来自实例组和时间边缘的信息整合为超级节点的输入。

我们将特征F u t嵌入到固定长度的向量中,然后与h tuu串联在一起。 超级节点的隐藏状态h tu可以通过以下方法得出。

公式(11 12 )

最后,我们描述了将有向边上的指导从超级节点转移到实例的过程。 对于组中的第m个实例,将超级节点的隐藏状态与第一个隐藏状态h1 tm串联在一起,然后嵌入到具有相同长度h1 tm的向量中。 第二隐藏状态h2 tm是实例节点的最终输出。

公式(13)

其中W s是嵌入权重。 通过类别层的网络,我们使用相同类型实例内部的相似性来细化实例轨迹的预测。

位置估计我们假设交通媒介在下一帧中的位置符合(Alahi等人2016)的二元高斯分布,其参数包括均值μti =(μx,μy)ti,标准偏差σit =(σx ,σy)ti和相关系数ρti。 对应位置可以表示如下。

公式(14 15 16)

我们通过最小化训练数据集中所有轨迹的损失来训练模型。 我们通过实例节点,超级节点以及空间和时间边缘共同进行反向传播,以更新所有参数,以最大程度地减少每个时间步的损失。

实验

数据集

我们使用Apollo采集车(BaiduApollo 2018)收集交通数据,包括基于摄像机的图像和基于LiDAR的点云,并通过检测和跟踪生成轨迹。

我们的新数据集是针对城市街道的大规模数据集,其重点是用于计划,预测和模拟任务的异构交通代理的轨迹。 在图4所示的情况下,我们的采集车在高峰时间在市区中行驶。数据是通过各种传感器生成的,包括LiDAR(Velodyne HDL-64E S3),雷达(Continental ARS408-21),相机,高 定义图和10HZ的本地化系统。 我们在数据集中提供相机图像和轨迹文件。 感知输出信息包括时间戳和路况代理的
ID,类别,位置,速度,航向角和边界多边形。 数据集包括RGB视频,具有100K 1920×1080图像,并针对各种移动交通代理提供了大约1000km的轨迹。 表中显示了NGSIM,KITTI(带有小轨迹)和我们的数据集的比较。 1。

由于NGSIM的俯视图非常大,因此每帧有大量载具。 在本文中,对数据集顺序序列的每个周期进行了等距归一化以用于实验。 我们的新数据集已通过WWW发布(Apolloscape 2018)。

评估指标和基准

我们使用以下指标(Pellegrini等,2009; Vemula,Muelling和Oh 2017)来衡量用于预测交通代理轨迹的算法的性能。
1.平均位移误差:在预测时间内,所有预测位置和实际位置上的平均欧几里得距离。

2.最终位移误差:最终预测位置与相应真实位置之间的平均欧几里得距离。

我们将我们的方法与以下这些方法进行比较:•RNN ED(ED):一种RNN编码器/解码器模型,已广泛用于车辆的运动和轨迹预测。

•社交LSTM(SL):基于LSTM的网络,具有隐藏状态的社交池(Alahi等人,2016年)。 该模型的性能要优于传统方法,包括线性模型,社会力量模型和相互作用的高斯过程。

•社会注意力(SA):一种基于注意力的S-RNN架构(Vemula,Muelling和Oh,2017年),该架构了解人群中的相对影响并预测行人的轨迹。

•TrafficPredict-NoCL(TP-NoCL):不带类别层的建议方法。

•TrafficPredict-NoSA(TP-NoSA):所建议的方法没有类别层的自注意机制。

实施细节

在我们的评估基准中,空间和时间边缘单元的隐藏状态维设置为128,节点单元的隐藏状态维设置为64(对于实例层和类别层)。

我们还应用了64的固定输入维度和64的关注层。在训练过程中,使用β1 = 0.9和β2 = 0.999进行了Adam(Kingma和Ba 2014)优化。 计划学习率为0.001,并应用阶梯权重衰减。 该模型在批量大小为8的单个Tesla K40 GPU上进行训练。为保证训练的稳定性,我们在-10到10的范围内裁剪了梯度。在计算预测轨迹时,我们观察了2秒的轨迹并预测了 未来3秒内的未来轨迹。

分析

表中显示了所有现有方法和我们的算法在异构流量数据集上的性能。 2.我们计算所有实例的平均位移误差和最终位移误差,并分别计算行人,自行车和车辆的误差。 与RNN ED和Social LSTM相比,社会关注(SA)模型考虑了实例的空间关系,并且误差较小。 我们的没有类别层的方法(TP-NoCL)不仅考虑实例之间的交互,而且通过使用不同的LSTM区分实例。

其错误类似于SA。 通过添加类别层而无需引起人们的注意,TP-NoSA的预测结果在两个指标上都更加准确。 在类别层的设计中使用自注意力机制后,准确性的提高变得更加明显。 我们的算法TrafficPredict在所有指标方面均表现更好,准确性提高了约20%。 这意味着类别层已经了解了相同类型交通代理的内置移动模式,并为预测提供了良好的指导。 实例层和类别层的结合使我们的算法更适用于异构流量条件。

我们在图5中说明了相应2D图像的一些预测结果。前置摄像头捕获的图像中的场景未显示整个场景。 但是,将轨迹结果投影到图像上更为固有。 在大多数异构交通场景中,我们的算法会计算合理准确的预测轨迹

并且接近地面真理。 如果我们有更长的时间在先的轨迹,则预测精度会提高。

当交通代理在直线车道上行驶时,很容易预测其轨迹,因为几乎所有交通代理都在沿直线方向行驶。 随着代理人的转向,提供准确的交叉路口预测更具挑战性。 图5示出了在交叉区域中两个序列的二维实验结果。 轨迹上有一些重叠。 在这些情况下,由于左转,有许多曲率较高的曲线。 在这些情况下,我们的算法可以计算出准确的预测轨迹。

结论

在本文中,我们提出了一种新颖的基于LSTM的算法TrafficPredict,用于预测城市环境中异构交通代理的轨迹。 我们使用距离层捕获实例的轨迹和交互,并使用类别层总结实例属于相同类型的运动模式的相似性,并指导预测算法。 时空中的所有信息都可以在我们设计的4D图形中加以利用和传递。 我们的方法在改进新收集的异构流量数据集上的轨迹预测准确性方面,优于以前的最新方法。 我们已经在与城市密集场景相对应的交通数据集中评估了我们的算法,并观察到了良好的准确性。 我们的算法是实时的,不假设流量状况或代理数量。

我们的方法有一些局限性。 其准确性会根据交通状况和过去的轨迹持续时间而变化。 将来,我们将考虑更多的约束条件,例如车道方向,交通信号和交通规则等,以进一步提高轨迹预测的准确性。 此外,我们想评估更密集场景下的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值