51-63 VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning 基于概率规划的端到端自动驾驶

24年2月,地平线、华中科技大学联合发布了一个基于概率规划的端到端矢量驾驶模型VADv2,其性能远超同期多模态大语言驾驶模型DriveMLM。

Abstract

从大规模驾驶演示中学习类人驾驶策略很有前景,但规划的不确定性和非确定性性质使其具有挑战性。在这项工作中,为了解决不确定性问题,我们提出了一种基于概率规划的端到端驾驶模型VADv2。VADv2以多视图图像序列作为输入,将传感器数据转换为环境令牌嵌入token embeddings,输出动作的概率分布,并对一个动作进行采样以控制车辆。仅使用相机传感器VADv2在CARLA Town05基准测试中实现了最先进的闭环性能。它以完全端到端的方式稳定运行,即使没有基于规则的包装器。

1. Introduction

端到端自动驾驶是近年来一个重要而热门的领域。大规模的人类驾驶演示很容易获得。从大规模示范中学习类似人类的驾驶策略似乎是很有希望的。

然而,规划的不确定性和非确定性性质使得从驾驶演示中提取驾驶知识具有挑战性。为了证明这种不确定性,图 1 给出了两种情景。1)跟随其他车辆。人类驾驶员有多种合理的驾驶操作,保持跟随或变道超车。2)与来车辆互动。人类驾驶员有两种可能的驾驶策略:退让或超车。从统计学的角度来看,动作(包括时机和速度)是高度随机的,受到许多无法建模的潜在因素影响。

图 1。规划中存在不确定性。环境和动作之间不存在确定性关系。确定性规划无法对这种不确定性进行建模,特别是当可行解空间是非凸的时。VADv2 基于概率规划,并从大规模驾驶演示中学习动作的环境条件概率分布。

现有基于学习的规划方法遵循确定性范式,直接回归动作。回归目标ˆa是未来轨迹和控制信号(加速和转向)。这种范式假设环境和动作之间存在确定性关系,然情况并非如此。人类驾驶行为方差导致回归目标的模糊性。特别是当可行解空间是非凸时(见图 1),确定性建模不能处理非凸情况,可能输出中间动作,导致安全问题。此外,这种基于确定性回归的规划器倾向于输出显性轨迹,这些情形在训练数据集(如停止或直行)中出现最多,从而导致不良的规划性能。在这项工作中,我们提出了概率规划来应对规划的不确定性。据我们所知,VADv2 是第一个使用概率建模来拟合连续规划动作空间的工作,这与之前使用确定性建模进行规划的做法不同。我们将规划策略建模为环境条件非平稳随机过程,表示为 p(a|o),其中 o 是驾驶环境的历史和当前观察,a 是候选规划动作。与确定性建模相比,概率建模可以有效地捕捉规划中的不确定性,实现更准确、安全的规划性能。

规划空间是一个高维连续的时空空间。我们利用一个概率场函数来建模从动作空间到概率分布的映射。由于直接拟合连续的规划动作空间是不可行的,我们将规划动作空间离散为一个大的规划词汇表,并利用大规模驾驶演示数据,学习基于规划词汇表的规划动作概率分布。对于离散化,我们收集驾驶演示中的所有轨迹,并采用最远轨迹采样选择N个有代表性轨迹作为规划词汇表。

概率规划还有另外两个优点。

  • 首先,概率规划对每个行动和环境之间的关系进行建模。与确定性模型只对目标规划行为提供稀疏监督不同,概率规划不仅可以对正样本进行监督,还可以对规划词汇表中的所有候选对象进行监督,从而带来更丰富的监督信息。
  • 此外,概率规划在推理阶段具有灵活性。它输出多模态规划结果,易于与基于规则的规划方法和基于优化的规划方法相结合。我们可以灵活地将其他候选规划行动添加到规划词汇表中并对它们进行评估,因为我们对整个行动空间的分布进行了建模。

论文贡献总结如下:

  • 提出了概率规划来应对规划的不确定性。我们设计了一个概率场,将动作空间映射到概率分布,并从大规模驾驶演示中学习动作的分布。
  • 基于概率规划,我们提出了VADv2,一个端到端驾驶模型,它将传感器数据转换为环境令牌嵌入,输出动作的概率分布,并采样一个动作来控制车辆。
  • 在CARLA模拟器中,VADv2在Town05基准上实现了最先进的闭环性能。

2. Related Work

Perception

感知是实现自动驾驶的第一步,对驾驶场景进行统一的表征有利于方便地集成到下游任务中。鸟瞰图(BEV)表示近年来已成为一种常用的场景特征编码和多模态数据融合策略。LSS是一项开创性的工作,它通过显式预测图像像素的深度来实现透视视图到BEV的转换。另一方面,BEVFormer通过设计时空注意机制,避免了显式深度预测,并取得了令人印象深刻的检测性能。后续工作BEVDepth、StreamPETR通过优化时间建模和BEV转换策略,不断提高下游任务的性能。

在矢量化映射方面,HDMapNet通过后处理将车道分割转化为矢量地图。VectorMapNet以自回归的方式预测向量地图元素。MapTR引入了置换等价和分层匹配策略,显著提高了映射性能。LaneGAP引入了车道图的路径建模。

Motion Prediction

运动预测旨在预测驾驶场景中其他交通参与者的未来轨迹,帮助自车做出明智的规划决策。传统的运动预测任务利用历史轨迹和高清地图等输入来预测未来的运动轨迹。然而,FIERY、BEVerse、ViP3D等最近的端到端运动预测方法将感知和运动预测联合起来。在场景表示方面,一些作品采用栅格化图像表示,并使用CNN网络进行预测。其他方法利用矢量化表示,并使用图神经网络或Transfromer模型进行特征提取和运动预测。一些作品将未来的运动视为密集的占用和光流,而不是代理级的未来航路点。一些运动预测方法采用高斯混合模型(Gaussian Mixture Model, GMM)对多模态轨迹进行回归。它可以应用于不确定性模型的规划,但是模型的数量有限。

Planning

基于学习的规划最近显示出巨大的潜力,因为它数据驱动性质和随着数据量的增加而令人印象深刻的性能。早期的尝试使用了完全的黑盒精神,其中传感器数据直接用于预测控制信号。然而,这种策略缺乏可解释性,难以优化。此外,也有大量研究将强化学习与规划相结合。通过在闭环仿真环境中自主探索驾驶行为,这些方法达到甚至超过了人类水平的驾驶性能。然而,弥合模拟与现实之间的差距,以及解决安全问题,对将强化学习策略应用于真实驾驶场景提出了挑战。模仿学习是另一个研究方向,模型通过学习专家驾驶行为来获得良好的规划性能,形成接近人类的驾驶风格。近年来,端到端自动驾驶已经出现,将感知、运动预测和规划集成到一个模型中,从而形成了一种完全数据驱动的方法,显示出良好的性能。UniAD巧妙地集成了多个感知和预测任务,以提高规划性能。VAD探索了矢量化场景表示在规划和摆脱密集地图方面的潜力。

Large Language Model in Autonomous Driving

大型语言模型LLM所表现出的可解释性和逻辑推理能力对自动驾驶领域有很大的帮助。最近的研究探索了LLM与自动驾驶的结合。一种工作是利用LLM通过问答(QA)任务来理解和评估驾驶场景。另一种方法更进一步,将规划纳入基于LLM的场景理解之上。例如,DriveGPT4接受历史视频和文本(包括问题和历史控制信号等附加信息)等输入,编码后,这些输入被送入一个LLM,它预测问题的答案并控制信号。另一方面,LanguageMPC以语言描述的形式接收历史地面真值感知结果和高清地图。然后,它利用思维链分析方法来理解场景,LLM最终从预定义的集合中预测规划动作作为输出。每个动作对应一个特定的执行控制信号。VADv2从GPT中汲取灵感来应对不确定性问题。不确定性也存在于语言建模中。给定特定的上下文,下一个单词是非确定性和概率性的。LLM从大规模语料库中学习下一个单词的上下文条件概率分布,并从分布中采样一个单词。受LLM的启发,VADv2将规划策略建模为环境条件下的非平稳随机过程。VADv2将动作空间离散化生成规划词汇表,基于大规模驾驶演示近似概率分布,并在每个时间步从分布中抽取一个动作来控制车辆。

3. Method

图 2 ,VADv2总体框架。VADv2以流方式将多视图图像序列作为输入,将传感器数据转换为环境令牌嵌入,输出动作的概率分布,并对一个动作进行采样以控制车辆。使用大规模驾驶演示和场景约束来监督预测分布。 

3.1. Scene Encoder

图像中的信息是稀疏的和低级的。我们使用编码器将传感器数据转换为实例级令牌嵌入token embeddings Eenv,以显式地提取高级信息。

Eenv包括四种令牌token:地图令牌、代理令牌、交通流量元素令牌和图像令牌。

  • 地图令牌预测地图的矢量化表示(包括车道中心线、车道分割线、道路边界和人行横道)。
  • 代理令牌来预测其他交通参与者的运动信息(包括位置、方向、大小、速度和多模式未来轨迹)。
  • 交通元素令牌用于预测交通元素(交通灯和停止信号)的状态。
  • 图像令牌作为规划的场景表示,它包含丰富的信息,是上述实例级标记的补充。
  • 地图令牌、代理令牌和交通流量元素令牌使用相应的监督信号进行监督,以确保它们显式地编码相应的高级信息。
  • 此外,导航信息和自车状态也用MLP编码到嵌入embeddings {Enavi, Estate}中。

3.2. Probabilistic Planning

我们提出了概率规划来应对规划的不确定性。我们将规划策略建模为环境条件下的非平稳随机过程,表示为 p(a|o)。我们将规划动作空间近似为基于大规模驾驶演示的概率分布,并在每个时间步长从分布中抽取一个动作来控制车辆。规划动作空间是一个高维连续时空A = {a|a∈R2T}。由于直接拟合连续规划动作空间是不可行的,我们将规划动作空间离散到一个大的规划词汇表V = {ai}N。具体而言,我们收集驾驶演示中所有的规划动作,采用最远轨迹抽样的方法,选取N个有代表性的动作作为规划词汇表。V中的每个轨迹都是从驾驶演示中采样的,因此自然满足自车的运动学约束,这意味着当轨迹转换为控制信号(转向、油门和制动)时,控制信号值不超过可行范围。缺省情况下,N = 4096。

我们将规划词汇表中的每个动作表示为航路点序列a = (x1, y1, x2, y2,…, xT, yT)。每个航路点对应一个未来的时间戳。假设概率p(a)相对于a连续且对a的小偏差不敏感,即∆a→0时,Lim[p(a)−p(a +∆a)] = 0。

受NeRF的启发,NeRF对5D空间(x,y,z,θ,φ)上的连续辐射场进行建模,我们采用概率场来建模从动作空间a到概率分布{p(a)|a∈a}的连续映射。我们将每个动作(轨迹)编码为嵌入E(a)的高维规划令牌,使用级联Transformer解码器与环境信息Eenv交互,并结合导航信息Enavi和自车状态Estate输出概率,即

Γ是一个编码函数,它将R中的每个坐标映射到高维嵌入空间R2L中,并分别应用于轨迹a的每个坐标值。pos表示位置。我们使用这些函数将连续输入坐标映射到高维空间,以更好地近似高频场函数。

3.3. Training

我们对VADv2进行了三种监督训练:分布损失、冲突损失和场景令牌损失。

Distribution Loss

我们从大规模的驾驶演示中学习概率分布。KL散度用于最小化预测分布与数据分布之间的差异。

在训练阶段,将地面真值轨迹作为正样本添加到规划词汇表中。其他轨迹被视为负样本。我们给负轨迹分配不同的损失权值。接近地面真实轨迹的轨迹较少受到惩罚。

Conflict Loss

我们使用驾驶场景约束来帮助模型学习有关驾驶的重要先验知识,并进一步正则化预测分布。具体而言,如果规划词汇表中的一个动作与其他智能体的未来运动或道路边界冲突,则将该动作视为负样本,并施加显著的损失权值来降低该动作的概率。

Scene Token Loss

地图令牌、代理令牌和流量元素令牌使用相应的监督信号进行监督,以确保它们显式地编码相应的高级信息。

地图令牌损失与MapTRv2相同,采用L1损失来计算预测图点与地面真值图点之间的回归损失。使用焦点损失focal loss作为地图分类损失。

代理令牌损失由检测损失和运动预测损失组成,与VAD相同。使用L1损失作为回归损失来预测代理属性(位置、方向、大小等),使用焦点损失来预测代理类别。对于每一个匹配了ground truth agent的agent,我们预测了K条未来轨迹,并使用具有最小最终位移误差(minFDE)的轨迹作为代表性预测。然后我们计算该代表性轨迹与地面真实轨迹之间的L1损失作为运动回归损失。此外,采用焦点损失作为多模态运动分类损失。

交通元令牌由交通灯令牌和停车标志令牌两部分组成。一方面,我们将交通灯令牌发送给MLP,以预测交通灯的状态(黄、红、绿)以及交通灯是否影响自车。另一方面,停车标志令牌也被发送给MLP来预测停车标志区域和自车之间的重叠。焦点损失focal loss被用来监督这些预测。

3.4. Inference

在闭环推理中,可以灵活地从分布中得到驱动策略π模型。

在每个时间步以最高概率采样动作,使用PID控制器将选择的轨迹转换为控制信号(转向,油门和刹车)。

在实际应用中,有更健壮的策略来充分利用概率分布。一个好的做法是,将top-K个动作作为建议进行采样,并采用基于规则的包装器过滤建议,采用基于优化的后求解器进行细化。此外,动作的概率反映了端到端模型的置信度,可以作为在传统PnC(规划与控制)和基于学习的PnC之间切换的判断条件。

4. Experiments

4.1. Experimental Settings

采用广泛使用的CARLA模拟器对VADv2的性能进行评估。按照惯例,我们使用Town05 Long和Town05 Short基准进行闭环评估。具体来说,每个基准包含几个预定义的驾驶路线。Town05 Long由10条路线组成,每条路线长约1公里。Town05 Short由32条线路组成,每条线路长70米。

Town05 Long测试验证了模型的综合能力,而Town05 Short侧重于评估模型在特定场景下的性能,例如在交叉路口前变道。

我们使用CARLA的官方代理,通过随机生成Town03、Town04、Town06、Town07和Town10的驾驶路线来收集训练数据。数据以2Hz的频率采样,我们收集了大约300万帧用于训练。对于每一帧,我们保存了6个摄像头的环视图像、交通信号、其他交通参与者信息以及自车状态信息

另外,我们通过对CARLA提供的OpenStreetMap格式地图进行预处理,得到用于训练在线地图模块的矢量化地图。值得注意的是,地图信息仅在训练过程中作为地面真实值提供,VADv2在闭环评估中没有使用任何高清地图。

4.2. Metrics

对于闭环评价,我们使用CARLA的官方指标。

  • 路由完成Route Completion指代理完成路由距离的百分比。
  • 违规评分Infraction Score表示沿线发生违规的程度。典型的违规行为包括闯红灯、与行人碰撞等。每一种违规行为都有相应的处罚系数,违规次数越多,违规得分越低。
  • Driving Score是Route Completion和Infraction Score的乘积,是主要的评价指标。

在基准评估中,大多数工作采用基于规则的包装器来减少违规。为了与其他方法进行公平的比较,我们遵循了在基于学习的策略上采用基于规则的包装器的常见做法。对于开环评估,采用L2距离和碰撞率来表示学习策略与专家演示相似的驱动程度。在消融实验中,我们采用开环指标进行评价,考虑到开环指标计算速度快,稳定性好。我们使用CARLA的官方代理在Town05 Long基准上生成验证集进行开环评估,并对所有验证样本的结果取平均值。

4.3. Comparisons with State-of-the-Art Methods

性能分析如表 1 所示,值得注意的是,VADv2仅使用摄像头作为感知输入,而DriveMLM同时使用摄像头和激光雷达。此外,与之前仅依赖摄像头的最佳方法Interfuser相比,VADv2显示出更大的优势,Driving Score显著提高,最高可达16.8。

我们在表 2 中给出了所有公开的Town05 Short基准测试的结果。与Town05 Long基准相比,Town05 Short基准更侧重于评估模型执行特定驾驶行为的能力,例如在拥挤的交通流中变道和在交叉路口前变道。与之前的VAD相比,VADv2的Driving Score和Route Completion分别提高了25.3分和5.7分,显示了VADv2在复杂驾驶场景下的综合驾驶能力。

4.4. Ablation Study

表 3 为VADv2中关键模块的消融实验。如果没有分布损失(ID 1)提供的专家驾驶行为的监督,模型的规划精度表现不佳。冲突损失提供了驾驶的关键先验信息,因此没有冲突损失(ID 2),模型的规划精度也受到影响。场景令牌将重要的场景元素编码为高维特征,规划令牌与场景令牌交互,学习驾驶场景的动态和静态信息。当任何类型的场景令牌缺失时,都会影响模型的规划性能(ID 3 - ID 6)。当模型包含上述所有设计时,规划性能达到最佳(ID 7)。

4.5. Visualization

图 3 是VADv2的一些定性结果。第一张图像显示了VADv2在不同驾驶速度下预测的多模态规划轨迹。第二张图片展示了VADv2在变道场景中对前进爬行和多模态左转轨迹的预测。第三张图描绘了在十字路口右变道的场景,VADv2预测了直行和向右变道的多个轨迹。最终的图像展示了一个变道场景,目标车道上有一辆车,VADv2预测了多个合理的变道轨迹。

5. Conclusion

在这项工作中,我们提出了基于概率规划的端到端驾驶模型VADv2。在CARLA模拟器中,VADv2运行稳定,实现了最先进的闭环性能。初步验证了该概率范式的可行性。然而,它在更复杂的现实世界场景中的有效性仍有待探索,这是未来的工作。

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

https://github.com/hustvl/VAD

VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

https://hgao-cv.github.io/VADv2

VADv2-https://arxiv.org/abs/2402.13243

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值