【论文笔记】VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

最新推荐文章于 2025-03-30 18:07:38 发布

byzy

最新推荐文章于 2025-03-30 18:07:38 发布

阅读量2.9k

点赞数 22

分类专栏：端到端自动驾驶文章标签：论文阅读自动驾驶深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/138289445

版权

端到端自动驾驶专栏收录该内容

8 篇文章

订阅专栏

原文链接：https://arxiv.org/abs/2402.13243

1. 引言

最近，端到端自动驾驶成为重要而受欢迎的领域，但非确定性的规划导致难以从驾驶演示中提取知识。从统计角度看，在同一场景下可做出的行为（包括时机和速度）是随机的，而其潜在的很多影响因素是不能建模的。

现有的基于学习的规划方法以确定性的方式直接回归行为。回归目标 $\hat a$ 为未来轨迹或控制信号（加速度和转向）。但人类驾驶的差异会导致回归目标的模糊性（尤其对于非凸解空间而言，两个解之间的值可能不是解），且这类方法倾向于输出数据集中出现最多的轨迹（直行或停止），从而导致不高的性能。

本文使用概率规划处理规划的不确定性，提出VADv2，第一个在连续的规划解空间上使用概率建模的方法。规划策略被建模为以环境为条件的非静止随机过程 $p (a ∣ o)$ ，其中 $o$ 为历史和当前对驾驶环境的观测， $a$ 为候选规划行为。

规划行为空间是高维连续时空空间。本文使用概率场函数建模行为空间到概率分布的映射。本文将规划行为空间离散化为大量规划“词汇”，并使用大量的驾驶演示学习规划行为的概率分布。对于离散化，本文收集驾驶演示中所有的轨迹，并使用最远轨迹采样选择 $N$ 条有代表性的轨迹作为规划词汇。

该概率建模的方法灵感来自于大型语言模型对文本不确定性的处理。即使用以上下文为条件的、下一单词在大型语料库中的概率分布，并从该分布中采样一个单词作为预测的下一单词。

概率规划还有两个优点：（1）可建模行为和环境的关系，可为所有驾驶词汇而非仅正样本提供监督，有更丰富的监督信息；（2）在推断阶段更加灵活，因其输出多模态规划轨迹，容易与基于规则的或基于优化的方法结合，且可灵活添加规划词汇并评估。

VADv2以环视图像流为输入，将传感器数据转化为token嵌入，输出行为的概率分布并采样以控制车辆。VADv2能稳定地端到端运行。

3. 方法

在这里插入图片描述
如图所示，VADv2以多视图图像序列为流式输入，编码为环境token嵌入，并输出行为的概率分布，最后采样行为控制车辆。大规模驾驶演示和场景约束被用于监督预测的分布。

3.1 场景编码器

图像中的信息是稀疏而低级的。本文使用编码器将数据转化为实例级的token嵌入 $E_{env}$ ，以显式地提取高级信息。 $E_{env}$ 包含地图token、智能体token、交通元素token和图像token。地图token被用于预测地图的矢量表达（包括中线、分隔带、道路边界和行人交叉路）；智能体token用于预测其余交通参与者的运动信息（包括位置、朝向、大小、速度和多模态未来轨迹）；交通元素token用于预测交通元素（交通灯和停止信号）的状态。这三类token均由相应的真值监督，以确保其显式编码相应的高级信息。图像token包含丰富的信息，与实例级的token互补。此外，导航信息和自车状态也被MLP编码为嵌入 ${E_{navi},E_{state}\}$ 。

3.2 概率规划

规划空间为高维连续时空空间 $\mathbb A=\{a|a\in\mathbb R^{2T}\}$ 。本文将其离散化为大型规划词汇表 $\mathbb V=\{a^i\}^N$ 。具体来说，收集驾驶演示中所有规划行为并使用最远轨迹采样选择 $N$ 个行为，作为规划词汇。注意规划词汇来自驾驶演示，因此其遵循运动学（即相应的控制信号不会超过范围）。

每个规划词汇是路径点的序列 $a=(x_1,y_1,x_2,y_2,\cdots,x_T,y_T)$ 。每个路径点对应一个未来时刻。概率 $p (a)$ 为 $a$ 的连续函数，且对 $a$ 的微小变化不敏感，即 $\lim_{\Delta a\rightarrow 0}[p(a)-p(a+\Delta a)]=0$ 。本文使用概率场建模行为空间 $\mathbb A$ 到概率分布 $\{p(a)|a\in\mathbb A\}$ 的连续映射，将每个行为（轨迹）编码为高维规划token嵌入 $E (a)$ ，并使用级联Transformer解码器与环境信息 $E_{env}$ 交互，与导航信息 $E_{navi}$ 和自车状态 $E_{state}$ 结合输出概率：
$p(a)=\text{MLP}(\text{Transformer}(E(a),E_{env})+E_{navi}+E_{state}),\\ q=E(a),k=v=E_{env},\\ a=(x_1,y_1,x_2,y_2,\cdots,x_T,y_T),\\ E(a)=\text{Cat}[\Gamma(x_1),\Gamma(y_1),\cdots,\Gamma(x_T),\Gamma(y_T)],\\ \Gamma(pos)=\text{Cat}[\gamma(pos,0),\gamma(pos,1),\cdots,\gamma(pos,L-1)],\\ \gamma(pos,j)=\text{Cat}[\cos(pos/10000^{2\pi j/L}),\sin(pos/10000^{2\pi j/L})]$

其中 $\Gamma$ 为编码函数，将坐标从 $\mathbb R$ 映射到高维嵌入空间 $\mathbb R^{2L}$ 。这样的高维映射可以更好地近似高频场函数。

3.3 训练

VADv2包含三类监督：分布损失、冲突损失和场景token损失。

分布损失：使用KL散度最小化预测分布于数据分布的差异：
$L_\text{dist}=D_{KL}(p_{data}||p_{pred})$

训练时，真实轨迹被加入规划词汇表并作为正样本，其余轨迹被视为负样本，并根据轨迹与真实轨迹的距离分配权重（越接近真实样本，惩罚越小）。

冲突损失：使用驾驶场景约束帮助模型学习驾驶的先验知识，并正则化预测分布。若规划词汇表中的一个行为与其余智能体的未来运动或道路边界冲突，该行为被视为负样本，分配很大的损失权重以减小该行为的概率。

场景token损失：即地图token、智能体token或地图元素token对应的损失。

地图token损失使用预测地图点和真实地图点之间的 $l_1$ 回归损失，以及地图分类的focal损失。

智能体token损失包含检测损失和运动预测损失。智能体属性（位置、朝向、大小等）使用 $l_1$ 回归损失，类别使用focal损失。与真实智能体匹配的智能体会被预测 $K$ 个未来轨迹，并使用最小最终位移误差（minFDE）的轨迹为代表性预测。使用该预测与真实轨迹的 $l_1$ 损失，作为运动回归损失。多模态运动分类损失使用focal损失。