【论文笔记】GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

最新推荐文章于 2025-05-11 18:03:59 发布

byzy

最新推荐文章于 2025-05-11 18:03:59 发布

阅读量1k

点赞数 35

分类专栏： 3D Gaussian Splatting（3D高斯溅射）端到端自动驾驶文章标签：论文阅读深度学习计算机视觉自动驾驶

本文链接：https://blog.csdn.net/weixin_45657478/article/details/146024864

版权

3D Gaussian Splatting（3D高斯溅射）同时被 2 个专栏收录

22 篇文章

订阅专栏

端到端自动驾驶

8 篇文章

订阅专栏

原文链接：https://arxiv.org/abs/2412.10371

简介：本文提出以高斯为中心的端到端自动驾驶框架GaussianAD，利用3D语义高斯描述场景。将场景初始化为均匀分布的3D高斯，并使用环视图像逐步细化之，得到3D高斯场景表达。使用稀疏卷积进行3D感知，并为动态语义高斯预测3D流，规划自车轨迹并进行未来场景预测。GaussianAD可端到端训练，其中感知真值是可选的。NuScenes数据集上的实验证明了本文方法在多种任务上的有效性。

在这里插入图片描述

1. 3D场景表达的重要性

自动驾驶的目标是在给定场景观测 ${o\}$ 的情况下，产生安全的控制信号（如油门、制动和转向）。场景观测 ${o\}$ 可从传感器（如相机）得到。

自动驾驶方法通常假设存在高性能控制器，并学习当前和历史观测 ${o\}$ 到未来自车轨迹 ${w\}$ 的映射 $f$ ：
$\{o^{T-H},\cdots,o^T\}\overset{f}{\rightarrow}\{w^{T+1},\cdots,w^{T+F}\}$

其中 $T$ 为当前时刻， $H$ 为历史帧数， $F$ 为预测的未来帧数。每个路径点包括BEV下的 $\{x,y,\psi\}$ 由2D位置 ${x,y\}$ 和偏航角 $\psi$ 。

传统自动驾驶方法将 $f$ 分解为感知、预测和规划模块，分别训练后进行连接：
$\{o^{T-H},\cdots,o^T\}\rightarrow d^T\\ d^T\rightarrow\{d^{T+1},\cdots,d^{T+F}\}\\ \{d^{T+1},\cdots,d^{T+F}\}\rightarrow\{w^{T+1},\cdots,w^{T+F}\}$

其中 $d$ 为场景描述（如实例边界框或地图元素），通常只包含场景的部分信息。

不同任务关注提取不同信息，而这些模块的分开训练会加剧这一问题。因此，有方法转向端到端训练，可微地连接不同模块并进行联合学习：
$\{o^{T-H},\cdots,o^T\}\rightarrow r^T\rightarrow r^T,d^T\rightarrow r^T,\{d^{T+1},\cdots,d^{T+F}\}\rightarrow\{w^{T+1},\cdots,w^{T+F}\}$

其中 $r$ 为场景表达，能提供比 $d$ 更加全面的信息。

$r$ 在整个模型中传递信息，因此其选择对性能至关重要。 $r$ 需要包含3D结构信息，并在性能和效率之间做出平衡。

2. 以高斯为中心的自动驾驶

3D高斯表达。类似GaussianFormer，本文使用3D语义高斯表达场景。每个高斯包括均值、协方差和语义分数属性。该表达是稀疏的显式表达。

从图像到高斯。3D高斯及其高维查询被初始化为可学习向量。使用高斯编码器迭代地增强表达。高斯编码器包含自编码模块（进行高斯之间的交互）、图像交叉注意力模块（聚合视觉信息）和细化模块（微调高斯属性）。注意与GaussianFormer不同，本文使用4D稀疏卷积构成的时间编码器从过去帧和当前帧聚合高斯信息。

从高斯进行稀疏3D检测。使用3D稀疏CNN网络 $V$ 编码3D高斯表达 $r$ ，并用一组智能体token $D$ 来解码 $V (r)$ 得到3D物体 $a$ ：
$a=f_a(D,V(r))$

其中 $f_a$ 为全局交叉注意力（学习3D物体token）和3D物体解码头 $d_a$ 构成。

从高斯建立稀疏地图。类似检测任务，使用一组地图token $M$ 表达语义地图。关注三类地图元素（车道分隔带、道路边界和人行横道）：
$m=f_m(M,V(r))$

其中 $f_m$ 包括全局交叉注意力（学习地图token）和语义地图解码头 $d_m$ 构成。

运动预测。该模块通过预测其它交通参与者的未来轨迹来辅助自车轨迹规划。智能体token $D$ 与地图token $M$ 通过交叉注意力进行交互，得到运动token $M_o$ ：
$M_o=CA(D,M)$

可对运动token $M_o$ 使用运动解码器 $d_{mo}$ ，同时将 $M_o$ 送入自车轨迹规划头。

用于场景预测的高斯流。从当前高斯表达 $r^T$ 和预测的自车轨迹 $w^{T+N}$ 预测高斯的移动，从而得到未来高斯表达 $r^{T+N}$ ：
$r^{T+N}=f_r(r^T,w^{T+N})$

注意此处没有考虑未来因自车移动产生的新观测区域。随后，将 $r^{T+N}$ 送入占用解码器 $d_{occ}$ ，以预测未来的占用。通过未来占用监督，可保证场景预测能力，从而提高自车轨迹预测性能。

3. 端到端GaussianAD框架

在这里插入图片描述
首先初始化均匀分布的3D高斯 $G_0$ ，通过从环视图像 $o$ 整合信息逐步细化之，得到高斯场景表达 $r$ 。此时可选择性地从 $r$ 中提取不同的场景描述 $d$ 作为辅助任务。具体来说，可使用高斯到体素的溅射来获取密集体素特征、使用稀疏卷积获取稀疏查询。随后，直接预测3D高斯的演化，以减小信息损失，并依据高斯进行轨迹规划。GaussianAD的完整框架如下：
$\{o^{T-H},\cdots,o^T\}\rightarrow r^T(\rightarrow r^T,d^T)\rightarrow\{r^T,r^{T+1},\cdots,r^{T+F}\}\rightarrow\{w^{T+1},\cdots,w^{T+F}\}$

其中 $(\rightarrow r^T,d^T)$ 表示可选步骤。

训练时，对 $d$ 使用不同的感知损失（如3D占用预测损失、3D检测损失、语义地图损失和运动损失）：
$J_{perc}(d,\hat d)=\lambda_{occ}J_{occ}(d,\hat d)+\lambda_{det}J_{det}(d,\hat d)+\lambda_{map}J_{map}(d,\hat d)+\lambda_{motion}J_{motion}(d,\hat d)$

其中 $\hat{}$ 表示相应的真值。

由于3D高斯为显式表达，可使用全局仿射变换 $t$ 来模拟给定自车位置 $w$ 下的场景表达 $\tilde r$ 。获取预测的未来场景表达 $\{r^T,r^{T+1},\cdots,r^{T+F}\}$ 后，根据规划的路径点 $\{w^{T+1},\cdots,w^{T+F}\}$ 模拟未来的场景表达：
$\{\tilde r=t(r,w)\}^F$

其中上标 $F$ 表示未来的 $F$ 帧。使用模拟表达 $\{\tilde r\}^F$ 和真实表达 $\{\hat r\}^F$ （从未来观测 ${o\}$ 计算）之间的损失：
$J_{pred}(\{r\}^F,\{\hat r\}^F,\{\hat d\}^F)=\lambda_{re}J_{re}(\{\tilde r\}^F,\{\hat r\}^F)+\lambda_{perc}J_{perc}(\{\tilde d(\tilde r)\}^F,\{\hat d\}^F)$

其中 $J_{re}$ 计算高斯表达的差异， $J_{perc}$ 比较来自高斯表达的场景描述之间的差异。

由于预测的未来场景表达 $\{\tilde r\}^F$ 取决于规划的轨迹 ${w\}^F$ ，故在传统的轨迹损失中加入预测损失：
$J_{plan}(\{w\}^F,\{\hat w\}^F)=\lambda_{tra}J_{tra}(\{w\}^F,\{\hat w\}^F)+\lambda_{pred}J_{pred}(\{r\}^F,\{\hat r\}^F,\{\hat d\}^F)$