51c自动驾驶~合集54

whaosoft-143

已于 2025-05-22 10:49:52 修改

阅读量1.3k

点赞数 19

分类专栏：人工智能文章标签：人工智能

于 2025-03-12 11:37:20 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/146200791

版权

人工智能专栏收录该内容

362 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/13517811

#Chameleon

快慢双系统！清华&博世最新：无需训练即可解决复杂道路拓扑

在自动驾驶技术中，车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素（如交通灯、标志），还要理解它们之间的复杂关系。例如，判断车辆是否可以左转进入某条车道，就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。然而，现有的解决方案存在明显局限性。一方面，密集视觉提示方法虽然准确，但计算成本高昂，且在实时处理中效率低下，难以应用于实际场景。另一方面，神经符号推理方法虽然效率较高，但在处理复杂场景（如交叉路口）时，常常因为缺乏视觉信息而无法做出准确判断。

为了解决这一难题，清华大学与博世中央研究院RIX联合提出了一个创新的解决方案——Chameleon。它通过一种快慢系统交替的神经符号方法，成功平衡了效率与性能，为自动驾驶领域带来了新的突破。

论文链接：https://arxiv.org/pdf/2503.07485

开源地址：https://github.com/XR-Lee/neural-symbolic

引言

在线地图感知是现代自动驾驶中的一个重要课题，它避免了对高成本高精地图的依赖。当前的三维场景理解方法虽然能够有效检测车道和交通元素（如图1所示），但这些实例之间的关系复杂，需要大量标注数据进行监督训练。为此，我们提出了一种基于视觉语言基础模型（VLM）的少样本（few-shot）方法，用于提取车道拓扑。

图1：VLM无法直接解决复杂的三维场景理解任务，例如车道拓扑提取。(a) 一种可能的方法是使用密集视觉提示（如RedCircle），虽然准确但效率低下。(b) 另一种方法是神经符号推理（如NS3D），但这种方法在程序合成时未能有效利用视觉输入，导致在处理复杂边缘情况时效果不佳。(c) 我们提出的Chameleon方法采用快慢交替的设计，其中一个VLM用于合成程序，另一个用于处理边缘情况。

具体而言，我们专注于OpenLane-V2定义的车道拓扑提取任务，即检测车道和交通元素（如交通信号灯和标志），并提取它们之间的关系。这一任务极具挑战性，需要高水平的推理能力，例如判断车辆在交叉路口是否可以驶入某条车道。然而，现有的VLM仍无法直接解决这种复杂的三维场景理解任务。

为解决这一问题，我们结合了两类基于VLM的方法：密集视觉提示和神经符号推理。密集视觉提示（如RedCircle）通过在图像上放置红色圆圈，将复杂推理任务转化为问答（QA）任务。但这种方法会导致大量的QA查询，计算成本高昂且不适合实时应用（如图1-a）。神经符号推理（如NS3D）虽然效率更高，但在程序合成时未能整合视觉信息，无法有效处理复杂边缘情况（如图1-b）。

因此，我们提出了一种名为“Chameleon”的快慢系统交替的神经符号车道拓扑提取器（如图1-c）。它通过VLM合成程序，根据视觉输入定制推理过程，并动态切换快慢系统以平衡效率和性能。此外，我们还提出了一个链式推理（COT）方法，用于识别和处理需要额外推理的边缘情况。

图二：Chameleon架构概览。输入多视图图像后，视觉模型分别生成交通元素和车道线段的检测结果。提出的快速系统利用一个大型视觉语言模型（VLM），以预定义的视觉-文本少样本和文本提示为输入，生成可执行代码以处理视觉模型的预测结果。提出的慢速系统包括一个视觉问答（VQA）API集和一个具有链式推理能力的视觉语言模型（VLM），其中VQA API集中的视觉提示和文本提示是VLM的输入。随后，拓扑推理结果是代码执行结果和VLM输出的组合。

方法

A. 概述

在车道拓扑提取任务中，我们预测一个密集的邻接矩阵，用于表示车道线段和交通元素之间的关系。具体来说，车道线段之间的关系由矩阵 A∈Rm×m 表示，车道线段与交通元素之间的关系由矩阵 A∈Rm×n 表示，其中 m 和 n 分别是车道线段和交通元素的数量。尽管密集视觉提示可以实现高性能，但其高昂的成本、环境影响和低效的推理速度使其不适用于实时应用。因此，我们采用链式推理（Chain-of-Thought, COT）方法，仅对稀疏的边缘情况进行密集视觉提示，从而提高推理效率。

为了高效处理任务，我们设计了快慢系统架构。快速系统使用符号表示处理基本推理任务，适用于简单场景（如直线车道）；而慢速系统则针对复杂边缘情况（如交叉路口的密集交通和多种交通元素）进行深度推理。这种架构通过动态切换快慢系统，平衡了效率和性能。

B. 提示

为了执行符号推理，我们使用多种提示来生成符号代码。这些提示包括带有few-shot参考的视觉提示（正例或负例）、API描述和专家规则。

API提示：API提示定义了生成代码的输入和输出，以及API的输入输出描述，例如用于车道自定位和并行车道搜索的函数等。在我们的实现中，我们还将选定的VQA任务定义为程序合成期间的API。
专家规则提示：为了稳定代码生成过程并整合领域专家的先验知识，我们将专家规则添加为程序合成的提示。例如，在TOP lsls任务中，强制执行角度和距离约束。例如，父车道的终点不应与子车道的起点相距过远，以满足驾驶几何约束。在TOP lste任务中，规则规定不允许在交叉路口内存在车道拓扑。
few-shot提示：在few-shot场景中，我们选择正例和负例，并将它们渲染为相机的透视图。我们还将这些示例的坐标转换为文本，分别作为视觉提示和文本提示。
VQA提示：对于VQA任务，文本提示由关于语义和空间上下文的简单问题组成。我们还使用链式推理（COT）提示。视觉提示基于预测结果从透视图和鸟瞰图中渲染图像。

图三：Chameleon架构示意图。输入多视图图像和文本提示后，Chameleon实现车道拓扑提取。每个API或密集视觉提示VQA任务表示为一个节点。具有链式推理（Chain-of-Thought, COT）能力的视觉语言模型（VLM）根据输入动态选择需要执行的节点，以推断拓扑结果。

C. 代码执行

对于生成的程序，TOP lsls和TOP lste任务的代码执行过程有所不同。对于TOP lsls任务，使用简单的成对预定义代码框架，VLM根据API描述和给定的提示生成Python代码。此代码以字符串形式生成，然后使用Python的exec函数执行。相比之下，TOP lste任务涉及更多的API调用（如图3所示），因此我们使用OpenAI的函数调用API来管理所需的函数执行。首先，我们提示VLM生成一个链式推理，以解决拓扑提取问题，该问题包含六个步骤（如图3执行模块所示）。这进一步用作文本提示，供VLM合成程序根据视觉输入自适应地跳过某些步骤。某些步骤涉及需要通过密集视觉提示VLM模型处理的边缘情况，因此被送入慢系统。通过总结API结果，系统可以推断出潜在的拓扑对。

D. 密集视觉提示VQA任务

密集视觉提示VQA任务是慢系统的核心API，特别是在开放场景拓扑推理的互操作过程中。为了测试VLM模型的能力，我们创建了几个基本的VQA任务。如表II所示，我们关注四个不同的任务。在“左或右”任务中，以鸟瞰图（BEV）的形式呈现两条车道线段。模型需要执行三类分类，选择左侧、右侧或无关系。对于“是否在交叉路口”任务，以马赛克形式显示单条车道，左侧为鸟瞰图（BEV），右侧为前方透视图（PV）。模型需要判断该车道线段是否在交叉路口内。在“邻接性”任务中，给出两条车道线段，模型需要判断它们是否相邻。最后，在“向量”任务中，模型需要评估两条渲染的向量箭头的方向是否匹配。

实验

A. 实验设置

我们在OpenLane-V2官方验证数据集上评估了Chameleon方法，该数据集提供了车道线段和交通元素之间的拓扑注释。此外，我们手动标注了500个样本，涵盖四个密集视觉提示VQA子任务，用于评估性能指标。这些数据集不仅支持车道拓扑提取任务，还适用于其他自动驾驶场景。

在评估指标方面，我们报告车道线段检测和交通元素检测的平均精度均值（mAP）。对于拓扑任务，采用OpenLane-V2官方指标TOPlsls（车道线段间拓扑mAP）和TOPlste（车道线段与交通元素间拓扑mAP）。对于VQA分类问题，由于正负样本在标注时保持平衡，我们使用准确率（Accuracy）作为评估指标。

B. 实现细节

我们将Chameleon方法应用于自定义基线，并进行了实验。基线方法结合了SMERF的SD编码和融合模块，使用LanesegNet框架检测车道线段，并通过DETR实现2D交通元素检测，同时并行训练TopoMLP以预测拓扑关系。为了进一步提升性能，我们还设计了一个增强基线（“Powerful Baseline”），引入了StreamMapNet的时间信息，使用更大的Vovnet作为骨干网络，并采用YOLOv8进行交通元素检测。在少样本学习场景中，我们采用3-shot配置，包含三个帧及其注释作为参考。

对于视觉语言模型（VLM），我们使用了GPT-4的官方API（包括GPT-4-vision-preview和GPT-4o）以及LLaVA-v1.5-13b-full ft-1e权重。此外，我们还进行了VQA基准测试，使用基于ResNet18的MLP分类模型，数据集按3:1比例分为训练集和测试集，采用Adam优化器和交叉熵损失函数进行20个周期的训练。

C. 定量和定性结果

与最新方法的比较：在本节中，我们将提出的少样本方法与OpenLane-V2验证集上的最新监督方法进行了比较。表I显示了与LaneSegNet、TopoLogic和MapVision等方法的比较结果。

我们的方法使用了两个不同的基线，每个基线使用不同的骨干网络。基线基于LanesegNet和TopoMLP实现，并结合了SMERF中的SD编码和融合过程。如表所示，我们的方法在few-shot设置中实现了与监督基线相当的性能，甚至在TOPlste任务中略微超过了全监督模型。总体而言，我们的方法在仅使用少样本的情况下表现出显著的竞争力。

图四：TopoMLP和我们的方法（Chameleon）在OpenLane-V2验证数据集上的定性结果对比。(a) 车辆刚刚通过交叉路口。(b) 前方有一个左转交通灯。(c) 地面车道标有直行标志。(d) 车辆行驶在单向右转车道上。所选场景均为边缘情况，需要通过密集视觉提示进行进一步推理。每个子图均包含鸟瞰图（BEV）和前视图（PV）。蓝色线条表示车道线段检测结果，绿色线条表示车道与交通元素之间的真正例（ls-te），粉色线条表示车道与交通元素之间的假正例（ls-te）。当车辆刚刚通过交叉路口时（图4-a），车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法（Chameleon）理解了绿灯与车道之间的空间关系，从而做出了正确的判断，而TopoMLP则相反。在图4-b中，左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同，我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志（图4-c），因此该标志仅与其自身车道和连接车道相关，而不是其他平行车道。我们的方法做到了这一点，而TopoMLP没有做到。车辆行驶在单向右转车道上（图4-d），控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

不同VLM方法的VQA比较：由于其通用性，VQA与各种VLM兼容。表II比较了不同VLM在四个任务上的性能。在这些任务中，我们发现GPT-4的性能与监督分类器模型相当，而LLaVA在语义和空间理解任务中表现较差。

数据和推理效率比较：为了比较不同方法之间的推理成本，我们在RTX 4080 GPU上测试了LLaVA的平均VQA任务延迟。平均VQA延迟约为1447毫秒。在我们的实验中，每帧平均执行6次VQA，导致慢速系统的延迟为8.7秒/帧。TopoMLP的延迟根据不同的骨干网络和图像分辨率而变化，范围从140毫秒到700毫秒。密集视觉提示的延迟是基于20×20矩阵的逐个VQA计算得出的，结果为每帧超过200秒。详细信息总结在表IV中。

定性结果：为了更直观地展示我们算法的性能，我们还提供了OpenLane-V2验证数据集上预测的ls-ls关系和ls-te关系的定性可视化结果。所有比较的场景均为边缘情况，每个子图均包含鸟瞰图和前视图。蓝色线条表示车道线段检测结果，绿色线条表示ls-te真正例，粉色线条表示ls-te假正例。

当车辆刚刚通过交叉路口时（图4-a），车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法（Chameleon）理解了绿灯与车道之间的空间关系，从而做出了正确的判断，而TopoMLP则相反。在图4-b中，左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同，我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志（图4-c），因此该标志仅与其自身车道和连接车道相关，而不是其他平行车道。我们的方法做到了这一点，而TopoMLP没有做到。车辆行驶在单向右转车道上（图4-d），控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

D. 消融研究

我们在OpenLane-V2验证集上对TOPlsls任务进行了消融研究，以评估我们框架中每个组件的有效性。结果如表V所示。“提示到符号”指的是仅提供API提示的基本神经符号推理。由于生成代码的不稳定性，我们报告了三次符号推理结果的平均值作为最终性能。“专家规则”指的是将专家观察结果纳入提示。对于少样本示例，我们引入了三个正例和三个负例以改进生成的程序。

结论

本文介绍了一种名为“Chameleon”的新方法，该方法结合了密集视觉提示和神经符号推理，利用视觉语言基础模型（VLM）以few-shot的方式提取车道拓扑。Chameleon通过整合视觉信息来合成程序，针对特定场景定制处理过程，并通过密集视觉提示高效地处理边缘情况。通过平衡计算效率和高性能，Chameleon适用于实时机器人应用，并展示了将视觉输入整合到复杂三维场景任务程序合成中的潜力。未来的工作可以探索将这种方法扩展到其他自动驾驶领域。

#GO-1

智元发布首个通用xx基座大模型

智元发布首个通用xx基座模型——智元启元大模型（Genie Operator-1），它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构，该架构由VLM(多模态大模型) + MoE(混合专家)组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了xx智能门槛，并成功部署到智元多款机器人本体，持续进化，将xx智能推上了一个新台阶。

研究论文:

https://agibot-world.com/blog/agibot_go1.pdf

2024年底，智元推出了 AgiBot World，包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World，智元今天正式发布智元通用xx基座大模型 Genie Operator-1（GO-1）。

GO-1：VLA进化到ViLLA

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据，增强策略的泛化能力，智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。GO-1作为首个通用xx基座大模型，基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比，ViLLA 通过预测Latent Action Tokens(隐式动作标记)，弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越，远远超过了已有的开源SOTA模型。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时，VLM、Latent Planner和Action Expert三者协同工作：

VLM 采用InternVL-2B，接收多视角视觉图片、力觉信号、语言输入等多模态信息，进行通用的场景感知和指令理解；
Latent Planner是MoE中的一组专家，基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning，规划链)，进行通用的动作理解和规划；
Action Expert是MoE中的另外一组专家，基于VLM的中间层输出以及Latent Action Tokens，生成最终的精细动作序列；

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert：

混合专家一：

Latent Planner（隐式规划器）

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为此，我们采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner预测这些Latent Actions，从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

Latent Action Model（LAM，隐式动作模型）主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth（真值），它由编码器和解码器组成。其中：
编码器采用Spatial-temporal Transformer，并使用Causal Temporal Masks（时序因果掩码）。
解码器采用Spatial Transformer，以初始帧和离散化的Latent Action Tokens作为输入。
Latent Action Tokens通过VQ-VAE的方式进行量化处理。
Latent Planner负责预测这些离散的Latent Action Tokens，它与VLM 主干网络共享相同的 Transformer 结构，但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息，通过Cross Entropy Loss（交叉熵损失）进行监督训练。

混合专家二：

Action Expert（动作专家）

为了实现 High-frequency（高频率）且 Dexterous（灵活）的操控，我们引入Action Expert，其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

Action Expert结构设计上与Latent Planner类似，也是与 VLM 主干网络共享相同的 Transformer 结构，但使用两套独立的FFN和Q/K/V/O投影矩阵，它通过Denoising Process（去噪过程）逐步回归动作序列。
Action Expert与VLM、Latent Planner分层结合，确保信息流的一致性与协同优化。

实验效果

通过Vision-Language-Latent-Action (ViLLA) 创新性架构，我们在五种不同复杂度任务上测试 GO-1，相比已有的最优模型，GO-1成功率大幅领先，平均成功率提高了32%(46%->78%)。其中 “Pour Water”（倒水）、“Table Bussing”（清理桌面）和 “Restock Beverage”（补充饮料）任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用，可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

GO-1：xx智能的全面创新

GO-1大模型借助人类和多种机器人数据，让机器人获得了革命性的学习能力，可泛化应用到各类的环境和物品中，快速适应新任务、学习新技能。同时，它还支持部署到不同的机器人本体，高效地完成落地，并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面：

人类视频学习：GO-1大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解，更好地为人类服务。
小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了xx模型的使用门槛，使得后训练成本非常低。
一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，群体升智。
持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

智元通用xx基座大模型GO-1的推出，标志着xx智能向通用化、开放化、智能化方向快速迈进：

从单一任务到多种任务：机器人能够在不同场景中执行多种任务，而不需要针对每个新任务重新训练。
从封闭环境到开放世界：机器人不再局限于实验室，而是可以适应多变的真实世界环境。
从预设程序到指令泛化：机器人能够理解自然语言指令，并根据语义进行组合推理，而不再局限于预设程序。

GO-1大模型将加速xx智能的普及，机器人将从依赖特定任务的工具，向着具备通用智能的自主体发展，在商业、工业、家庭等多领域发挥更大的作用，通向更加通用全能的智能未来。

#DecoupledGaussian

基于物理的前提

为了提升真实感，研究逐渐超越了传统表示方式，如点云、网格、体素网格和有符号距离场（SDF）。神经辐射场（Neural Radiance Fields, NeRF）利用神经渲染技术从视频中生成新视角图像，使得模拟内容能够直接来源于捕获的数据，从而应用于交互式游戏、动画和仿真。此外，高斯喷溅（Gaussian Splatting, GS）因其快速渲染和重建速度而广受关注。GS 利用离散高斯核来表示 3D 场景，使得从视频中重建的物体更容易直接操作和处理。

然而，当前基于物理的仿真方法，无论是使用 NeRF还是 GS，大多仅关注合成物体，这允许在重建过程中对物体进行全视角观察；或者仅支持弹性形变与抖动，即物体仍受限于初始接触表面，无法真正脱离并独立运动。因此，当用户施加外部冲击力时，这些方法无法实现物体的真实分离。

为了让物体能够在仿真前摆脱初始接触表面的限制，我们需要首先将物体与接触表面解耦。在现实环境中，物体通常受重力影响，并停留在其他表面上，例如图 1 中基座上的雕塑。在拍摄过程中，物体与其接触表面往往被视为一体，这会导致部分区域隐藏或被遮挡，使得物体表面的表示变得支离破碎。因此，解耦的主要挑战在于：在仿真前准确恢复并补全物体及其周围场景的 3D 结构。

为了解决这一问题，本文介绍的**DecoupledGaussian[1]**，该系统利用高斯喷溅（GS）从自然场景视频中恢复物体及其接触表面的 3D 几何结构和纹理，为真实的物体-场景交互式仿真奠定基础（见图 1）。值得注意的是，2D 修复（inpainting）（如图 2）通常难以进行 3D 恢复，尤其是在准确捕捉几何位置信息方面。我们的方法通过结合几何先验（假设表面为封闭形状）和多视角观察，从训练视角恢复真实的物体与场景几何，克服了这些限制。

具体而言，我们的方法采用 联合泊松场（Joint Poisson Fields） 来重建物体和场景的形状指示符，以解决物体与场景的 交叉区域问题。直接使用高斯中心点可能会导致物体重建出现 表面偏差，因为混合渲染会引入伪影。为避免此类问题，我们采用基于平面的 GS 方法，使用无偏深度图创建代理点，以实现更真实的物体重建。此外，我们引入单向负交叉熵方法进行多视角雕刻，以优化几何结构，使其与观测视角对齐。

DecoupledGaussian 是首个无需 2D 修复即能独立恢复物体和接触表面几何结构的系统。2D 修复仅用于纹理属性的优化。我们在真实视频数据集上进行了大量实验，包括新的解耦基准（decoupling benchmark），并结合用户研究、定量比较和消融实验，验证了我们的方法在恢复精确 3D 属性和实现精准交互仿真方面的有效性。

项目链接：https://wangmiaowei.github.io/DecoupledGaussian.github.io/

主要贡献：

开发了一种物体-场景交互式仿真系统，该系统允许物体在由自然场景视频重建并表示为 GS 后，与接触表面完全分离。
引入几何先验，利用联合泊松场和多视角观察结合单向负交叉熵（UNCE），提升 GS 中的几何属性恢复能力

具体方法

DecoupledGaussian 系统从重建的高斯喷溅 GS 场景开始，允许静止在平面表面的物体在仿真中实现合理的分离运动，如图 3 所示。首先，物体被分割出来，并采用基于平面的 GS 使高斯点对齐到底层的场景几何结构。在物体与场景分离后，系统利用几何先验信息，通过联合泊松场 Joint Poisson Fields 修复物体和场景的破损表面。对于物体，代理点 proxy points 被用作泊松场的输入，并通过单向负交叉熵 Unilateral Negative Cross-Entropy 方法进行雕刻，以确保几何结构与训练视角对齐。然后，使用二维修复技术对高斯的纹理属性进行优化，最后通过移动最小二乘-材料点法 MLS-MPM 进行物体和场景的实时交互式仿真。本节将详细介绍各个阶段的实现方法。

三维高斯准备

场景使用普通消费级相机自由录制，然后使用 COLMAP 进行内外部标定，并生成初始高斯中心点。

基于平面的高斯喷溅

仅依赖图像重建损失优化标准的三维高斯模型通常会陷入局部最优，使得几何提取变得困难，而准确的几何提取对于后续的修复阶段至关重要。为了避免这一问题，我们采用 PGSR 方法进行无偏深度估计。

由于标准高斯分布的无序性，我们首先将高斯点压缩到与场景表面对齐的近似局部平面，通过最小化尺度项进行优化，以在允许一定渲染质量损失的情况下提高几何精度。

压缩到平面后，我们为高斯点分配法向量，其方向由视角方向确定。到图像平面的距离计算如下：

其中，为从相机中心到高斯中心的向量。最终，在像素处的无偏深度计算如下：

其中，为相机的内参矩阵，为像素的齐次坐标。压缩后的高斯点提供了单视角和多视角的几何正则化，以保证几何一致性，并通过曝光补偿来减少光照变化的影响。

高斯分割

我们采用 GS 分割方法，为每个高斯核赋予语义亲和特征，并通过一个单层 MLP 将 -混合后的特征映射到个分割类别的概率分布，并使用 softmax 进行归一化。网络使用交叉熵损失进行训练，训练数据为 SAM2 生成的多视角二维分割标签。为了减少相邻高斯点之间的误分类，我们应用了局部特征平滑。

物体-场景修复

为了模拟物体与其周围场景表面的交互，我们首先需要将从中分离出来。具体方法是通过比较语义亲和特征与像素点处的 -混合特征，确定属于的高斯点集。然后，利用 K 近邻方法去除表示残留伪影的临近高斯点。接下来，我们修复并补全和，以实现真实的物理仿真。

联合泊松场

本方法的核心贡献之一是对 GS 的几何属性进行几何修复，假设物体和场景是平滑、封闭的形状。基于泊松曲面重建与环绕数场的等价性，我们提出联合泊松场 Joint Poisson Fields，该方法利用异构约束同时修复和的几何结构。具体步骤如下：

通过屏蔽泊松重建计算场景表面和物体表面的指示函数和，以隐式方式确保曲面具有最小曲率。
通过世界坐标变换，将映射到所在的网格中，并在交叉区域处进行冲突解决，以确保和互不重叠。
从生成密集内部点集，并应用 Marching Cubes 算法将转换为网格，随后进行重网格化和裁剪，最终转换为世界坐标系。

代理点

由于 -混合效应，直接使用高斯中心点可能无法准确表示的复杂表面。为此，我们引入代理点以增强泊松重建质量。

单向负交叉熵

泊松场通常会导致几何扩张，即额外填充了不属于的体积。为了解决这一问题，我们提出单向负交叉熵进行多视角雕刻。具体公式如下：

其中，为 SAM2 生成的二真实物体掩码，为当前优化过程中物体的值。

高斯恢复

对于场景的修复，我们首先绑定新的平坦三维高斯到网格，并最小化其法向方向的缩放因子。在后续优化中，仅优化纹理属性，而几何属性设为固定值。

交互式仿真

我们利用 MLS-MPM 对修复后的高斯进行仿真，以支持用户施加冲击力、弹性形变、碰撞和断裂等交互场景。在 MLS-MPM 网格操作阶段，我们将场景的网格节点速度设为零，以模拟粘附边界条件。此外，我们使用 RANSAC 估算平面法向量，以自动对齐重力方向。

实验效果

总结一下

本文提出了 DecoupledGaussian，这是一种快速且鲁棒的方法，能够从接触表面分离静态物体，并恢复其几何和纹理，以实现基于 MLS-MPM (Moving Least Squares Material Point Method) 模拟器的物体-场景交互。

局限性：本研究未涉及包含多个物体的复杂场景，特别是当物体之间具有不同的接触配置时。此外，物体恢复中的高频纹理补全仍然具有挑战性，未来可能需要借助基于 GS (Gaussian Splatting) 的纹理生成方法来提升细节质量。此外，如何进一步对个体物体的精细组件 (fine-grained components) 进行分离仍是一个待解决的问题。

参考

[1] DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

#浅聊自动驾驶端到端的脉络整理

感知&预测&规划背景自动驾驶感知最近似乎进入瓶颈期，接近一年的时间Nuscenes障碍物检测榜单都不再有更新，而大模型如火如荼的发展把数据驱动的AI发展逻辑也代入了自动驾驶领域。这篇博客主要是想把最近关注到的一些自动驾驶端到端的论文整理一下，捋出一些有价值的思路和想法。

参考VAD的论文思路，我会把端到端整体划分为3部分：

感知端到端
预测端到端
规划端到端-端到端整体架构

感知端到端

感知端到端这一块主要涉及到多传感器融合和时序融合。我想从障碍物和车道线这2个领域分别调一篇比较有代表性的论文聊一聊。

障碍物：Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

nuscensce视觉障碍物检测SOTA方案，整体架构延续DETR一派，新增维护memory队列，其中巧思很多，主要有一下几点：

可学习query中新增队列实例做初始化（注意速度，是否拿来做障碍物的位置编码残差项？）
按属性拆分的attention
在模型中做实例信息整合，而无需显式匹配，在记忆队列里维护实例id

车道线：MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

选择这篇主要是思路和效果都不错，放个效果图大家感受一下~

这篇文章比较吸引我的一个点在架构上

这篇文章和上面的Sparse4D一样是维护了2个记忆队列，可以把这些记忆队列理解为车道线的隐藏状态，这个状态在时序迭代中是越来越切合实际的。可以着重关注一下Minit的2个feature，可以看到在推理的初始阶段这2个tensor是不包含什么信息的，随着推理，这2个tensor的信息实际上由t-1时刻的特征替代，整个架构的前一部分是做t-1 - > t时刻的预测，后一个阶段是做t-1和t时刻的特征融合和t时刻的状态估计，整个流程和卡尔曼滤波几乎别无二致，这也算是一种致敬吧，哈哈哈

思考点：这里的所有CA能不能参考LLM换成因果attention？

预测端到端

1. FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras

虽然是21年的文章，但是确实非常经典

文章的预测部分引入一个隐藏的状态，这个状态满足个元素相互独立的多元正态分布，通过网络预测其期望和方差，再通过分布采样一个状态作为当前时刻的隐藏状态，这个隐藏状态又作为输入用来预测下一时刻的环境。

个人觉得这样建模是比较好的体现了未来的不确定性。

2. Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction

把障碍物轨迹预测建模为多智能体+多运动模式的组合，核心点在下面这个公式，可以按MapTRV2的思路去理解，即智能体和运动模式看做正交的2个变量，通过2者间的组合可以构建其智能体运动空间

下面是不同运动模式的运动终点的可视化分析，可以看到不同运动模式的偏好

这篇文章的建模稍显复杂，感觉不是很必要，整体思路上参考一下就行了

规划端到端-端到端架构

这一部分主要介绍一下最近看的几篇比较流行的端到端架构，总结一下异同。

1. VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

首当其冲的这篇论文架构重点确实清新，指出了端到端的核心点，规划模块。实际上这篇论文很清晰的指出了规划模块的输入输出和约束。

输入包含几块：感知结果，原始图像信息，导航信息和自车运动信息。

输出：规划轨迹的概率分布

监督信号：实际轨迹与预测轨迹的KL散度

约束信息：地图和其他障碍物约束

最后提一句损失函数，有3部分：

轨迹的概率分布之间的KL散度
碰撞等约束条件的冲突损失
感知的监督损失

这样重点清晰，逻辑自谦，可视化简洁的文章可真是懒人最爱~~~

2. Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

这篇文章与VAD师出同门，一样优秀的可视化功底，几张图基本把训练流程、模型架构和模块间相互支撑的关系讲清楚了

这篇是VLM结合端到端的文章，重点主要在VLM的设计上，以下是VLM关注的几个问题：

场景描述
交通灯状态
VRU信息
其他障碍物的运动信息
自车的运动规划
运动规划的解释

这几个问题解释了规划的逻辑并为端到端提供高级的驾驶意图指导

这个图展示了VLM和E2E的信息交互，2个模块间的相互支撑很明显

2.1 DRIVEVLM: The Convergence of AutonomousDriving and Large Vision-Language Models

DriveVLM的架构跟Senna很像，都是VLm和E2E并行交互，但是某种程度上来说DriveVLM走的更远一些

上面是DriveVLM的架构，VLM的推理部分更加格式化，且推理之间的递进关系可能能帮助其推理逻辑更加缜密

VLM推理的3步：

分析理解场景，找出关键障碍物
分析关键障碍物，给出其状态和其与自车的交互信息
生成驾驶意图，分为3层：

3.1 meta-action：意图动作

3.2 decision：动作规划

3.3 Waypoints：具体的轨迹点

还给出了推理标注流程，数据集构建流程：

长尾目标挖掘和挑战的场景挖掘
人工过滤
关键帧挑选
场景标注
人工校验

3. EMMA: End-to-End Multimodal Model for Autonomous Driving

这篇文章是纯VLM支撑的端到端自动驾驶，输入图像和文本信息，输出感知和规划路径

基于CoT的规划，推理部分包含4个主题：

场景理解
关键目标
关键物体的行为描述
元决策（例如保持低速直行）

方案有些激进，但是一体化的思路值得参考

4. RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based

Reinforcement Learning

提出利用GS多视角图像，支持训练的反馈闭环

3阶段训练：

s1：感知预训练

s2：规划预训练

s3：规划策略网络强化学习

同时使用PPO强化学习和模仿学习

强化学习的4种反馈信息，GS生成能比较好的模拟这些corner case：

动态障碍物碰撞
静态账务碰撞
位置偏移专家轨迹
航向角偏移专家轨迹

#Omni-Scene

以自车为中心的3D场景重建大模型

本文是西湖大学刘沛东教授团队在场景级3D重建大模型领域的最新研究成果，相关论文已被 CVPR 2025 接收，代码/数据/模型权重已开源。

论文链接：https://arxiv.org/abs/2412.06273
项目代码：https://github.com/WU-CVGL/Omni-Scene
团队主页：https://ethliup.github.io/

工作简介

背景与动机

此前3D重建大模型工作如LGM、pixelSplat、MVSplat等，主要关注以物体或场景为中心（Scene-Centric）的多视角重建，其要求输入图像之间存在较大的视角重叠，在应用时往往需要围绕物体或场景拍摄多张图像或视频。

这种较为低效的输入采集方式，不适用于对实时性要求很高的自动驾驶或具身智能领域的应用，其最理想的情况是：基于车辆/机器人当前位置所拍摄的图像，即可重建场景的3D外观和结构，使得智能系统可以在空间层面进行即时的交互和理解。

本文基于此观察，旨在研究一种以车辆/机器人为中心（Ego-Centric）的多视角3D重建大模型，无需围绕场景移动，基于单帧所拍摄的多视角图像，即可实现即时的大规模场景3D重建。

从上述目标出发，本文发现限制此前方法仅适用于以物体或场景为中心（Scene-Centric）重建的一个重要原因在于：此前方法所使用的像素对齐的3D表示方式，依赖于输入图像间的视角重叠来获取深度信息，从而将2D图像信息升维至3D空间，实现3D层面的重建相关参数的预测（如：NeRF、3DGS）。因此，本文试图从3D表示上改进来避免该问题。受基于体积3D表示的3D感知领域工作（如：BEVFormer、TPVFormer）的启发，本文认为体积表示可以直接在3D层面融合多视角的2D特征，无需预测深度，可以很好地补足此前基于像素表示的缺陷。

故而本文对不同3D表示的特点进行了如图1所示的分析，可以看到对于像素表示，其沿相机射线方向做反投影的方式有2个缺陷：（1）无法预测被遮挡的物体；（2）无法重建视锥以外的空间。而体积表示则恰好避开了这两个缺陷，然而其也存在2个问题：（1）受限于长宽高范围，无法表示远处的建筑或天空等；（2）受限于O(n3)的复杂度，难以精细化表示场景外观。这2个问题又正好被像素表示所弥补。

图1. 基于不同表示进行3D重建的示意图和效果对比

考虑到上述不同表示的优缺点及其互补性，本文提出了一种新颖的Omni-Gaussian表示方法，并为其精心设计了网络框架，从而对此前表示方法取长补短，实现不依赖于多视角重叠的Ego-Centric场景重建。在nuScenes数据集上的大量实验表明，本文所提出的基于Omni-Gaussian表示的方法在Ego-Centric重建任务上相比于此前方法具有巨大优势，证明了本文方法的有效性。此外，同2D图像生成方法如MagicDrive结合，本文还可实现多模态控制的3D场景生成，为前馈式（feed-forward）的场景级3D生成开辟了一种可能性。

技术方案

1. 整体框架:
如图2所示，本文的整体框架由共享多视角图像特征的体积分支（Volume Builder）和像素分支（Pixel Decorator）构成，它们分别用来预测基于体素和像素的3D高斯球参数，并通过对齐融合重建完整的3D场景。以下是每个分支的具体方法介绍。

图2. Omni-Scene方法的总体框架

2. 体积分支（Volume Builder）:
如图2(b)所示，体积分支采用稀疏的三平面（triplane）特征以节省计算开销，其通过三个平面的特征插值获取每个体素位置的特征，并预测以体素为锚点（anchor）的3D高斯球，以实现粗粒度的3D场景重建，描绘其大体结构。为了将2D图像特征转换到triplane，本文借鉴3D感知工作中常用的可变形注意力机制（Deformable Attention），从2个维度对triplane特征进行编码和增强。其一，为了将多视角2D图像特征升维至3D，本文先将triplane每个位置扩展成柱状空间体素，接着利用相机参数确定体素的3D坐标对应哪些2D图像坐标，并通过可变形注意力为每个体素抽取其空间上相关联的局部2D特征，以获得3D层面的特征编码。其二，为了促进triplane不同平面特征的对齐与融合，本文将每个平面所扩展的柱状体素投影到另外2个平面，并通过可变形注意力融合其相关联的另外2个平面上的局部3D特征，以实现3D层面的特征增强。以上两种可变形注意力机制的公式如下：

其中，CIDA和CPDA分别对应triplane到2D图像、triplane各平面之间的两种注意力操作。

3. 像素分支（Pixel Decorator）:
如图2(c)所示，像素分支采用了多视角U-Net网络（Multi-View U-Net），并在网络的每一层施加多视角特征间的交叉注意力机制，以促进相邻视角间的信息交互。基于网络末端输出的多个视角的像素特征，可以预测每个视角的像素深度和对应的3D高斯球参数，其映射到3D空间后可实现细粒度的3D场景重建，用于为体积表示所重建的粗粒度场景补充外观细节。为了降低Ego-Centric场景下深度预测的难度，本文还提出用Metric3D-v2粗略预测像素深度，用于初始化3D高斯球的位置，发现其可提升像素分支的重建效果。上述基于像素到3D空间映射的3D高斯参数映射可由如下公式表示：

其代表根据深度将相机坐标沿像素的射线方向移动并施加offset偏移。

4. 不同表示间的互补机制（Volume-Pixel Collaboration）:
本文的一个核心目标是促进上述两种表示的互补，考虑到两种表示的不同特性，本文提出了如图2所示的2个维度的设计。其一为Featrure Projection，为了促进两种表示在3D空间上的对齐，使得它们能够各自感知到另一种表示需要被补足的空间区域，本文提出将通过深度映射至3D空间的像素特征投影到triplane的各个平面上，以使得两种表示的特征在3D空间是互补对齐的。其二为Training Decomposition，考虑到体积表示长宽高受限的空间范围，其不适用于重建HWZ范围外的场景，本文提出基于像素表示所预测的深度，对本文的训练目标进行解耦。具体地，本文基于每个target视角所预测的深度将像素坐标投影到3D坐标，并将这些3D坐标中位于自车HWZ范围外的像素筛选出来，不计入损失函数的计算，使得体积表示可以专注于HWZ体积内的3D重建，并让像素表示来补充HWZ体积外的3D重建。因此，本文的总体损失函数如下：

其由full和volume两部分组成，以实现训练目标的解耦。

实验结果分析

本文基于nuScenes构建了一个Ego-Centric稀疏视角3D场景重建任务，并展开了实验，其包含135,941个训练场景和30,080测试场景。同时，本文还在RealEstate10K数据集上进行了实验，用于验证方法在Scene-Centric任务上的兼容性。从表1可以看出，本文方法在两个数据集的新视角合成和深度预测任务上的效果都显著优于此前基于像素表示的SOTA方法（包括：pixelSplat、MVSplat），验证了Omni-Scene方法的有效性。此外，表2的消融实验详细论证了本文各模块的性能增益，验证了本文各项设计的有效性。

表1. Omni-Scene方法与SOTA的对比

表2. Omni-Scene方法的消融实验

总体来说，基于6张Ego-Centric的环视多视角图像，本文的Omni-Scene方法可以在0.1秒内完成3D场景的重建。以下图3展示了我们在重建的3D场景中进行新视角合成的效果。

图3. Omni-Scene方法的新视角合成效果

此外，通过与自动驾驶domain的2D图像生成方法MagicDrive结合（即：先生成多视角2D图像，再重建3D场景），本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成，初步探索了场景级的前馈式（feed-forward）3D生成的可能性，拓宽了本文方法的应用场景。

图4. Omni-Scene方法的3D场景生成效果

个人和团队信息

韦东旭

本文第一作者，浙江大学博士毕业，曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究，目前在西湖大学计算机视觉和几何深度学习实验室担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。

西湖大学-计算机视觉和几何深度学习实验室

该实验室由刘沛东教授创立。刘沛东教授博士毕业于苏黎世联邦理工学院（ETH Zurich），师从 Marc Pollefeys 教授和 Andreas Geiger 教授，2021年获得计算机科学专业科学博士学位后加入西湖大学，目前已在CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA、TRO等国际顶级会议或期刊上发表论文40余篇。团队研究主要集中在三维计算机视觉、机器人和具身智能等领域，成员均来自上海交大、同济、西安交大、美国西北大学等海内外知名高校，拥有计算机科学与技术、自动化、机械电子等多专业背景。欢迎大家前来访问交流与合作。

#AlphaDrive

首创GRPO方案！VLM+RL破解自动驾驶长尾难题

OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平，强化学习（RL）和推理在其中发挥了关键作用。在自动驾驶领域，最近的端到端模型极大地提高了规划性能，但由于常识和推理能力有限，仍然难以应对长尾问题。

一些研究将视觉-语言模型（VLMs）集成到自动驾驶中，但它们通常依赖于预训练模型，并在驾驶数据上进行简单的监督微调（SFT），没有进一步探索专门为规划设计的训练策略或优化方法。本文提出了 AlphaDrive，一个针对自动驾驶中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四个基于 GRPO 的 RL 奖励，专门用于规划，并采用结合 SFT 与 RL 的两阶段规划推理训练策略。结果表明，与仅使用 SFT 或不进行推理相比，AlphaDrive 显著提升了规划性能和训练效率。此外，我们还兴奋地发现，在 RL 训练之后，AlphaDrive 展现出了一些新兴的多模态规划能力，这对提高驾驶安全性和效率至关重要。据我们所知，AlphaDrive 是首个将基于 GRPO 的 RL 与规划推理集成到自动驾驶中的框架。代码将被发布以促进未来的研究。

论文链接：https://arxiv.org/abs/2503.07608
代码链接：https://github.com/hustvl/AlphaDrive

引言

近年来，自动驾驶技术取得了快速进展，端到端自动驾驶成为最具代表性的模型之一。这些模型以传感器数据为输入，利用可学习的神经网络规划车辆未来轨迹。得益于大规模驾驶演示数据，端到端模型通过扩展训练数据和增加模型参数持续改进规划能力。然而，由于其黑箱特性与常识推理能力的缺失，端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。例如，当前方车辆携带交通锥行驶时，端到端模型可能无法理解前车与交通锥的关系，误判道路施工不可通行，从而做出错误的制动决策。因此，仅依赖端到端模型实现高级别自动驾驶仍存在显著局限性。

随着GPT的成功，大型语言模型（LLMs）展现出卓越的理解与推理能力，并逐步从单模态文本理解扩展到多模态视觉-语言处理。视觉-语言模型（VLMs）的常识与推理能力为缓解端到端模型的缺陷提供了潜在解决方案。

近期，OpenAI o1通过集成推理技术，在编程等领域达到甚至超越人类专家水平。DeepSeek R1则利用强化学习（RL），不仅展现出“涌现能力”并取得顶尖性能，且训练成本显著低于其他模型。这些进展凸显了推理技术与强化学习在大型模型开发中的巨大潜力。

现有将VLMs应用于自动驾驶的研究可分为两类：

驾驶场景理解：利用VLMs解析场景语义；
规划决策：部分研究将VLMs作为端到端系统，直接根据输入图像生成轨迹。然而，与专为轨迹规划设计的端到端模型不同，VLMs的输出空间为离散语言符号，难以直接生成精确数值预测，可能导致性能不足或安全隐患。

部分研究尝试通过自然语言描述高层动作（如“减速右转”）规避上述问题，但仍缺乏对训练方法的深入探索。多数工作仅依赖监督微调（SFT），忽视了不同训练策略对规划性能与训练效率的影响。

本文探讨以下核心问题：
如何将强化学习与推理技术（在通用大模型中取得显著成功的方法）应用于自动驾驶规划，以提升VLMs的性能并降低训练成本？

通过初步实验，我们发现直接应用现有RL与推理技术效果欠佳，主要归因于以下三方面：

奖励设计不匹配：通用任务的RL奖励（如视觉计数任务的正确性判断）难以适应规划需求。自动驾驶中，不同驾驶行为的重要性差异显著（如制动与加速），需设计权重差异化的奖励机制。
多解性挑战：规划问题通常存在多个合理解（如直行道路可选择匀速或加速），需避免强制对齐单一真值标签。
推理数据匮乏：自动驾驶缺乏现成的规划推理数据集，人工标注成本高昂，直接应用现有推理技术困难。

针对上述挑战，本文提出AlphaDrive——首个将基于GRPO的强化学习与规划推理集成到自动驾驶的框架。具体贡献如下：

GRPO强化学习策略：采用Group Relative Policy Optimization（GRPO），相比PPO和DPO，其组间相对优化策略更适配规划的多解性，实验表明GRPO训练的模型展现出涌现的多模态规划能力。
四维奖励设计：

规划准确性奖励：基于F1分数评估横向（方向）与纵向（速度）决策一致性；
动作加权奖励：根据安全关键性为不同动作分配权重（如制动权重高于匀速）；
规划多样性奖励：鼓励生成多样化可行解，防止模式坍缩；
格式规范奖励：强制输出结构化格式（如<answer>标签），提升训练稳定性。

两阶段训练范式：
阶段一（SFT知识蒸馏）：利用大模型（如GPT-4o）生成高质量规划推理数据，通过SFT实现推理过程蒸馏；
阶段二（RL探索）：在SFT基础上进行RL微调，缓解早期训练的不稳定性和幻觉问题。

实验表明，与仅使用SFT或无推理的模型相比，AlphaDrive在规划准确率上提升25.52%，且在仅20%训练数据下性能超越SFT模型35.31%。此外，RL训练后模型涌现出多模态规划能力（如复杂场景生成多个合理决策），为提升驾驶安全与效率提供了新方向。据我们所知，AlphaDrive是首个将GRPO-based RL与规划推理结合的自动驾驶框架，代码将开源以推动后续研究。

相关工作回顾

视觉-语言模型
自GPT发布以来，大型模型的能力已从单模态扩展到多模态。大型视觉-语言模型（VLMs）在视觉理解与推理任务中展现出卓越性能。早期研究尝试将视觉模型与大型语言模型（LLMs）结合：Flamingo通过视觉编码器处理视觉信号，并在LLM解码器中引入注意力层以实现跨模态交互；BLIP提出Q-Former架构和跨模态对比学习任务，以桥接视觉编码器与LLMs；LLaVA采用简单的MLP作为视觉与语言模块的连接器，仅用有限数据即实现强大的视觉理解能力。QwenVL系列进一步优化了视觉模块，支持高分辨率和动态分辨率图像输入，并在多语言任务和空间感知中表现优异。

强化学习与推理
自回归学习是LLMs的主流预训练策略，而强化学习（RL）与推理技术进一步增强了模型能力。例如，GPT采用基于人类反馈的强化学习（RLHF），将人类意图和偏好融入训练过程；直接偏好优化（DPO）通过优化偏好反馈提升模型性能。Group Relative Policy Optimization（GRPO）引入组间相对优化策略，通过多组输出的相对优劣提升训练稳定性和效果。

DeepSeek R1基于GRPO训练时经历了“顿悟时刻”（Aha Moment），模型在无显式引导下自主增加问题思考并重新评估初始方案，展示了RL在推动模型从模仿转向涌现智能中的潜力。本实验中，我们同样观察到，经过GRPO-based RL训练后，AlphaDrive展现出多模态规划能力，可生成多组合理驾驶方案，为提升驾驶安全与效率提供了可能。
在推理领域，Chain-of-thought通过分步分解复杂问题显著提升解决能力。OpenAI o1基于该方法，结合推理时扩展（如蒙特卡洛树搜索MCTS和集束搜索Beam Search），在科学和编程等需复杂推理的领域取得突破，表明除扩展模型参数与数据外，提升推理时计算量亦是重要方向。

自动驾驶规划
规划是自动驾驶的核心任务。早期基于规则的算法通用性与效率受限。近期，端到端模型通过统一神经网络直接从传感器数据输出轨迹或控制信号，利用大规模驾驶演示数据驱动训练，显著提升规划性能。然而，端到端模型因缺乏常识与推理能力，仍难以应对长尾场景。

VLM在自动驾驶中的应用
VLM的常识与推理能力可有效弥补端到端模型的不足。在机器人领域，视觉-语言-动作（VLA）模型通过理解指令执行复杂动作，VLM生成规划指令后由动作模型转换为控制信号。

自动驾驶领域亦有相关探索：DriveGPT4以视频为输入，直接预测控制信号；ELM利用跨领域视频数据提升VLM在驾驶任务中的性能；OmniDrive提出稀疏3D令牌表征场景，输入VLM进行理解与规划。

部分研究结合VLM与端到端模型：DriveVLM首次将VLM用于低频轨迹预测，端到端模型生成高频轨迹；Senna提出VLM负责高层规划、端到端模型执行低层轨迹预测的框架。此外，多数据集与基准推动了VLM在自动驾驶中的应用。然而，现有工作多依赖预训练模型与简单SFT，缺乏针对规划的训练策略探索，需进一步将RL与推理技术引入自动驾驶领域。

详解AlphaDrive

概述

AlphaDrive 是专为自动驾驶规划设计的视觉-语言模型（VLM）。与以往仅依赖监督微调（SFT）的方法不同，我们探索了强化学习（RL）与推理技术的结合，以更好地适配驾驶规划的独特特性：

不同驾驶行为的重要性差异（如制动比匀速行驶更关键）；
多解性（如直行道路可选择加速或保持速度）；
规划推理数据的匮乏。

为此，我们提出四个基于GRPO的RL奖励函数，并设计结合SFT与RL的两阶段规划推理训练策略。实验表明，与仅使用SFT或无推理的模型相比，AlphaDrive在规划性能与训练效率上均显著提升。以下详细阐述各模块的设计。

面向规划的强化学习

强化学习算法

当前主流RL算法包括PPO、DPO和GRPO。给定查询，GRPO从旧策略中采样一组输出，并通过最大化以下目标优化新策略：

其中，，和为超参数，优势通过组内奖励归一化计算。

选择GRPO的原因：

DeepSeek R1[14]验证了GRPO在通用领域的有效性，其训练稳定性与效率优于PPO和DPO；
GRPO的组间相对优化策略天然适配规划的多解性。实验进一步表明，GRPO训练的模型展现出更强的规划能力。

规划奖励建模

规划准确性奖励
数学或编程领域可通过最终答案是否正确直观判定奖励，但规划需同时考虑横向（方向）与纵向（速度）决策。我们采用F1分数分别评估两者的准确性。初期直接匹配真实标签导致训练不稳定，最终采用F1分数以避免模型学习“输出所有可能动作”的捷径策略。

动作加权奖励
不同动作对安全的重要性不同（如制动权重高于匀速）。为此，我们为动作分配权重，将其作为奖励的加权分量。

规划多样性奖励
规划本质为多模态任务。为避免模型收敛到单一解，我们鼓励生成多样化可行解：当输出差异较大时提高奖励，反之降低奖励。

规划格式奖励
要求输出严格遵循<answer>标签格式（如<answer> decelerate, left_turn</answer>），未遵循则奖励为0。

奖励计算流程详见算法1。最终，规划质量奖励（准确性×权重×多样性）与格式奖励共同用于GRPO损失计算。

推理：大模型知识蒸馏

自动驾驶缺乏现成的规划推理数据，人工标注成本高昂。为此，我们利用大模型（如GPT-4o）从少量驾驶片段生成高质量推理数据：

输入：真实驾驶动作、车辆状态与导航信息；
输出：简洁的决策过程（如“前方绿灯，但行人待穿行，故减速”）。

经人工筛选后，通过SFT将推理过程蒸馏至AlphaDrive，显著提升其推理能力。

训练：SFT预热与RL探索

RL依赖稀疏奖励信号，而SFT基于稠密监督更适配知识蒸馏。此外，仅使用RL易导致训练初期不稳定。因此，我们采用两阶段训练：

阶段一（SFT预热）：使用少量数据蒸馏大模型推理过程；
阶段二（RL探索）：在全量数据上微调，提升模型鲁棒性与多模态规划能力。

实验结果分析

实验设置

数据集
我们采用MetaAD作为训练与评估基准。该数据集包含12万段真实驾驶片段（每段3秒），覆盖多传感器数据与感知标注，并保持各类驾驶环境与规划动作的平衡分布。其中11万段用于训练，1万段用于验证。此外，我们从训练集中采样3万段数据生成规划推理过程。

训练细节
以Qwen2VL-2B为基模型，输入包括前视图像与包含当前车速、导航信息的提示词（如“直行100米后右转”）。训练使用16块NVIDIA A800 GPU。

评估指标

元动作规划准确性：计算横向（直行/左转/右转）与纵向（保持/加速/减速/停止）动作的F1分数，并综合为整体规划准确率；
推理质量：通过BLEU-4、CIDEr、METEOR评估生成推理过程与标注的相似度。

主要结果

表1显示，AlphaDrive在MetaAD上的规划准确率达77.12%，较次优模型Qwen2VL-7B提升25.5%。关键动作（如转向与加减速）的F1分数显著提高，推理质量亦优于其他模型，验证了两阶段训练策略的有效性。

表2的消融实验表明：

基础准确性奖励（ID1）因格式不匹配导致性能偏低；
格式奖励（ID2）小幅提升稳定性；
动作加权奖励（ID3-4）显著优化关键决策；
多样性奖励（ID5-6）进一步防止模式坍缩。

表3对比不同训练策略：

SFT+RL在复杂动作（如减速）上的F1分数提升15%以上，推理能力优于纯SFT或RL模型；
RL训练在数据量有限时（如20K样本）表现更优，仅需20%数据即可超越SFT模型35.31%（表4）。

消融实验

奖励函数设计

规划准确性奖励（F1分数）避免模型学习“输出所有动作”的捷径策略；
动作加权奖励提升安全关键动作（如制动）的权重；
多样性奖励通过惩罚重复输出，鼓励生成多组可行解；
格式奖励确保输出结构化，提升训练稳定性。

训练策略

SFT预热缓解RL早期训练的不稳定性；
RL探索通过GRPO优化多解性与安全性，实验显示模型在复杂场景中涌现出多模态规划能力（图3）。

多模态规划能力涌现

如图3所示，AlphaDrive在复杂场景（如前方车辆缓慢行驶）中可生成多个合理决策（如减速左转超车或停车等待），而SFT模型仅输出单一动作。此能力可与下游动作模型结合，动态选择最优方案，提升驾驶安全性与效率。

结论与局限性

结论
本研究提出了AlphaDrive——一种面向自动驾驶规划的视觉-语言模型（VLM）。与以往仅依赖监督微调（SFT）的方法不同，我们探索了强化学习（RL）与推理技术在规划任务中的结合。具体而言，AlphaDrive引入了基于GRPO的规划导向RL策略，并设计了两阶段规划推理训练范式。据我们所知，AlphaDrive是首个将RL与推理技术应用于自动驾驶规划的框架，显著提升了性能与训练效率。

局限性
当前版本仍存在以下不足：

复杂行为标注数据不足：由于缺乏丰富的标注数据，AlphaDrive尚无法输出车道变换或绕行等复杂驾驶行为；
伪标签质量依赖：规划推理数据来自大模型基于真实驾驶动作生成的伪标签，其感知准确性可能影响数据质量，需进一步闭环验证以提升性能上限。

未来工作将聚焦于通过数据增强与系统验证优化模型能力，推动自动驾驶规划技术的实际应用。

#奔驰中国大比例裁员

赔偿N+9，销售体系是重灾区

奔驰中国本轮裁员主要涉及销售、汽车金融两个体系，裁员比例约为 15%。

奔驰中国内部传言已久的裁员，终于落地了。

我们独家了解到，奔驰中国在今天约谈了部分员工，当天即启动裁员，裁员比例约为 15%。本轮裁员主要涉及销售、汽车金融和零部件等体系，公司主体主要是梅赛德斯-奔驰（中国）汽车销售有限公司、梅赛德斯-奔驰汽车金融有限公司，研发体系暂未涉及。

被裁员工除了可以获得 N+9 的赔偿外，如果未来两个月没有入职新公司，奔驰中国还会为其额外发放 3 月和 4 月的工资。这意味着，奔驰中国最高的赔付相当于 N+11。

在外资车企的裁员中，奔驰的赔偿还算丰厚。去年 10 月，大众中国启动裁员，提供的赔偿最高是 N+6；更早之前，去年 4 月，特斯拉中国的裁员赔偿是 N+3。

一位接近奔驰中国的人士告诉我们，这次是 “普裁”，销售、金融两家公司几乎每个部门都参与了。被裁的员工中，大比例是 “无固定期限” 劳动合同的雇员。

按照奔驰中国的传统，员工首次签约的合同期限一般是签三年，第一次续签的合同期限一般是两年，再次续签，会签订无固定期限的劳动合同。这意味着，很多被裁员工，都在奔驰中国工作了五年以上。

对于奔驰中国各个板块的员工而言，裁员的消息从去年下半年开始流传。公布裁员的前一天，2 月 25 日，奔驰中国刚刚开完 Town Hall（员工大会），虽然梅赛德斯-奔驰集团董事会主席康林松亲未到场，但一位参与的员工告诉我们，会上虽然没有明确提及裁员，对于将发生的事情，大部分员工已有心理准备。

就在一周之前，2 月 20 日，奔驰发布了 2024 财年业绩报告，全年营收为 1456 亿欧元（约合人民币 11126 亿元），同比下降 4.5%；息税前利润（EBIT）为 136 亿欧元（约合人民币 1035 亿元），同比下降 31%；净利润 104 亿欧元（约合人民币 794 亿元），同比下降 28%。

对于业绩的下滑，奔驰解释称，主要是因为销量减少，尤其在中国市场。2024 年奔驰在华销量为 71.4 万辆，同比下滑 6.7%。中国是奔驰的最大单一市场，这导致其全球销量同比下降 3% 至 198.3 万辆。

销量的下滑影响了奔驰中国区域的财务表现。2024 年，奔驰在中国的营收为 231.39 亿欧元（约合人民币 1759 亿元），同比下降 8.5%。

奔驰预计业绩和财务的压力，还会持续数年，因此至少在 2027 年之前，会持续推进固定成本的削减举措。

财报会上，康林松称，“为了确保公司的竞争力，我们正在采取措施，使公司更快、更精简、更强大。” 裁员即是举措之一，除了中国区域，奔驰也会在其他国家和地区推进裁员。

尽管销量业绩和盈利能力都在下滑，但奔驰依然需要维持较高水平的研发支出，以期在 2027 年之后扭转局面。这也是为何此次裁员暂时没有涉及研发体系。

2024 年奔驰的研发支出为 97 亿欧元，接近历史高位。其中乘用车部门占据 87 亿欧元，主要用于对未来平台和科技的投资，特别是对全新一代操作系统 MB.OS。

MB.OS 是奔驰为下一代电动车自研的智能座舱系统，目标是在软件架构上追上市面上新势力电动车。但我们了解到，这套系统的开发进度已经落后。

按照计划，MB.OS 系统会随全新一代奔驰 CLA 一起量产。CLA 是奔驰下一代电动车的开篇，最早在 2023 年 9 月德国的车展上进行概念车亮相。

全新一代奔驰 CLA 在硬件层面已逐渐完善。我们了解到，早在 2023 年 11 月左右，这款车已经进入奔驰位于北京大兴的原型车工厂。

但因为 MB.OS 进度落后，全新一代 CLA 的量产（SOP）时间，已经由最初定的今年 5 月，推迟到了今年 9 月前后。

我们独家了解到，此前主要是奔驰德国的研发团队在负责 MB.OS 的开发，现在很多相关的研发项目都陆续转到中国。

一位奔驰中国的员工告诉我们，该公司在中国的研发中心（RDC），几乎是今年奔驰中国唯一还有一定规模招聘计划的机构了。

但对于销售体系的员工而言，奔驰重拾竞争力之前，他们始终要担心进一步的 “降本增效”。

按照奔驰在财报会上的说法，暂时 “不会对减员给出一个明确的数字”。一些奔驰中国的员工担心，如果未来再次裁员，这些没有 “无固定期限” 合同的员工，可能不会拿到这么高的赔偿了。

#MaskGWM

商汤力作！自动驾驶世界模型再进化~

预测环境变化的世界模型对于具有强大泛化能力的自动驾驶模型至关重要。现有的驾驶世界模型主要基于视频预测模型构建。尽管这些模型能够利用先进的基于扩散的生成器生成高保真视频序列，但它们的预测时长和整体泛化能力受到限制。为解决这一问题，本文探索将生成损失与MAE风格的特征级上下文学习相结合。具体而言，我们通过三个关键设计实现这一目标：（1）采用更具扩展性的扩散变换器（DiT）结构，并额外训练掩码构建任务；（2）设计与扩散相关的掩码令牌，以处理掩码重建与生成扩散过程之间的模糊关系；（3）通过使用行级别的掩码进行移位自注意力而非MAE中的掩码自注意力，将掩码构建任务扩展到时空领域。随后，我们采用行式跨视图模块以与这一掩码设计对齐。基于上述改进，我们提出了MaskGWM：一种融合视频掩码重建的泛化驾驶世界模型。我们的模型包含两个变体：专注于长期预测的MaskGWM-long和致力于多视图生成的MaskGWM-mview。在标准基准上的综合实验验证了所提出方法的有效性，包括Nuscene、OpenDV-2K和Waymo数据集的零样本验证。这些数据集上的定量指标显示，我们的方法显著提升了现有最先进驾驶世界模型的性能。

行业介绍

作为人工智能的关键应用之一，自动驾驶技术需要理解周围环境并执行正确动作。然而，对于现有方法而言，在复杂多变场景中泛化能力有限的问题仍未解决。例如，在天气变化、场景变异和运动模糊等情况中，感知性能可能会下降。解决这一问题的有效方法是使用世界模型，该模型可直接预测不同动作下的环境变化。这些模型有助于理解数据分布的复杂性，并像人类感知系统一样构建复杂的规律模式。

得益于基于扩散的图像生成系统的快速发展，最近一系列方法基于扩散模型构建世界模型。尽管能够生成高保真结果，这些方法仍面临长时预测和泛化能力的挑战。在这篇文章中，我们认为在构建自动驾驶通用世界模型方面仍存在两个问题。首先，大规模训练数据集与更具扩展性的变压器架构的结合仍在探索中。其次，一个基本问题仍未得到解答：基于扩散的生成损失是否足以构建一个通用的世界模型？由于扩散损失在像素级别操作，视觉语义的学习可能并不直接。另外，一些工作已表明扩散模型与自监督方法是互补的，有利于提高收敛速度和生成质量。基于上述分析，我们设计了MaskGWM，旨在提高现有方法的保真度、泛化能力和长时间序列预测能力。此外，通过集成多视图模块，我们的模型还能生成多视图案例。我们采用DiT作为主干网络，它更具扩展性，能够利用多种数据集的信息。此外，我们将掩码重建作为生成的补充任务。此外，通过自监督学习获得的特征在语义上更具意义，可以作为辅助监督进一步改善生成质量。然而，将现有的图像生成掩码重建集成到驾驶世界模型中并非直接可行，仍有两个问题需要解决：（1）如何增强扩散模型与掩码重建之间的协同作用。（2）我们应该使用哪种掩码策略来处理视频数据。

因此，MaskGWM引入如下策略来解决上述问题：（1）我们利用掩码标记来改善掩码重建与扩散模型之间的协同作用。（2）我们设计了一种针对时空域的双分支掩码重建策略。对于空间建模，我们使用在所有帧间共享的掩码，并通过空间变压器重建不可见标记。对于时间建模，我们引入各帧独立的掩码，并通过时间变压器恢复掩码标记。与空间分支不同，我们在掩码后直接连接时间维度上的未对齐标记，这相当于在行级别引入小范围的偏移。我们发现这个时间分支实现了在时间语境中预测掩码斑块和减少训练成本的双重目标。

网络模型结构&技术细节

在详细介绍了本文提出的算法模型技术细节之前，下图展示了我们提出的MaskGWM算法模型的整体网络结构，如下图所示。

掩码重建技术。 在训练环节，DiT网络被划分为编码器和解码器。编码时，假设时间步的视频潜变量为，我们随机生成一个二元掩码将分为可见部分和不可见部分。在解码阶段，我们引入重建模块来处理不可见部分，对于不可见部分，我们统一使用掩码令牌初始化其特征表示。具体来说，我们通过学习一个小型的transformer 得到与初始维度相同的特征，具体公式为。为了强化生成过程与掩码重建之间的协同效应，我们提出了与扩散过程紧密相关的掩码策略。在扩散模型框架下，掩码重建可被视为预测任务，而矫正流则采用预测（即预测）。为了平衡这两个预测目标，我们引入了额外的噪声编码网络。由于是明确给出的，因此更容易在扩散过程中恢复原始的掩码重建目标。此外，我们还考虑了时间步的影响，将掩码令牌定义为.

掩码策略。考虑到时空域的特性，我们设计了两种掩码：和，前者关注空间上下文，掩码位置在不同帧共享；后者关注时序动态的建模，掩码位置在各帧独立；为了让两种不同的掩码关注各自的域，我们将设计为双分支transformer，对使用空间自注意力模块编码，对使用时间自注意力模块编码：

对于时间域的掩码，我们进一步的修改了时序自注意力机制，对于掩码的位置，我们直接将其重新紧凑化，由于每一帧被掩码跳过的令牌数相同，重新紧凑化的特征图大小在不同帧是统一的。然而，引入这一策略会导致时序自注意力机制的不对齐，我们认为只要这种不对齐只要是发生在小范围内的，就对模型的性能有正向的帮助，因此我们引入行级别的掩码设计，具体来说对于，每行掩码掉的令牌数是相同的。这一掩码设计能够带来如下两个好处，首先被丢弃的令牌可以直接在计算中跳过，导致更高的训练效率，其次，我们在实验中发现这一设计的效果会更好。

多视角设计。为了验证模型的泛化能力，除了在关注于预测时长的单视角任务外，我们还额外衡量了模型在多视角任务上的性能，为了支持这一能力，我们引入行级别的跨视角注意力机制，可以与之前的掩码策略对齐，使得我们可以在多视角任务中继续使用提出的掩码策略。

实验分析

我们展示了一系列广泛的实验来评估模型的性能，我们使用SD3作为基础模型，使用FID和FVD作为评测指标，在Nuscenes，OpenDV和Waymo数据集上评估了模型的性能：

1）与最先进的方法的比较

表1将研究方法与单/多视角最先进的方法进行了比较，同时我们对单/多视角分别对齐了评估策略，研究方法在图像生成质量和视频生成质量均优于最先进方法。

2）消融实验

表3(a)比较了不同掩码令牌设计策略的效果，表3(b)比较了不同掩码策略的效果，实验结果显示，我们的模型在生成指标上有着显著的提升；表4(a)进一步地分析了行级别的掩码设计的影响，表4(b)验证了双分支使用独立的自注意力模块编码的影响，表4(c)验证了多视角模块的效果。

#GaussTR

基于大模型对齐的自监督三维空间理解方法

本文提出了一种新颖的高斯变换器（GaussTR），通过与大模型对齐，推动自监督的三维空间理解。该方法促进了多功能三维表示的学习，并实现了无需显式标注的开放词汇占据预测。

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

Haoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu, Xinggang Wang

3D Semantic Occupancy Prediction is fundamental for spatial understanding as it provides a comprehensive semantic cognition of surrounding environments. However, prevalent approaches primarily rely on extensive labeled data and computationally intensive voxel-based modeling, restricting the scalability and generalizability of 3D representation learning. In this paper, we introduce GaussTR, a novel Gaussian Transformer that leverages alignment with foundation models to advance self-supervised 3D spatial understanding. GaussTR adopts a Transformer architecture to predict sparse sets of 3D Gaussians that represent scenes in a feed-forward manner. Through aligning rendered Gaussian features with diverse knowledge from pre-trained foundation models, GaussTR facilitates the learning of versatile 3D representations and enables open-vocabulary occupancy prediction without explicit annotations. Empirical evaluations on the Occ3D-nuScenes dataset showcase GaussTR's state-of-the-art zero-shot performance, achieving 11.70 mIoU while reducing training duration by approximately 50%. These experimental results highlight the significant potential of GaussTR for scalable and holistic 3D spatial understanding, with promising implications for autonomous driving and embodied agents. Code is available at this https URL.

三维语义占据预测是空间理解的基础，因为它提供了对周围环境的全面语义认知。然而，现有方法主要依赖于大量标注数据和计算密集型的体素建模，限制了三维表示学习的可扩展性和泛化能力。本文提出了一种新颖的高斯变换器（GaussTR），通过与大模型对齐，推动自监督的三维空间理解。GaussTR采用变换器架构，以前馈方式预测表示场景的稀疏三维高斯集合。通过将渲染的高斯特征与预训练大模型的多样化知识对齐，GaussTR促进了多功能三维表示的学习，并实现了无需显式标注的开放词汇占据预测。在Occ3D-nuScenes数据集上的实验评估表明，GaussTR在零样本性能上达到了领先水平，取得了11.70的mIoU，同时将训练时间缩短了约50%。这些实验结果凸显了GaussTR在可扩展和整体三维空间理解方面的巨大潜力，对自动驾驶和具身智能体具有重要的应用前景。代码可在https://github.com/hustvl/GaussTR获取。

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2412.13193 [cs.CV]

#GoalFlow

中科院&地平线：解锁端到端生成式策略新未来~

论文地址：https://arxiv.org/abs/2503.05689

代码地址：https://github.com/YvanYin/GoalFlow

简介

在自动驾驶场景中，往往不仅只有一条最优的轨迹。例如对于某些场景，车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹，通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效，且能生成安全精准的轨迹，但是很难对多模态轨迹进行有效的建模。

最近的一些方法希望通过以扩散模型为代表的生成式方法来建模轨迹的多模分布。这种训练加噪、推理去噪的范式能捕捉到数据的多峰分布，在轨迹规划的过程中为其提供大量发散的候选轨迹。但是这种发散轨迹会大大提高选择轨迹的难度，这往往需要比较强的先验信息，例如全场景的高精地图。另外，传统的扩散方法往往需要多步去噪，这大大提高了自动驾驶硬件的负担。

为了解决这个问题，我们提出了一种基于goal point的生成式方法GoalFlow，通过goal point引导轨迹规划模块生成轨迹。一方面，我们设计了一套map-free的goal point评估机制，能很好地捕捉到goal point的分布信息。另一方面，我们引入了一种更加高效的扩散模型变体，Flow Matching，通过简洁的扩散路径实现推理步数的大幅度减少。我们发现仅用一步去噪即可达到远超基线的效果。

方法

核心思路:引入goal point作为引导信息，通过建立密集的goal point词汇表和相应的评分机制挑选最优goal point，再由goal point和场景信息作为condition，由Flow Matching建模最终的轨迹分布。

pipleline:

感知信息提取：感知特征采用transfuser框架，分别由两个分别的backbone提取image和lidar的信息，将两种信息进行融合后得到BEV feature。
goal point词表：为了使得goal point词表能很好地捕捉到驾驶场景中的分布信息，我们首先通过聚类数据集中的轨迹末端点得到一个密集的goal point词表
goal point评分机制：通过goal point和ground-truth的轨迹末端点以及是否在可行驶区域内，对词表中的goal point进行打分。
Flow Matching建模：词表中的最高分goal point和BEV feature作为condiiton，来引导Flow Matching生成轨迹。
轨迹后处理：对于Flow Matching生成若干轨迹，通过筛选出的goal point进行打分，并引入阴影轨迹来对轨迹进行矫正。

Goal Point评分机制：

在自动驾驶中，对控制信息的精度往往要求比较高。我们发现对于Diffusion以及其变体Flow Matching，goal point可以对轨迹进行很好的约束和引导。这既可以用来引导多模态也可以用来对车辆进行精确控制。

goal point在自动驾驶中并不是个新事物，实际业务中往往可以使用车道信息来构造goal point或者使用直接将导航作为引导。但是车道信息往往需要昂贵的高精地图，而导航往往并不表示车辆在未来几秒后的精确信息。我们借鉴了VADv2的思想，通过聚类来捕捉goal point的分布，并用类似分类的方法来对聚类出来的goal point词表进行打分。具体来说我们分别构造了词表中点和ground-truth末端点的softmax，以及词表中点是否在可行驶区域作为gt信息，通过Scorer decoder对这两种信息进行监督。在推理时对这两种分数进行融合挑选出分数最高的点作为condition。

Flow Matching：

在图像生成领域已经验证了Flow Matching的强大建模能力。相比之前的Diffuison方法，Flow Matching有更加简洁的加噪去噪路径，往往需要更少的去噪步数即可达到很好的效果。但是直接训练很难平衡好场景信息和goal point信息对轨迹的引导作用。我们在训练过程中分别对不同的condition进行类别编码，并参考classifer-free guidance对其中的feature进行随机的置零。

实验结果

我们在最新的端到端驾驶数据集NAVSIM进行了实验。NAVSIM采用PDM score，通过碰撞率，可行驶区域，舒适率等对生成轨迹进行综合评定。GoalFlow的PDM score远超以transfuser为代表的基线方法。同时我们尝试将goal point替换成ground-truth轨迹的末端点，发现得分非常接近人类的驾驶分数，这说明goal point是一个非常好的对轨迹精调的condition。

在训练时采用100步数的条件下，我们对推理时的步数进行实验。实验发现，Flow Matching对推理步数不敏感，即使是一步推理，依然能达到远超基线的效果。

对比其他方法，GoalFlow借助goal point的评价机制能生成更加高质量的轨迹。同时在一定范围内goal point能引导出更加具有指示性的多模态轨迹，而不会使得轨迹过于发散。

Chen, S., Jiang, B., Gao, H., Liao, B., Xu, Q., Zhang, Q., Huang, C., Liu, W., and Wang, X. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning. arXiv preprint arXiv:2402.13243, 2024.
Chitta, K., Prakash, A., Jaeger, B., Yu, Z., Renz, K., and Geiger, A. Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. Pattern Analysis and Machine Intelligence (PAMI), 2023.
Jiang, C. “., Cornman, A., Park, C., Sapp, B., Zhou, Y., and Anguelov, D. Motiondiffuser: Controllable multi-agent motion prediction using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9644–9653, June 2023b.
Yang, B., Su, H., Gkanatsios, N., Ke, T.-W., Jain, A., Schneider, J., and Fragkiadaki, K. Diffusion-es: Gradientfree planning with diffusion for autonomous driving and zero-shot instruction following. arXiv preprint arXiv:2402.06559, 2024.
Sun, W., Lin, X., Shi, Y., Zhang, C., Wu, H., and Zheng, S. Sparsedrive: End-to-end autonomous driving via sparse scene representation. arXiv preprint arXiv:2405.19620, 2024.

目标点驱动，解锁端到端生成式策略新未来

一种用于端到端自动驾驶的高质量多模态轨迹生成方法。通过引入目标点约束生成过程，并结合Flow Matching技术，GoalFlow能够高效生成高质量的多模态轨迹，显著提升了轨迹的准确性和可靠性，并在PDMS上达到了 90.3 的最佳性能，超越了现有方法。

基于目标点驱动的端到端生成式策略

论文链接：https://arxiv.org/abs/2503.05689

项目链接：https://github.com/YvanYin/GoalFlow

概述

GoalFlow解决的问题

当前生成多模态候选轨迹的方法主要由两种方式：一种是在回归轨迹的基础上添加不同的引导信息，例如左右转等。另一种是通过扩散模型这种连续建模的方式通过不断加噪和去噪来生成众多的轨迹。这两种方式都很难达到理想的效果。前者容易发生轨迹的坍缩，引导出的轨迹非常相似。后者容易生成高度发散的轨迹，这为挑选轨迹增加了难度。为此，GoalFlow主要思考如何探索其他可行道路来实现高质量的候选轨迹生成。

a. 如何应对生成式模型轨迹过于发散的情况： GoalFlow借鉴了Motiondiffuser的方法，其中用轨迹末端点对生成轨迹进行约束和引导。但是Motiondiffuser直接采用ground-truth末端点进行约束，这提供了过强的先验信息。我们将利用一种goal point评估机制来挑选goal point。

b. 如何构造goal point： goal point在自动驾驶中并不是个新事物，业务中往往可以使用车道信息来预测goal point或者使用直接将导航作为goal point。但是车道信息往往需要昂贵的高精地图，而导航往往并不表示车辆在未来几秒后的精确信息。与之前方法都不同的是，我们首先会将轨迹的末端点进行聚类，用密集的词表来捕捉goal point的分布特性，得到包含将近一万个goal point的词表。以此将goal point的回归任务转化成一个分类任务。之后对静态的goal point词表从两个角度进行评价，分别是词表中点到ground-truth末端点的距离以及是否在可行驶区域内。

c. 如何平衡生成准确轨迹和多模态轨迹： 生成模型的输入包括goal point（引导轨迹）和融合BEV特征的query（提供场景信息）。前者要求轨迹指向目标点，后者则当前场景下生成最可能的轨迹。为平衡两者，我们在训练中采用Classifier-Free Guidance，随机丢弃不同特征，并进行类型编码。训练时的 condition 设为三类：无条件、仅场景信息、场景信息+goal point。

GoalFlow框架

核心思路： 引入goal point作为引导信息，通过建立密集的goal point词汇表和相应的评分机制挑选最优goal point，再由goal point和场景信息作为condition，由Flow Matching建模最终的轨迹分布。

完整流程：

感知信息提取：感知特征采用transfuser框架，分别由两个分别的backbone提取image和lidar的信息，将两种信息进行融合后得到BEV feature。
goal point词表：为了使得goal point词表能很好地捕捉到驾驶场景中的分布信息，我们首先通过聚类数据集中的轨迹末端点得到一个密集的goal point词表
goal point评分机制：通过goal point和ground-truth的轨迹末端点以及是否在可行驶区域内，对词表中的goal point进行打分。
Flow Matching建模：词表中的最高分goal point和BEV feature作为condiiton，来引导Flow Matching生成轨迹。
轨迹后处理：对于Flow Matching生成若干轨迹，通过筛选出的goal point进行打分，并引入阴影轨迹来对轨迹进行矫正。

实验结果

在Navsim数据集上，轨迹采用碰撞率，是否在可行驶区域内，舒适度等综合指标PDMS来评价。GoalFlow在PDMS上达到90.3分，远超以regression为代表的Transfuser方法（84.0分）和naive的generative model（85.6分）。模拟真实场景用更精确goal point代替预测goal point时，PDMS达到92.1分，逼近人类驾驶的94.8分。此外，基于flow matching的方法对推理中denoising步数具有鲁棒性，只需1步推理就能达到优异性能，大大减轻自动驾驶硬件负担。

总结与展望

GoalFlow 通过聚类方法捕捉目标点（goal point）的分布特性，并设计了一套目标点评估机制，为目标点进行打分。基于这些目标点，GoalFlow 引导生成式方法 Flow Matching 生成高质量轨迹。实验表明，GoalFlow 能够生成优异的轨迹，并提供多样化的高质量轨迹候选，显著提升了轨迹生成的性能。

未来，我们将进一步探索如何优化引导信息的利用，尤其是设计更高效的网络结构，以更好地平衡场景信息和目标点引导信息对模型的影响。此外，当前工作主要聚焦于坐标位置作为引导条件，之后可以进一步探索将人类语言指令作为条件输入，结合 GoalFlow 实现更智能的指令跟随能力，拓展其在人机交互和自动驾驶等领域的应用潜力。

参考文献

a. Chen, S., Jiang, B., Gao, H., Liao, B., Xu, Q., Zhang, Q., Huang, C., Liu, W., and Wang, X. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning. arXiv preprint arXiv:2402.13243, 2024.

b. Chitta, K., Prakash, A., Jaeger, B., Yu, Z., Renz, K., and Geiger, A. Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. Pattern Analysis and Machine Intelligence (PAMI), 2023.

c. Jiang, C. “., Cornman, A., Park, C., Sapp, B., Zhou, Y., and Anguelov, D. Motiondiffuser: Controllable multi-agent motion prediction using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9644–9653, June 2023b.

d. Yang, B., Su, H., Gkanatsios, N., Ke, T.-W., Jain, A., Schneider, J., and Fragkiadaki, K. Diffusion-es: Gradientfree planning with diffusion for autonomous driving and zero-shot instruction following. arXiv preprint arXiv:2402.06559, 2024.

e. Sun, W., Lin, X., Shi, Y., Zhang, C., Wu, H., and Zheng, S. Sparsedrive: End-to-end autonomous driving via sparse scene representation. arXiv preprint arXiv:2405.19620, 2024.

#UnifiedReward

视觉奖励大一统重磅来袭！复旦最新

Title: Unified Reward Model for Multimodal Understanding and Generation

面向多模态生成与理解的统一奖励模型

主要工作：

我们提出UnifiedReward，一个视觉领域通用的奖励模型，能够对图像/视频的生成与理解进行pairwise（成对比较）或 pointwise（单样本打分）评估，可用于视觉各领域的直接偏好优化 (DPO)，提升各类视觉模型的表现

研究动机：

缺乏通用的视觉奖励模型 – 现有的奖励模型普遍较为专门化，尚未有一个统一的模型能够有效评估多模态生成与理解任务。
多任务学习的相互促进作用 – 我们认为联合学习多个任务可以实现跨任务增强，例如：

（1）提高图像理解的评估能力，有助于图像生成评估，因为更准确的主体、场景理解可以更好衡量生成质量。

（2）强化图像评估能力，有助于视频评估，因为更细粒度的逐帧分析可以提升视频质量评估的精准性。

☺️实验与核心贡献：

超越现有视觉奖励模型 – UnifiedReward在主流视觉评测基准上全面超越现有方法。
验证跨任务的相互促进作用 – 通过实验，我们证明了多任务学习在图像/视频的生成和理解评估之间具有互相增强的效果。
DPO优化带来显著提升 – 我们利用UnifiedReward对图像/视频的生成与理解模型进行DPO优化，在各个领域均取得了显著性能提升。

我们希望该工作能拓展奖励模型的应用范畴，使其在多种视觉任务中更具适应性、泛化性与高效性。

数据，代码和模型均已全面开源，README也写的很详细，欢迎大家批评指正！

Project page: UnifiedReward

Paper: https://arxiv.org/pdf/2503.05236

Github: GitHub - CodeGoat24/UnifiedReward: Official implementation of Unified Reward Model for Multimodal Understanding and Generation.

Huggingface: https://huggingface.co/papers/2503.05236

Models: https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a

Datasets: https://huggingface.co/collecti

#在理想贾鹏GTC 25讲VLA前，先看看他在GTC 24怎么讲VLM的

本文核心基于：

24年3月贾鹏在英伟达GTC 2024上双系统的演讲。文末有视频版与完整文字版。

24年6月8日李想重庆脱稿演讲，详见:《李想是真懂自动驾驶细节》。

24年6月8日VLM通讯作者赵行老师研讨会演讲，详见:《李想昨天说的VLM是什么意思？》。

24年7月5日理想双系统发布会，详见:《理想双系统发布会917字总结与完整图文》。

链接内容均包含完整视频与文字版，推荐读者仔细阅读。

贾鹏在GTC 2024上分享了双系统的完整架构，明确输入传感器信息，输出的是轨迹，认为光靠端到端实现不了L3，觉得双系统这套架构是在探索L4, VLM加速这块提到了和英伟达合作，没提细节。（7月双系统发布会上由詹琨进行的这块讲解），介绍了一下AD MAX 3.0 理想是怎么做的，开城进展，AEB实现了什么水平。提到了世界模型，没有明确说这是考试系统，没有双系统多久量产时间预期，没有需要多少视频片段预期，没有提两个系统会变成一个系统的预期。没有对L3L4定义。当时算力储备是1.4eFlops。

李想6月脱稿演讲定义了L3为有监督的自动驾驶，L4为无监督的自动驾驶，给了三季度内测用户测试预期（实际7月内测），1000万Clips最早24年年底，最晚25年年初全量推送预期（实际25年2月全量推送），L4三年内一定实现预期。李想当时的演讲内容，基本有了认为AI是能力不是功能的认知（虽然当时没有完全归纳成一个短句），AI是能力不是功能是李想在AI Talk里多次强调的概念，在张小珺后来在小宇宙里分享的加长版（在腾讯科技的完整版之上，还有一个加长版，详见:《李想AI Talk 加长文字版与1507字省流版》）里李想认为AI是能力不是功能，是大家很少有人知道，但是必须了解的知识点。建议读者留意并思考这个概念。

赵行老师6月研讨会演讲里提到将来两个系统可能变成一个系统的预期，直接输出方向盘油门电信号比输出轨迹更难。

理想7月双系统发布会内容较贾鹏3月表达，信息密度大了不少，更加详细与结构化，配了字幕，并且所有英文表达都有中文翻译。

故基于以上4份原始材料，贾鹏GTC 2025 可能侧重分享理想VLA架构会如何实现，在简介里已经明确了是一个系统，演讲里可能会明确输出的是油门方向盘信号，不是轨迹。

有可能不会提VLA多久会上车，当然，提的可能性也是存在的。

微博用户大雁jassy整理的贾鹏VLA演讲摘要的摘要：

1.VLA模型将E2E模型和VLM模型合并成一个模型；

2.VLA模型会自主选择何时使用慢思考何时使用快思考；

3.通用世界知识和物理世界交互做到了联合训练，实现了模型隐状态对齐；

4.已经在Thor上单芯片落地跑通；

5.该系统可以和驾驶员通过语音互动进行控制交互

贾鹏VLA演讲摘要：

在 GTC2024 大会上，我们介绍了 DriveVLM-Dual，一种快-慢思考混合的自动驾驶系统，可协同发挥端到端 (传感器数据输入、轨迹输出) 模型和视觉语言模型 (VLM) 的优势。两个模型均基于大量人类驾驶数据进行训练，并展现出符合数据量扩展定律（data scaling law）的特性，系统在真实驾驶环境中的表现随训练数据量的增加而提升。双系统被部署在双 NVIDIA DRIVE AGX 车载平台上，并已经大规模交付给终端客户，覆盖超过 40 万辆汽车。今天，我们将介绍理想 VLA（视觉-语言-行动）模型。理想 VLA 模型将快慢系统结合为一个单一大模型并赋予该模型自主决定何时采用慢思维的能力。它实现了空间感知与理解、开放世界知识、语言推理和行动策略的统一并进行联合训练和优化。此模型已经部署在下一代单 NVIDIA DRIVE AGX 的车载平台上，展现出了诸多令人兴奋的特性和能力。这套系统可以被视为一个物理世界智能体的雏形，通过语言自然地与用户互动，执行复杂、开放世界的驾驶任务。这一进步不仅标志着技术上的飞跃，也预示着一种全新、前所未有的自动驾驶产品形态的出现。

Key Takeaways:

1️⃣：VLA 是空间智能、语言智能和 action policy 的统一，将快、慢思考结合为一个模型

2️⃣：VLA 是自动驾驶 Physical AI 的核心技术

3️⃣：模型由海量文本、视频、行为数据训练，由云端世界模型测试、验证，并由NVAIE进行加速

4️⃣：理想 VLA 系统已经在下一代 NVIDIA DRIVE AGX 平台上优化部署。

贾鹏GTC 2024 VLM分享文字版：

大家好，我是来自理想汽车自动驾驶的贾鹏，今天有幸收到英伟达的邀请，来参加GTC，并且介绍一下我们团队对于自动驾驶的一些思考落地以及研发的一些进展。今天talk会分成两部分，第一部分我会迅速的快速的给大家介绍一下理想汽车在过去几年交互过程中，形成了对增加一个认知以及我们整体的开发的一个框架。然后第二部分会得快速介绍一下我们在过去交互中，以及现在运营过程中一些技术的亮点。

理想汽车从2021年开始，自动驾驶的自研，我们从L2开始就是高速NOA开始，逐渐的对自动驾驶这件事情形成了一个比较独特的认知。对于L2来说，都是在固定的场景，已知的场景或者是这种封闭场景。比如说高速，城快去做辅助驾驶，人需要的时候去接管。这一部分其实过去都是以rule base为主，只有感知部分可能做了一部分的AI化或者模型化，咱们传统用的2G的一些感知或者是3D。其他部分还是以一些工程化代码，一些规则为主。去年开始大家开始卷着城市NOA或者全场景NOA。这一方面随着开城的进展，大家可能都做到全国的开放。

这一部分我们称之为可能称之为L3。这一部分因为比L2要困难非常多，它的场景要丰富非常多。传统的这个范式，L2范式就没办法在L3里去用。随着特斯拉的打样，它开发就是开发出一条新的路。

我们要数据驱动。他比如说在所有的模块感知规控都逐渐做成模型化。这里比较大家熟知的BEV的感知，做到了比如说多传感器，多摄像头的前融合，逐渐它的极致就是端到端,完整的端到端。那就从感知一直到跟踪预测、决策规划都做到模型化。这里比较有代表性的就是特斯拉的V12，做到了一个端到端，这个端到端模型不仅是完全模型化，而且可以做到端到端的可训。

即使到了数据驱动或者端到端的，是否可以做到L4，那我们自己的思考还是没法实现的。到了L4，在任何的未知场景中，用户都不需要去做监管。由于我们是在现实世界中，其实未知场景是无穷多的，尤其是一些长尾的问题。通过数据驱动可能我们没办法去解决。数据驱动本身还是他我有了数据我才能真正去理解，去在这样的场景里去使用。对于L4来说，我们逐渐认识到可能需要一个新的方式，我们称之为知识驱动。随着大语言模型的过去两年的火爆，其实在L4场景里我们需要怎么去应对未知场景，我们可能就需要真正的对于世界进行理解，那有一定的这种常识去理解世界的时候，我们才能做到这个未知场景下才能安全的去驾驶。

比如说我们在这种刚刷的水泥地，如果是传统的数据接口的方式，这样的场景非常少，而且我们的模型我没有办法理解。如果有了这种这种超大的LLM或者是多模态的视觉语言模型，他有这样的常识，那在这个场景里他就可以去安全的做驾驶。基于上的一些思考，以及我们在实际落地中，因为在中国或者增加的是非常挑战的，包括中国的基建是每天都在进行。类似左边这个各种这种人开起来都比较迷惑的场景，以及右边这个大量的车多人多，我们就大量的这种车人交互，在中国做自动驾驶是非常挑战的。

我们逐渐形成了基于以上的一些认知，逐渐形成了自动驾驶自己的一些开发的一个框架。我们现在做L3以及将来做L4，都是基于这个框架去进行的。那它跟人的思维非常接近，我们把它分成快慢系统，快捷的这个system one，它是偏直觉偏有点类似接入记忆或者是这种应激反应。我看到类似的场景我就去执行这样的动作。

这一趴就是对应我们的L3端到端的模型。很很直观的就是传感器看到什么样的场景，我做出什么样的决策和动作。

另一趴其实是慢思考。比如说我做思考题，我做应用题的时候，我需要一定的思考的时间，我们称之为system two，它主要是做一些逻辑的思考。在做刚才提到在L4的这种未知场景或者是复杂场景里，我们得具备这样的常识，或者没有short的能力。那这一趴我们可能可以去使用我们所谓的认知模型，就是偏VLM去解决。这一部分是它提供了一个基础的一些世界的知识，形成对世界的一定的认知和逻辑思维，同时也由于这个模型会比较大，那我们还会做一些短期的一些知识的更新，比如通过一些rank去实现认证，认证模型的一些快速的迭代。这两趴结合在一起，但是我们觉得最终能解决L4的1个整体的车端的框架。

除了车端的系统之外，我们还需要一个巨大的云端的世界模型。它的主要作用是去训练快慢系统，跟物理世界去做交互，从中不同不断的去学习。这个其实有点类似最近人比较火爆的sora，它是一个生成式的世界模型，有了它之后，我们就可以在通过一个闭环去训练我们的整体的车端的系统，那中间的这些流其实都是我们的数据闭环，有大量的这种数据和训练的快速迭代。

接下来我会从这四个方面去介绍理想汽车在这个自动驾驶的一些这种亮点。

第一部分就是我们端到端的模型，以及它落地的一些场落地的一些情况。

第二部分是我们的认知模型，我们的一些语言的一些进展。

然后第三部分是我们世界模型的一些进展。

最后是把我们的这个增强的数据闭环里头的一些亮点介绍给大家。

好，第一部分是我们端到端部分，其实我们做端到端模型已经很长一段时间了。其实咱们最早业界最早的，比如说基于BEV的3D的一些感知，动态的感知、静态的感知，包括tracking的模型化，这个前融合都是理想汽车最早最早的一系列工作，这也是业界比较早的一些文章。那基于这些工作，我们其实去年量产了我们的AD Max 3.0，推给了我们的全量用户，它的整体框架已经偏端到端，但是还没有完整的端到端，今年会把它做一个彻底的端到端。

它主要是分成三个大的模块。第一个其实我是我们的感知模型，这是一个大的BEV的感知模型。我们把所有的感知任务统一到1个模型里，包括静态、动态，然后通用障碍物。我们的预测决策和规划也做到了模型化，放到了一个模型里。这两部分我们会在今年会把它们统一在一起，形成一个端到端大模型。

然后另一部分，其实在中国很挑战的是红绿灯，因为中国的红绿灯五花八门，各地的红绿灯的样式不同，规则不同。以前的做法是我们会把红绿灯检测出来，然后跟车道做一个关联匹配，然后才能得到本车道的红绿灯状态。我们红绿灯部分其实是把这个pipeline彻底做成了一个端到端的模型。进来就是我们的传感器，出来就是我们这个模型的输出，就是本车道的红绿灯的状态或者意图。那同样的一套框架，我们其实做到了行车和泊车的一体化。

基于在此过程中，其实和NV的合作比较多，主要是其中的一块比较突出的工作是在我们车端的推理方面，跟英伟达的合作进行了一个推理的加速。

从我们最早的9赫兹到现在是21赫兹，就是我们整个模型方面，也是很感谢这个NV的帮助，把这个模型的推理速度提升了很大一部分。然后基于之上的一些工作，其实我们去年年底推送的AD Max 3.0，其实在四个产品维度上都实现了业界的顶尖水平。

第一个是全场景的NOA，这个全场景的包括了高速和城区，城区里面包括了红绿灯路口的左右转，红绿灯的刹停和和启停，然后还有包括比如说施工道路的这种避让，禁止或者违章车的绕行。那在LCC方面跟传统的LPA不一样的是，我们的LCC可以做到红绿灯的启停，然后同时也可以做到这种直行车道上的的这种自动的超车变道，然后同时也可以实现这种这种施工路段以及违章车的绕行避让。

得益于我们的整体的软件一体化，在泊车方面提得到了一个巨大的提升。除了传统的这个自动泊车之外，我们还实现了一个长距离的AVP就是从下车库那一刻开始，它可以自动把你带到你的停车位。这期间比如说这种跟其他车的一些博弈，行人的博弈，甚至包括超窄车道对其他车的倒车让行，都已经能够实现。

同时在主动安全方面，我们也实现了业界的顶尖的水平。现在我们这个静止车可以做到120的刹停。两轮车或者是这个三轮车可以做到100的差距，行人做到90。除了这种正向的性能达到业界顶尖水平之外，这是远超行业标准的水平。那么在误触发方面，我们要做到30万公里以上的误触发，这个也是业界高的水平了，这里有一个视频，去说一下我们在这种北京这种繁忙路口，做这种交互，行人的一些避让，超车的绕行，类似这样的工作。如果大家感兴趣可以去开一开我们的车，或者去门店做个试驾。

去年的时候我们已经把城市NOA推给了20万的用户，这基本是中国大规模城市NOA的推送，因为整体有20万的用户，现在在大概去年年底是110城，现在已经做到114城。随着我们的扩城可能无论是在城市的数量上和覆盖率上也会逐渐提高，今年会把全国都开。

除了上面提到的L3端端到端的一些进展，其实我们更放了很多人在L4的一些预研上。

刚才提到的第一点就是认知模型，我们会跑一个慢系统，那它可能是比快系统要，比如说快系统可能是20赫兹，慢系统可能是5赫兹甚至1赫兹，做一些关键场景的决策。我们的方法是基于一个多模态的大语言模型。我们最近发表了一篇论文叫做Drive-VLM，他的思路是不需要任何其他的输入，从多模态语言模型直接出我们的规划结果。

它是通过三阶段的COT去自动去检测，去自动去做推理。比如说现在的它的场景是什么，这里头这个场景里头对我的驾驶形成最关键的一些障碍物是什么？他跟我的交互关系是什么？最后会输出我们叫meta action，其实是决策，就是说我是的动作是什么样子。最后给出一个模型自动会给出一个三秒的一个规划结果。

刚才提到这是我们的慢系统，结合到传统的端到端两端。我们形成了一个快慢系统，这个决策，这个慢系统或者认知模型给出来的决策会和我的快系统结合在一起，最终给出一个更安全应对更多未知场景的一套系统。整体的效果我们可以整体看一下，这就是模型直接无论里头框也好，还是底下的文字也好，都是模型自己给出来的，那我看到了这样的场景，我会给出一个描述，然后最后给出decision，最后给出一个轨迹，这都是模型直接一个模型把所有的事情都做完。

在我们在大量的这种corner case，或者是L3或城市自动驾驶中遇到的一些这种问题中，都发现它其实对快系统的提升会非常多。

大家可能一个concern就是说大的VLM它是太大了，怎么部署在车端。其实我们在跟NV的合作，一大部分工作也是带着这个VLM的在车辆的加速，我们在orin上也已经部署，目前也取得了还不错的效果。那另一个方向刚才提到除了我的快慢系统之外，还需要一个车这个云端的世界模型，去与我的车端去做交互，训练它验证它。

最近sora很火，因为它是个纯生成式，也看到它的一些问题，所以有些场景还是不太符合物理规律，所以我们的整体思路跟他有些差异。我们还是想在静态上通过重建，然后的静态和动态一起生成，这样的话你在静态上更加符合物理规律，符合物理实际，这样我们最近发表的一篇工作叫Street Gaussians。基本实现了实施的这种场景的重建和渲染，这基本也是无论是速度还是指标上都已经是sota的工作。好，这里可以看一下我们在在公开数据集上的一些表现, 有了这个之后，我们其实可以做很多，不仅仅是做重建。我们可以做很多这种场景的支撑。比如说加入一些新的这种player，或者加入一些新的动态物体，这样就可以创造出无数的场景出来。

刚才提到了其实都是偏我们的算法和偏我们的整体的一半。但是中间串起来的是我们一个庞大的数据闭环的系统。我们基本实现了从数据的这种corner case的收集、自动化的挖掘、自动化的标注、自动化的训练，然后以及新的模型推到车端去做影子模式的验证，这整套闭环已经做到非常高效。随着我们朝L4做，咱们其实一个很困难的点就是说corner case的挖掘，尤其是长尾corner case的挖掘怎么去实现？传统咱们做挖掘就是通过一些规则去手写，去挖掘，比如说一些场景，比如说我们想挖掘一个骑行人打着雨伞，然后闯红灯横穿路口，类似场景就很难通过规则去匹配出来。

我们也借鉴了多模态大语言模型的范式，形成了一个做了做了一个工作叫BEV clip。它也是个多模态的数据的检索的这么一个引擎。通过大语言模型的能力，同时加入了自动驾驶的一些这种先验知识，然后形成这么一个训练了一个这种多模态的clip。通过这个clip我们去可以去类似刚才那种场景的一些复杂场景的一些检索。我们可以把这个场景以文字的方式描述出来，可以快速的找到我们想要的这样的场景。

对于数据闭环这边，云端其实NV的帮助也很大。我们跟他们在训练和推理和云端的推理方面都做了很多的这种加速的工作。这节省了我们大量的训练时间和推理时间，时间其实就是资源和钱。

除了刚才提到的数据闭环能串起来我们整个的开发流程之外，其实对于车厂来说，因为我们有很多的车型，那车型之间的数据的复用和适配也是个很大的难点。那我们也在英伟达NeRF的引擎之上，开发了一套数据重用的，或者数据复用的这么一个pipeline。那我们比如说我们L9的一些数据，通过我们的重建，然后加上一些动态的injection编辑之后，我们形成新的场景。然后从通过新的novel view的projection投影到新的视角上。比如说到我们的MEGA的传感器上，这样就形成了新的一个标注数据，这样我们的很多历史数据都可以做处理。

那刚才讲了这个数据闭环，我们刚才提到我们是国内最早做，也是最大规模的，其实大家并没有太多概念，可以通过几个数字来看。其实我们现在场全场景NOA已经达到了，这是年前的一个结果，四亿多公里过年这期间其实现在已经涨到了五亿多公里。除了这个数据之外，计算方面，尤其训练方面，我们过去几年也建设了一个大的智驾的训练集群，达到了1.4亿flops的计算能力。有了这些之后，才能支撑我上面快慢系统的快速迭代。

前面主要给大家介绍了我们理想汽车在过去几年的交付落地过程中，形成了对自动驾驶的整体的认知，以及我们整体的这个大的框架，整体还是基于一个快慢系统的system one，system two的这么一个思维这么一个概念。

介绍了我们几个关键点:

一个是L3方面的端到端的一些这种方案和落地的一些情况。

第二点是我们在认知模型，就刚才提到的慢系统上我们做了一些工作。

第三点在云端的世界模型上，我们也正在开展一些这种类似重建生成的一些工作。然后为我们的快慢系统提供一个好的世界的仿真的引擎。

第四点就是把这些串起来的是我们的一个大的数据闭环的系统。这里头随着咱们长尾corner case的一些开展，或者L4的一些研发进展，其实数据闭环的作用会越来越大，其实数据和算法不分家，今天的内容主要是这些，感谢大家。

#DriveLMM-o1

自动驾驶即将开启o1时代！用于自动驾驶场景理解的逐步推理数据集和多模态大模型来了~DriveLMM-o1

论文标题：DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding
论文链接：https://arxiv.org/abs/2503.10621
论文代码：https://github.com/ayesha-ishaq/DriveLMM-o1

核心创新点：

1. 专用逐步推理数据集与多模态基准

提出首个面向自动驾驶场景的逐步推理数据集DriveLMM-o1，包含18k训练样本和4k测试样本，覆盖感知、预测、规划任务。
数据集集成多视角图像（multiview images）与LiDAR点云（LiDAR point clouds），并标注逻辑链式推理步骤，确保模型理解场景动态与空间关系。

2. 动态多模态模型架构与高效微调

基于InternVL2.5-8B构建模型，融合视觉Transformer编码器与LLaMA语言模型，支持动态图像分块（dynamic image patching），高效处理高分辨率多视角图像。
采用LoRA微调（Low-Rank Adaptation），仅调整0.49%参数，保留通用多模态能力的同时，适配自动驾驶推理任务，显著提升模型泛化性与计算效率。

3. 自动驾驶专用评估体系

设计逻辑连贯性指标（如Faithfulness-Step、Commonsense）与安全关键型指标（如风险识别准确率、交规遵循度），综合评估推理步骤的合理性与最终决策的可靠性。
结合人工验证与GPT-4o自动化评分，确保评测框架的严谨性。

4. 性能优势与领域适应性

模型在最终答案准确率上超越最佳开源基线7.49%，推理得分提升3.62%，尤其在场景感知（75.39分）与风险识别（73.01分）任务中表现突出。
相比通用视觉推理模型（如LlamaV-o1），DriveLMM-o1在复杂驾驶场景中展现更强的多模态融合能力与安全决策逻辑，减少黑盒推理缺陷。

A Survey of Sim-to-Real Methods in RL

论文标题：A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models
论文链接：https://arxiv.org/abs/2502.13187
repo链接：https://github.com/LongchaoDa/AwesomeSim2Real.git

核心创新点：

1. MDP四要素系统化分类框架

提出基于马尔可夫决策过程（MDP）的Sim-to-Real技术分类体系，将方法论锚定于观察空间对齐（Observation）、动作空间适配（Action）、环境动力学建模（Transition）及奖励函数设计（Reward）四大维度，实现对经典与新兴技术（如扩散模型生成安全场景Diff-Scene）的统一表征。

2. 基础模型驱动的自动化流程革新

LLM赋能奖励函数生成：提出Text2Reward框架，通过自然语言任务描述自动生成稠密奖励函数，减少人工设计依赖。
零样本视觉泛化：构建视觉通用强化学习框架，利用预训练多模态模型实现跨场景策略迁移，突破传统Sim2Real对精确环境建模的依赖。

3. 复杂动力学建模与延迟补偿

随机延迟动态建模：提出随机延迟强化学习框架，通过时序建模解决现实世界动作执行延迟问题。
非马尔可夫决策过程处理：开发语义非马尔可夫仿真代理，增强长序列决策的可解释性与可扩展性。

4. 高保真评估基准与工具链

DISCOVERSE仿真平台：支持复杂高保真环境下的机器人策略验证，集成物理引擎与传感器噪声模拟。
NeuronsGym导航框架：融合仿真-现实混合训练，通过模块化设计量化信息瓶颈对Sim2Real迁移的影响。

MuDG

论文标题：MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction
论文链接：https://arxiv.org/abs/2503.10604

核心创新点：

1. 多模态扩散模型与高斯泼溅（3DGS）的协同框架

提出首个将可控多模态扩散模型（MDM）与3D高斯泼溅（3DGS）深度融合的框架，通过MDM生成新视角的RGB、深度及语义数据，作为监督信号优化3DGS表示，显著提升极端视角变化下的渲染鲁棒性。

2. 无需逐场景优化的前馈新视角合成

基于LiDAR点云投影的稀疏RGB-D条件输入，MDM通过视频扩散先验直接生成多模态密集输出，实现无需逐场景优化（per-scene optimization）的实时新视角合成，避免传统NeRF/GS方法的高计算开销。

3. 动态-静态解耦与多模态联合监督

通过追踪边界框（bbox tracking）分离动态与静态元素，构建融合LiDAR点云；利用生成的多模态数据（RGB、深度、语义）联合监督3DGS训练，强化几何-语义一致性，缓解极端视角外推时的性能退化。

4. 跨模态对齐的潜在空间编码

设计统一潜在空间编码策略，将单通道深度图扩展为伪RGB，语义图通过颜色映射适配VAE输入，实现多模态数据的高效对齐，确保扩散生成与3DGS优化的跨模态一致性。

Unlock the Power of Unlabeled Data in Language Driving Model

论文标题：Unlock the Power of Unlabeled Data in Language Driving Model
论文链接：https://arxiv.org/abs/2503.10586

核心创新点：

1. 动态自监督预训练框架（Dynamic Self-Supervised Pre-training Framework）

提出分层渐进式掩码语言建模（Hierarchical Progressive Masked Language Modeling, HP-MLM），通过语义层级动态调整掩码策略（词级→短语级→句子级）
引入基于信息熵的自适应负采样机制，优化对比学习中的难负例挖掘（Hard Negative Mining）

2. 半监督知识蒸馏架构（Semi-Supervised Knowledge Distillation Architecture）

构建双通道异构模型结构（Dual-Channel Heterogeneous Architecture），实现教师模型（预训练LM）与学生模型（任务驱动LM）的协同训练
开发跨模态一致性正则化方法（Cross-Modal Consistency Regularization），通过未标记数据的隐式语义对齐增强模型泛化性

3. 数据-模型协同优化机制（Data-Model Co-Optimization Mechanism）

提出基于梯度相似性的动态数据筛选策略（Gradient Similarity-based Dynamic Data Selection），建立未标记数据质量评估的数学模型：

设计课程式数据增强管道（Curriculum Data Augmentation Pipeline），通过强化学习动态调整数据增强强度

OCCUQ

论文标题：OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction
论文链接：https://arxiv.org/abs/2503.10605
论文代码：https://github.com/ika-rwth-aachen/OCCUQ

核心创新点：

1. 轻量级不确定性量化模块（UQ Module）

提出一种基于深度确定性不确定性（DDU）的轻量化模块，集成至3D占据预测网络（如SurroundOCC），通过单次前向传播实现认知不确定性（epistemic uncertainty）与数据不确定性（aleatoric uncertainty）的高效解耦估计，计算开销仅增加0.02%参数量。

2. 高斯混合模型（GMM）特征密度估计

在特征空间中引入GMM建模，通过训练集特征分布拟合，将特征密度作为认知不确定性度量。结合谱归一化（Spectral Normalization）约束特征空间的双利普希茨连续性（bi-Lipschitz continuity），确保特征距离与输入语义变化的一致性。

3. 区域级OoD检测与腐蚀模拟

首次提出区域特定腐蚀（region-specific corruption）方法，通过单摄像头失效模拟局部传感器故障，构建体素级分布外（OoD）场景。在nuScenes数据集上验证了模型在区域级（如单摄像头腐蚀）和场景级（如雾、运动模糊）OoD检测的优越性（mAUROC提升10.6% vs Deep Ensembles）。

4. 动态置信度校准策略（UGTS）

提出基于不确定性的温度缩放（Uncertainty-Guided Temperature Scaling），根据认知不确定性动态调整分类logits的温度参数，在腐蚀数据上实现更优的校准效果（mECE降低61.5% vs 基线方法）。

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

论文标题：Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback
论文链接：https://arxiv.org/abs/2503.10434

核心创新点：

1. 人类反馈驱动的生成轨迹微调框架（TrajHF）

首次将强化学习与人类反馈（RLHF）系统性引入自动驾驶轨迹生成任务，通过构建偏好奖励函数和群体相对优势计算（Group Relative Advantage），实现多模态轨迹分布与人类驾驶风格的动态对齐。

2. 多条件去噪Transformer架构（MCD）

提出融合多模态感知（图像、LiDAR、历史动作）的条件去噪网络，通过交叉注意力机制实现状态-动作空间的可逆映射，在无锚点/词汇表约束下直接生成连续轨迹，解决传统方法模式坍缩问题。

3. 双重优化目标与行为克隆约束

设计复合奖励函数（R = w_avgR_avg + w_final R_final），同步优化轨迹平滑性与终端状态精度；引入行为克隆损失（BC Loss）防止微调过程中的灾难性遗忘，平衡风格迁移与基础驾驶能力保留。

4. SOTA性能与风格可解释性

在NavSim基准测试中达到93.95 PDMS，超越现有方法（如Hydra-MDP、GoalFlow等）；通过人类评估实验（BOE指标）验证生成轨迹在"激进性"等风格维度的语义一致性，为个性化自动驾驶提供可解释的解决方案。

Learning Multiple Probabilistic Decisions

论文标题：Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving
论文链接：https://arxiv.org/pdf/2409.15730
项目链接：https://github.com/Sephirex-X/LatentDriver

核心创新点：

1. 多概率决策建模

提出基于高斯混合模型（GMM）与拉普拉斯分布的混合分布框架，将环境状态转移与自车动作空间联合建模为多模态概率分布（mixture distribution）。通过多概率规划器（MPP）的分层Transformer结构，逐层优化动作分布参数，显式捕捉驾驶决策的随机性。

2. 潜在世界模型与规划的统一学习

设计双向随机交互机制：

潜在世界模型（LWM）：采用自回归Transformer预测环境潜在状态分布，通过适配器（Adapter）将动作-观测序列编码为低维隐空间表征；
规划-模型联合优化：利用中间层动作采样（intermediate action sampling）生成估计动作分布，作为LWM的输入以缓解“自欺问题”（self-delusion），打破历史动作依赖的级联条件分布。

3. 场景泛化性提升

在Waymax闭环仿真中验证了方法在长尾场景（如U-turn、无保护左转）的专家级性能（mAR指标达89.3%），通过引入场景分类指标（mAR@[95:75]）量化复杂交互下的决策鲁棒性，显著优于基于强化学习/模仿学习的PlanT、EasyChauffeur等基线模型。

#LightEMMA

Zero-Shot 的VLA不靠谱

这个也是在EMMA-OpenEMMA 的基础上的拓展工作，主要是因为当大部分公司没有waymo那样体量的资源时，还能不能探索出一种更轻量的方式呢？说白了就是不想SFT，直接CoT，以zero-shot看不能解决。

结论很简单：就是不能。

LightEMMA

paper:

arxiv.org/pdf/2505.00284

code:

github.com/michigan-traffic-lab/LightEMMA

Motivation：

本文就提出了一种方法，直接zero-shot,不进行SFT了，拿大模型Cot来进行推理。因此本文重点是评估这些大模型，而不是优化这些Vla的性能。

这里在nuscenes上对12个开源大模型进行比较，分析其优劣

最近相关工作和开源数据集如下：

比如前面的EMMA,OpenEMMA就不再赘述。

DriveGPT4 是一种基于 LLaMA2 的 VLM，在 BDD-X 数据集上训练并使用 ChatGPT 数据进行微调，支持多帧视频理解、文本查询和车辆控制预测。

DOLPHINS 使用指令调优进行上下文学习、适应和错误恢复。

DriveMLM 通过整合驾驶规则、用户输入和传感器数据，将 VLM 纳入行为规划，并在 CARLA 的 Town05 中进行闭环评估

有几个开源数据集可用于训练和评估VLM相关的自动驾驶系统，特别是 Waymo Open Dataset 和 nuScenes 。nuScenes-QA 、nuPrompt 、LingoQA 和 Reason2Drive 等。

方法架构

对于每个推理周期，当前前视摄像头图像和历史车辆驾驶数据都会输入到 VLM 中（ 缺少导航信息输入）。采用思维链（CoT）提示策略，其最后阶段明确输出一系列预测的控制动作。这些作经过数值积分以生成预测的waypoints。所有 VLM 都使用一致的prompts和统一评估，且没有任何针对特定模型的SFT.

VLM Selection

一共十二种型号的VLM,来看看谁的zero-shot能力好吧。分别是：

GPT4o、GPT-4.1 、Gemini-2.0-Flash、Gemini-2.5-Pro 、Claude-3.5-Sonnet、Claude-3.7-Sonnet 、DeepSeek-VL216B、DeepSeek-VL2-28B 、LLaMA-3.2-11B-VisionInstruct、LLaMA-3.2-90B-Vision-Instruct 、Qwen2.5VL-7B-Instruct 和 Qwen2.5-VL-72B-Instruct

这里分为商业模型和开源模型：

商业模型：这里是通过付费 API 调用的。无需管理本地硬件、软件更新和可扩展性这些模型由提供商直接处理，从而简化了部署。

开源模型：从 HuggingFace 下载它们，并使用 H100 GPU 在本地部署。大多数型号只需要一个 H100 GPU，但较大的型号可能需要更多;在表 I 中报告了所需的最小 GPU 数量。为了促进多 GPU 部署，我们利用 PyTorch 的自动设备映射（automatic device mapping）来实现高效的 GPU 利用率。

“

在 HuggingFace 中有个重要的关键字是 device_map，它可以简单控制模型层部署在哪些硬件上。
设置参数 device_map="auto"，Accelerate会自动检测在哪个设备放置模型的哪层参数（自动根据你的硬件资源分配模型参数）。其规则如下：
1.首先充分利用GPU上的显存资源
2.如果GPU上资源不够了，那么就将权重存储到内存
3.如果内存还不够用了，将会使用内存映射的技术，将剩余的参数存储到硬盘上

图像输入形式

camera输入方法也各不相同，之前X-driver提过VQ-VAE会丢失信息，采用了ViT encoder

本文的话，不使用任何视觉编码器，如 CLIP ，也不应用任何预处理。

结果表明，VLM仍然可以有效地描述场景，并直接从原始视觉输入中准确识别物体，证明对图像输入形式变化仍然比较稳定。

实验表明合并额外的帧不会产生明显的性能提升，多帧输入会让模型倾向于在多个帧中冗余地提取相同的特征，而不是捕获有意义的时空动态。此外，添加更多帧会导致处理时间和计算成本大致呈线性增加，而不会带来明显的性能优势。

VideoBERT 和 VideoMAE 等模型通过专门的时间编码支持视频输入，而不是简单地将视频视为帧序列。此类模型本质上采用不同的架构，并且可能会捕获更丰富的时间信息。但是本文没有探索时序图像输入形式。

“

之前EMMA没有对输入图像帧数进行ablation，现在补上了，直观上说更合理的是输入历史交通参与者的轨迹，时序信息的注入还需要探索更合理的方式。

历史驾驶信息输入：

也采用OpenEMMA的速度曲率形式表示车辆动作，这是一种可解释的格式，其中速度捕捉纵向运动，曲率描述横向运动。因为 VLM 通常难以有效地推理涉及隐含物理约束的坐标。

VLM Promoting（CoT 构建）：

属于是常规操作了，这里采用一种简单的 CoT 方法来指导 VLM 进行场景理解和动作生成，其中每个阶段的输出与附加提示一起集成到后续阶段中，分三步：

场景描述：VLM 接收图像作为输入，并提示解释整个场景，包括车道标记、交通信号灯、车辆、行人活动和其他相关对象。比如：“该图像显示了正在进行道路建设或维护工作的城市街景...一名警察站在马路中间指挥交通......可以看到几辆工程车辆，包括一辆停在道路左侧的黑色自卸卡车以及其他工作车辆......在警官在场和可能的车道限制下，通过该施工区的交通似乎受到控制。”
高级驾驶意图：生成的场景描述与ego车辆的历史驾驶动作相结合，允许 VLM 在当前场景上下文中解释过去的行为并预测下一个高级驾驶动作。比如“鉴于当前正在施工的场景和一名警察在路中间指挥交通，自主车辆应显着减速约 2-3m/为可能的停车做准备，在接下来的 3 秒内将速度降低到约 3-4m/s。车辆应继续沿车道行驶，同时在警官的指示下准备完全停止。”
低级驾驶指令：场景描述和生成的高级指令用于提示VLM以指定格式输出结构化的低级驾驶动作列表，是(速度，曲率)，如 [（v1， c1），（v2， c2），（v3， c3），（v4， c4），（v5， c5），（v6， c6）]，无需额外的文本或解释。比如“[(6.0, -0.001), (5.0, -0.001), (4.0, 0.0), (3.5, 0.0), (3.0, 0.0), (3.0, 0.0)].”

“

除了EMMA做了思维链的ablation ，其他好像都默认这个是有用，没用进一步量化了。

实验：

从 150 个测试场景中提取的总共 3,908 帧的 nuScenes 预测任务的性能。评估集中在两个方面：

模型的计算效率
planning轨迹预测的准确性

推理时间和成本对比（终于看到了有做时耗分析的了）：

表 I 总结了推理时间，显示了每个图像帧的平均处理时间和推理成本。

Gemini-2.0-Flash 的推理速度最快，每帧仅 4.5 秒，而 LLaMA-3.2-90b 的推理速度最慢，为 40.8 秒。

Qwen-2.5-72B 和 Gemini-2.5-Pro 的性能也相对较慢，每帧都需要 30 秒以上。

其余型号通常每帧运行约 10 秒，基本版本通常比高级版本运行得更快。

即使是最快的型号 Gemini-2.0-Flash 的处理时间（4.5s）也明显慢于实时更新频率。

为了真正有效地进行实际部署，这些模型的运行速度需要快一到两个数量级。

此外，基于 API 的商业模型依赖于稳定的互联网连接，在车端上使用根本不现实。

使用每个模型提供的官方说明计算每帧的平均输入和输出令牌数。

如表 I 所示，输入token的数量明显高于输出token，通常约为 6000 个输入token，而输出token大约为 300 个。

这基本与预期一致，因为输入包括图像数据，而输出是纯文本的。

但是LLaMA 模型每帧仅报告大约 1000 个输入令牌。其实是官方的 LLaMA token计数方法不包括图像token，只对文本进行计数。

此外，Gemini-2.5-Pro 的token计数在输入和输出token计算中出错了。

单使用相同的token计数设置计算的 Gemini-2.0-Flash 产生了一致且合理的结果

商业的token形式可以不用考虑了，一次推理的代价太高了

模型输出错误问题：

在最终的模型输出阶段，观察到不同的响应格式错误。尽管提示限制VLM输出 [（v1， c1），（v2， c2），（v3， c3），（v4， c4），（v5， c5），（v6， c6）] 格式的输出，但没有额外的文本，但偶尔会遇到偏差，例如缺少括号或逗号、额外的解释或标点符号以及不正确的列表长度。但可在 GitHub 中找到例子。

“

这里说明如果不进行SFT，指令跟随能力还是挺差的，指令调优我认为是必须的

模型输出错误率及planning对比结果

这也是nuscens的开环评估，zero-shot基本上就是第一秒就偏半米，这里值得关注的是，参数量越高的模型，加了prompt，但是错误输出率更高了，比如qwen和gpt4.1

比较值得关注的就是，居然zero-shot没有打得过simple baseline.

simple baseline.是什么呢？：就是固定速度和曲率将三秒内保持不变。。。。可以说模型不进行SFT根本不具备可用的能力。zero-shot在自动驾驶planning任务上不成立

定性case分析

总结一下：zero-shot的VLA不具备路口左右转的能力，红灯有的模型能刹车，但是不会减速，而是直接重刹，不具备时序平滑，有的模型直接闯红灯。

当灯变绿时，有的模型可以具备启动通过的能力，但有的模型仍然没有获得绿灯通行的关联能力。

总结：

zero-shot VLA这事就不可能行，结合海量的业务标注数据（动态感知、静态感知、Occ、ego pose）进行SFT，再利用Cot这事还靠谱一点。

#生成式AI如何重塑自动驾驶？

六大应用场景全面解析（端到端/世界模型/闭环仿真等）

40 余位学者、23 所顶尖机构联合推出的最新综述，首次系统梳理 生成式 AI ⇋ 自动驾驶 的模型、数据、应用和未来机遇。本篇推文带你快速掌握关键数据集、六大应用落地脉络及亟待攻克的技术难题。

生成式人工智能（GenAI）凭借在内容生成、推理、规划和多模态理解方面的强大能力，被视为攻克可靠的L5级完全自动驾驶这一终极挑战的新希望。近日来自全球23顶尖学术机构(TAMU, Stanford, Columbia, Purdue, UMich, UCRiverside, ASU, NVIDIA, Bosch, Adobe 等)的40余位学者联合发表最新综述论文上发布了一篇题为《Generative AI for Autonomous Driving: Frontiers and Opportunities》的综述论文，从核心模型（扩散模型、GAN、VAE、NeRF、大语言模型LLM）到前沿技术应用（传感器数据生成、多智能体轨迹预测、场景理解与编辑），再到真实场景落地应用（数字孪生、端到端自动驾驶系统、智慧交通网络），进行了全面的梳理和深入分析。论文不仅指出了当前面临的关键挑战，比如安全性、泛化能力和伦理问题，也清晰规划了未来的发展路径和前沿研究方向。

欢迎感兴趣的朋友们阅读交流，一起探讨自动驾驶和AI技术的未来！

论文链接：https://arxiv.org/abs/2505.08854
代码和资源：https://github.com/taco-group/GenAI4AD （持续更新，欢迎领域研究者共同维护！）

1  为什么值得读？

L5 终极挑战卡在哪？ 当前，自动驾驶距离真正的L5级无人驾驶仍有很大差距。其中一个关键瓶颈在于应对复杂多变的长尾场景和极端情况：这些在训练数据中极为稀少，却往往决定系统的安全可靠性。传统规则或判别式模型在从未遇见场景下的泛化能力和决策鲁棒性上依然不足。
GenAI 能做什么？多模态生成模型GenAI （Figure.3）的出现为上述难题提供了新的解法。这篇综述详细阐述了生成式AI如何改善自动驾驶面临的诸多挑战。例如，利用生成模型合成数据扩充训练集以涵盖稀有场景；采用生成式端到端驾驶模型简化从感知到控制的决策链；构建高保真的数字孪生虚拟环境用于测试和场景还原。同时，GenAI还能模拟交通流优化智能交通系统，增强车辆场景理解与预测能力，并通过大型语言模型等多模态手段为决策提供高层语义推理支持，帮助自动驾驶车辆更智能地应对突发情况。
本文贡献？ 首次把 扩散 / GAN / VAE / NeRF / LLM / MLLM 与自动驾驶全栈问题对齐，提出“技术→应用→社会影响”三层框架，为后续研究与产业落地给出路线图。

2  全景数据资源：30 + 数据集一网打尽

领域	数据集示例	规模 & 特色	典型任务
单车多模态感知	nuScenes、Waymo Open、KITTI	摄像头+LiDAR+Radar，HD Map	3D 检测、跟踪
多智能体预测 / 规划	Argoverse 2、INTERACTION、Waymo Motion	带高精地图的轨迹序列	运动预测、行为推断
仿真与合成	CARLA Shift、DeepAccident、OPV2V、UniOcc	可控天气/事故/协同/占用栅格	Sim2Real 训练、稀有场景生成
语言标注	DriveLM、NuPlanQA、LingoQA	视频 + 文本 QA / 指令	场景理解、LLM 监督

亮点：作者对每类数据集给出 采样频率、传感器配置、HD Map 支持、注释粒度等对比，方便开发者快速选型。

4 生成式模型总结，梳理训练/推理过程，方法优缺点

生成式模型（GenAI）相对于Feed Forward Network (FFN)的一大区别是他们的推理/训练路径经常不同，而现有文章都未对此做出清晰的总结，本文作者通过图表，公式对此进行详细区分，避免误解
与此同时，本文对不同的模型进行利弊分析，方便读者选则合适的方法进行后续研究

3  六大应用场景 & 主要技术痛点

1.稀有场景合成数据

做什么：扩散 / GAN / VAE 模型在图像、LiDAR、轨迹层面生成可控场景 → 用于长尾补齐与安全回放。
难点：物理一致性、跨模态同步、合成数据权重估计。
突破方向：物理约束扩散模型、生成‑判别联合训练、实时域自适应。

2.端到端自动驾驶决策

做什么：多模态大模型MLLM直接输出轨迹或控制命令，减少感知‑预测‑规划链路耦合误差。
难点：可解释性不足、实时推理成本高、安全证明缺失。
突破方向：分层可解释架构、轻量化蒸馏、形式化验证。

3.数字孪生 & 高保真仿真

做什么：NeRF / 3D‑GS + LLM 构建城市级可交互数字双生，闭环测试。
难点：场景动态同步、计算资源消耗、仿真与实车差距评估。
突破方向：增量式重建、云边协同渲染、对偶域适配指标。

4.多智能体场景理解与预测

做什么：VLM / MLLM 对驾驶场景通过VQA (Visual Question Answering)进行解读。
难点：评价指标不统一，公开大模型对驾驶任务没有特别的知识。
突破方向：统一衡量标准，用现有专家模型对预训练大模型进行蒸馏。

5.智能交通系统 & V2X 协同

做什么：利用 GenAI 快速模拟大规模交通流，辅助信号优化、路径分配与车路协同决策。
难点：通信标准碎片化、隐私安全、系统级仿真‑现实闭环。
突破方向：生成式 V2X 协议压力测试、同态加密协同学习、城市级数字孪生共享。

6.跨域迁移（具身机器人 / 无人机 / 低空经济）

做什么：共享大模型能力，将车端知识迁移至地面机器人与 UAV。
难点：动力学差异、任务多样、法规空白。
突破方向：多体动力学条件生成、领域自适应指令微调、跨域安全规范。

4  未来研究议题速览

方向	核心问题	机会与建议
长尾泛化理论	缺少统一不确定度度量	引入 PAC‑Bayesian 框架、风险敏感训练
可信评测体系	生成结果“看起来像”≠“足够安全”	建立场景‑任务双维基准，加入安全红队测试
算力 & 能耗	长链扩散推理代价高	研究快速采样、蒸馏、混合专家
法规伦理	版权、深度伪造、事故责任	时序水印、数据可追溯、模型透明度报告
车‑路‑云协同	单车算力天花板	生成式数字孪生 + 边缘协同显著降成本

5  结语

作者团队在论文末强调，生成式 AI ≠ 点状工具，而是一场范式升级： “通过统一感知、预测、规划和执行的生成式方法，我们有望缩短从研究样机到大规模部署的道路，加速 L5 时代到来。”

想了解更多技术细节、数据对比与代码实现，戳下方链接原文 & 资源库，一起推动自动驾驶新时代！

论文原文：https://arxiv.org/abs/2505.08854
代码 & 数据：https://github.com/taco-group/GenAI4AD（持续更新，欢迎 PR!）

讨论话题：你认为 GenAI 在自动驾驶最先落地的场景会是哪一个？评论区见！

#聊聊地平线自动驾驶解决方案~

地平线机器人（HorizonRobotics）自2015年成立以来，一直致力于将深度神经网络计算能力嵌入专用芯片之中，打造“万物智能”的底层硬核。创始人兼CEO余凯博士早在创立之初就提出，要成为机器人时代的“Wintel”——既拥有微软般的软件生态，也拥有英特尔级的硬件基石。在这样的愿景驱动下，地平线构建了从IP授权到软硬一体化解决方案的全链路技术平台，为整车厂商和Tier1供应商提供了完整、灵活、高效的智能驾驶开发环境。

在硬件层面，地平线推出了征程（Journey）系列车规级智能计算方案，其中2024年4月推出的6代产品（代号J6）尤为关键。J6系列覆盖算力从10TOPS到560TOPS，以多核异构架构整合BPU（专用加速单元）、CPU、GPU、MCU等多种计算资源，兼顾端到端高级辅助驾驶（ADAS）与全场景自动驾驶（AD）需求。最高端的J6P旗舰版，原生支持大参数Transformer算法，能够高效部署端到端预测与交互博弈模型；中阶的J6E/M则针对高速领航与城区记忆行车等高频功能进行成本与性能优化，助力更多车型实现智驾平权。

地平线征程6系列芯片

为了让算法和模型能在芯片上“开花结果”，地平线自主研发了BPU架构，并先后演进出伯努利、贝叶斯和纳什三代设计。伯努利架构主攻感知层面的高效计算，实行浮点到定点的能效优化；贝叶斯架构进一步加入预测模块支持，打通从感知到预测的闭环；纳什架构则将决策与交互博弈也纳入硬件加速，面向全场景NOA（NavigateonAutopilot）需求，实现系统级效率最大化。

地平线BPU架构随着自动技术演进而持续进化

与硬件相辅相成的，是地平线完整的智驾软件栈和量产开发平台。早在2016年，地平线就提出了自动驾驶端到端的演进理念。基于端到端（E2E）世界模型与交互博弈的算法框架，地平线在2022年发布了Sparse4D感知端到端算法，2023年又以UniAD端到端自动驾驶大模型在CVPR上斩获最佳论文奖。HorizonSuperDrive（HSD）全场景智驾系统则集成了这些先进算法，能够在山城重庆的急弯狭坡、广州的繁忙街区、苏州的古街窄巷等多样化路况中，实现无断点、高拟人度、全国一致的智能驾驶体验。通过“三网合一”的设计，传感器数据、高清地图与导航信息可作为统一输入，实现感知——规控——决策的无损信息传递，大幅提升系统泛化能力和安全冗余。

技术平台之外，地平线在业务模式上也极富弹性，从IP授权到计算方案、整套解决方案再到深度联合开发，客户可根据自身研发能力和项目需求，自由选择算法、软件、芯片与工具链的组合。比亚迪、大众、理想、小鹏、博世、大陆、采埃孚等头部车企与一级供应商，均与地平线以多种模式开展合作，共同推动智驾技术量产落地。这种“本土深耕、立足全球”的合作思路，不仅使地平线在中国取得领先，更具备出海赋能的实力。

在中国市场，随着2025年2月比亚迪“全民智驾”战略的推进，高速NOA功能下探至10万元级车型，全系搭载“天神之眼”后，征程6系列也迎来首批大规模量产。比亚迪首发的高阶智驾三目方案中，地平线J6M与OrinN搭配，为21款车型提供高快领航、城区记忆领航、自动泊车等多种功能体验。在理想、博世等客户身上，征程3至征程6亦形成了从Mono、Pilot到SuperDrive的逐代演进，有效缩短了他们的研发周期和系统集成成本

比亚迪天神之眼配置一览表

值得一提的是，地平线对于量产工程化环节也格外重视。每一代芯片与方案，都配备成熟的量产开发平台，提供软硬件参考设计、电路板及系统集成示例，以及持续迭代的开发工具链，帮助客户在功能验证、路测标定、批量生产等各环节实现敏捷开发和高效交付。正因为如此，截至2024年底，征程系列芯片累计出货已超七百万片，2025年则有望突破千万大关，为更多中高端和经济型车型赋能。

据预测，全球高级辅助驾驶与高阶自动驾驶市场，2023年规模约619亿元，至2030年将跃升至逾一万亿元，年均复合增速近50%。在这一大周期中，地平线凭借零起点自研、软硬协同的产品矩阵，以及灵活多元的合作模式，将深度受益于智驾平权和全场景进阶两大趋势。未来，HSD量产装车后，伴随算法与算力双重升级，全场景L3甚至更高级别的自动驾驶，也将逐步在中国及海外市场落地生根。

高级辅助驾驶、高阶自动驾驶解决方案市场规模（单位：亿元）

放眼未来，地平线不仅储备了汽车领域的专利与技术，还在机器人芯片领域提前布局。旗下子品牌“地瓜机器人”推出了面向扫地机、教育陪伴机、割草机器人、四足机狗等多种场景的旭日系列芯片，其中旭日3已在科沃斯、小度、（美的）等品牌实现量产；旭日5更是在BPU贝叶斯架构基础上，提供达10TOPS的算力，支持端到端与Transformer、BEV等复杂模型。这样的产业延伸，既回应了余凯博士“智能汽车是第三代终端，终局是机器人”的战略判断，也为地平线下一阶段的成长奠定了多元基础。

#Street Gaussians到底如何解决闭环仿真的难题？

随着神经场景表征的发展，之前出现了一些方法尝试用神经辐射场重建街道场景。为了提高建模能力，Block-NeRF 将场景划分为几个块，并用 NeRF 网络表示每个块。虽然这种策略可以实现大规模街道场景的逼真渲染，但由于网络参数数量庞大，Block-NeRF 的训练时间较长。此外，它无法处理街道上的动态车辆，而这是自动驾驶环境模拟中的关键方面。最近，一些方法提出将动态驾驶场景表示为由前景移动汽车和静态背景组成的组合神经表示。为了处理动态汽车，他们利用跟踪的车辆姿态来建立观察空间和规范空间之间的映射，在那里他们使用 NeRF 网络来模拟汽车的几何形状和外观。虽然这些方法产生了合理的结果，但它们仍然局限于高训练成本和低渲染速度。

下图是在Waymo数据集上的渲染结果。street gaussians的方法在训练半小时内以 135 FPS的速度产生高质量的分辨率为1066×1600渲染视角。这两个基于NeRF的方法存在训练和渲染成本高的问题。

以前的方法通常面临训练和渲染速度慢以及车辆姿态跟踪不准确的挑战。给定从城市街道场景中的移动车辆捕获的一系列图像，street gaussians的目标是开发一个能够生成逼真图像以进行视图合成的高效模型。为了实现这一目标，street gaussians基于3DGS，提出了一种新颖的场景表示，专门用于建模动态街道场景。

动态城市街道场景表示为一组基于点的背景和前景物体，具有可优化的跟踪车辆姿势。每个点都分配有一个 3D 高斯，包括位置、不透明度和由旋转和缩放组成的协方差，以表示几何形状。为了表示外观，street gaussians为每个背景点分配一个球面谐波模型，而前景点与动态球面谐波模型相关联。显式的基于点的表示允许轻松组合单独的模型，从而实现高质量图像和语义图的实时渲染（如果在训练期间提供 2D 语义信息），以及分解前景对象来进行场景编辑。

Street Gaussians用单独的神经点云表示静态背景和每个移动车辆对象。

接下来，我将首先介绍它的背景模型，详细说明与对象模型共享的几个常见属性。随后，我将深入讲解它的动态物体模型设计。

背景模型表示为世界坐标系中的一组点。每个点都分配有一个 3D 高斯，来表示连续场景的几何形状和颜色。高斯参数由协方差矩阵 Σb 和位置向量 µb ∈ R3组成。为了避免优化过程中出现无效值，每个协方差矩阵进一步简化为缩放矩阵 Sb 和旋转矩阵 Rb，其中 Sb 以其对角线元素为特征，Rb 转换为单位四元数。协方差矩阵 Σb 可以从 Sb 和 Rb 中恢复。

除了位置和协方差矩阵之外，每个高斯还被分配一个不透明度值和一组球面谐波系数来表示场景几何和外观。为了获得与视图相关的颜色，球面谐波系数进一步乘以从视图方向投影的球面谐波基函数。为了表示3D语义信息，每个点都添加了一个语义的概率。

对于物体模型，考虑一个包含 N 个移动前景物体车辆的场景。每个物体都用一组可优化的跟踪车辆姿态和点云表示，其中每个点都分配有一个 3D 高斯、语义概率和动态外观模型。物体和背景的高斯属性相似，不透明度 αo 和比例矩阵 So 具有相同的含义。然而，它们的位置、旋转和外观模型与背景模型不同。位置 µo 和旋转 Ro 在物体局部坐标系中定义。为了将它们转换为世界坐标系（背景的坐标系），我们引入了物体跟踪姿势的定义。具体而言，车辆的跟踪姿势定义为一组旋转矩阵 {Rt} Nt t=1 和平移向量 {Tt} Nt t=1，其中 Nt 表示帧数。转换可以定义为：xxx。

其中 µw 和 Rw 分别是世界坐标系中相应物体的高斯分布的位置和旋转。经过变换后，物体的协方差矩阵 Σw 可以通过前面的公式和 Rw 以及 So 得到。需要注意的是，street gaussians还发现现成跟踪器的跟踪车辆姿态有很多噪声。为了解决这个问题，street gaussians将跟踪车辆姿态视为可学习的参数。

但是仅用球谐函数系数表示物体外观不足以对移动车辆的外观进行建模，因为移动车辆的外观受其在全局坐标系场景中的位置影响。一种直接的解决方案是使用单独的球谐函数来建模每个时间点的物体。但是，这种建模会显著增加存储成本。相反，street gaussians引入 4D 球谐函数模型，用一组傅里叶变换系数 f ∈ R k 替换每个 SH 系数 zm,l，其中 k 是傅里叶系数的数量。给定时间点t，通过执行逆离散傅里叶变换来得到渲染特征：xxx。

利用所提出的模型，street gaussians将时间信息编码到外观中，而无需高存储成本。物体模型的语义表示与背景的语义表示不同。主要区别在于，物体模型的语义是一个可学习的一维标量，它表示来自跟踪器的车辆语义类别。

4D球谐函数的效果。第一行显示输入的序列图像，展示不同的外观。第二行演示了利用所提出的4D球谐函数对渲染结果的影响。如果没有4D球谐函数，则可以观察到明显的伪影。

3D Gaussian 中使用的 SfM 点云适用于以物体为中心的场景。然而，它不能为具有许多观察不足或无纹理区域的城市街道场景提供良好的初始化。street gaussians使用自车捕获的聚合 LiDAR 点云作为初始化。LiDAR 点云的颜色是通过投影到相应的图像平面并搜索像素值获得的。为了初始化物体模型，street gaussians首先收集 3D 边界框内的聚合点并将它们转换为局部坐标系。对于 LiDAR 点少于 2K 的对象，street gaussians改为在 3D 边界框内随机采样 8K 点作为初始化。对于背景模型，street gaussians对剩余的点云执行体素下采样并过滤掉训练相机不可见的点，并且结合 SfM 点云来弥补 LiDAR 在大面积上的有限覆盖范围。

重建效果如何？

静态场景重建：

，时长00:10

表面场景重建：

，时长00:19

动态场景重建：

，时长00:10

自动驾驶场景重建：

，时长00:50

入门学习仍然困难？

正如前文所述，3DGS发展至今已经衍生出各个子方向，3D Gaussian如何表示三维世界？又是如何渲染出二维图像？时序又如何引入进化到4D GS？整个3DGS涉及到的模块、细节众多。这类知识点琐碎，系统也比较复杂，如果没有比较好的教程带着入门，往往会踩坑，后期不知道怎么学习。新视角泛化怎么提升？场景编辑又是什么魔法？自动驾驶仿真闭环又是如何用到Gaussian Splatting的？工业界和科研还适不适合入局？这些都是阻挡新手入门以及进阶的难点。