51c自动驾驶~合集54

我自己的原文哦~     https://blog.51cto.com/whaosoft/13517811

#Chameleon

快慢双系统!清华&博世最新:无需训练即可解决复杂道路拓扑

在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。然而,现有的解决方案存在明显局限性。一方面,密集视觉提示方法虽然准确,但计算成本高昂,且在实时处理中效率低下,难以应用于实际场景。另一方面,神经符号推理方法虽然效率较高,但在处理复杂场景(如交叉路口)时,常常因为缺乏视觉信息而无法做出准确判断。

为了解决这一难题,清华大学与博世中央研究院RIX联合提出了一个创新的解决方案——Chameleon。它通过一种快慢系统交替的神经符号方法,成功平衡了效率与性能,为自动驾驶领域带来了新的突破。

论文链接:​https://arxiv.org/pdf/2503.07485​

开源地址:​https://github.com/XR-Lee/neural-symbolic​

引言

在线地图感知是现代自动驾驶中的一个重要课题,它避免了对高成本高精地图的依赖。当前的三维场景理解方法虽然能够有效检测车道和交通元素(如图1所示),但这些实例之间的关系复杂,需要大量标注数据进行监督训练。为此,我们提出了一种基于视觉语言基础模型(VLM)的少样本(few-shot)方法,用于提取车道拓扑。

图片

图1:VLM无法直接解决复杂的三维场景理解任务,例如车道拓扑提取。(a) 一种可能的方法是使用密集视觉提示(如RedCircle),虽然准确但效率低下。(b) 另一种方法是神经符号推理(如NS3D),但这种方法在程序合成时未能有效利用视觉输入,导致在处理复杂边缘情况时效果不佳。(c) 我们提出的Chameleon方法采用快慢交替的设计,其中一个VLM用于合成程序,另一个用于处理边缘情况。

具体而言,我们专注于OpenLane-V2定义的车道拓扑提取任务,即检测车道和交通元素(如交通信号灯和标志),并提取它们之间的关系。这一任务极具挑战性,需要高水平的推理能力,例如判断车辆在交叉路口是否可以驶入某条车道。然而,现有的VLM仍无法直接解决这种复杂的三维场景理解任务。

为解决这一问题,我们结合了两类基于VLM的方法:密集视觉提示神经符号推理。密集视觉提示(如RedCircle)通过在图像上放置红色圆圈,将复杂推理任务转化为问答(QA)任务。但这种方法会导致大量的QA查询,计算成本高昂且不适合实时应用(如图1-a)。神经符号推理(如NS3D)虽然效率更高,但在程序合成时未能整合视觉信息,无法有效处理复杂边缘情况(如图1-b)。

因此,我们提出了一种名为“Chameleon”的快慢系统交替的神经符号车道拓扑提取器(如图1-c)。它通过VLM合成程序,根据视觉输入定制推理过程,并动态切换快慢系统以平衡效率和性能。此外,我们还提出了一个链式推理(COT)方法,用于识别和处理需要额外推理的边缘情况。

图片

图二:Chameleon架构概览。输入多视图图像后,视觉模型分别生成交通元素和车道线段的检测结果。提出的快速系统利用一个大型视觉语言模型(VLM),以预定义的视觉-文本少样本和文本提示为输入,生成可执行代码以处理视觉模型的预测结果。提出的慢速系统包括一个视觉问答(VQA)API集和一个具有链式推理能力的视觉语言模型(VLM),其中VQA API集中的视觉提示和文本提示是VLM的输入。随后,拓扑推理结果是代码执行结果和VLM输出的组合。

方法

A. 概述

在车道拓扑提取任务中,我们预测一个密集的邻接矩阵,用于表示车道线段和交通元素之间的关系。具体来说,车道线段之间的关系由矩阵 A∈Rm×m 表示,车道线段与交通元素之间的关系由矩阵 A∈Rm×n 表示,其中 m 和 n 分别是车道线段和交通元素的数量。尽管密集视觉提示可以实现高性能,但其高昂的成本、环境影响和低效的推理速度使其不适用于实时应用。因此,我们采用链式推理(Chain-of-Thought, COT)方法,仅对稀疏的边缘情况进行密集视觉提示,从而提高推理效率。

为了高效处理任务,我们设计了快慢系统架构。快速系统使用符号表示处理基本推理任务,适用于简单场景(如直线车道);而慢速系统则针对复杂边缘情况(如交叉路口的密集交通和多种交通元素)进行深度推理。这种架构通过动态切换快慢系统,平衡了效率和性能。

图片

B. 提示

为了执行符号推理,我们使用多种提示来生成符号代码。这些提示包括带有few-shot参考的视觉提示(正例或负例)、API描述和专家规则。

  • API提示:API提示定义了生成代码的输入和输出,以及API的输入输出描述,例如用于车道自定位和并行车道搜索的函数等。在我们的实现中,我们还将选定的VQA任务定义为程序合成期间的API。
  • 专家规则提示:为了稳定代码生成过程并整合领域专家的先验知识,我们将专家规则添加为程序合成的提示。例如,在TOP lsls任务中,强制执行角度和距离约束。例如,父车道的终点不应与子车道的起点相距过远,以满足驾驶几何约束。在TOP lste任务中,规则规定不允许在交叉路口内存在车道拓扑。
  • few-shot提示:在few-shot场景中,我们选择正例和负例,并将它们渲染为相机的透视图。我们还将这些示例的坐标转换为文本,分别作为视觉提示和文本提示。
  • VQA提示:对于VQA任务,文本提示由关于语义和空间上下文的简单问题组成。我们还使用链式推理(COT)提示。视觉提示基于预测结果从透视图和鸟瞰图中渲染图像。

图片

图三:Chameleon架构示意图。输入多视图图像和文本提示后,Chameleon实现车道拓扑提取。每个API或密集视觉提示VQA任务表示为一个节点。具有链式推理(Chain-of-Thought, COT)能力的视觉语言模型(VLM)根据输入动态选择需要执行的节点,以推断拓扑结果。

C. 代码执行

对于生成的程序,TOP lsls和TOP lste任务的代码执行过程有所不同。对于TOP lsls任务,使用简单的成对预定义代码框架,VLM根据API描述和给定的提示生成Python代码。此代码以字符串形式生成,然后使用Python的​​exec​​函数执行。相比之下,TOP lste任务涉及更多的API调用(如图3所示),因此我们使用OpenAI的函数调用API来管理所需的函数执行。首先,我们提示VLM生成一个链式推理,以解决拓扑提取问题,该问题包含六个步骤(如图3执行模块所示)。这进一步用作文本提示,供VLM合成程序根据视觉输入自适应地跳过某些步骤。某些步骤涉及需要通过密集视觉提示VLM模型处理的边缘情况,因此被送入慢系统。通过总结API结果,系统可以推断出潜在的拓扑对。

D. 密集视觉提示VQA任务

密集视觉提示VQA任务是慢系统的核心API,特别是在开放场景拓扑推理的互操作过程中。为了测试VLM模型的能力,我们创建了几个基本的VQA任务。如表II所示,我们关注四个不同的任务。在“左或右”任务中,以鸟瞰图(BEV)的形式呈现两条车道线段。模型需要执行三类分类,选择左侧、右侧或无关系。对于“是否在交叉路口”任务,以马赛克形式显示单条车道,左侧为鸟瞰图(BEV),右侧为前方透视图(PV)。模型需要判断该车道线段是否在交叉路口内。在“邻接性”任务中,给出两条车道线段,模型需要判断它们是否相邻。最后,在“向量”任务中,模型需要评估两条渲染的向量箭头的方向是否匹配。

实验

A. 实验设置

我们在OpenLane-V2官方验证数据集上评估了Chameleon方法,该数据集提供了车道线段和交通元素之间的拓扑注释。此外,我们手动标注了500个样本,涵盖四个密集视觉提示VQA子任务,用于评估性能指标。这些数据集不仅支持车道拓扑提取任务,还适用于其他自动驾驶场景。

在评估指标方面,我们报告车道线段检测和交通元素检测的平均精度均值(mAP)。对于拓扑任务,采用OpenLane-V2官方指标TOPlsls(车道线段间拓扑mAP)和TOPlste(车道线段与交通元素间拓扑mAP)。对于VQA分类问题,由于正负样本在标注时保持平衡,我们使用准确率(Accuracy)作为评估指标。

图片

图片

B. 实现细节

我们将Chameleon方法应用于自定义基线,并进行了实验。基线方法结合了SMERF的SD编码和融合模块,使用LanesegNet框架检测车道线段,并通过DETR实现2D交通元素检测,同时并行训练TopoMLP以预测拓扑关系。为了进一步提升性能,我们还设计了一个增强基线(“Powerful Baseline”),引入了StreamMapNet的时间信息,使用更大的Vovnet作为骨干网络,并采用YOLOv8进行交通元素检测。在少样本学习场景中,我们采用3-shot配置,包含三个帧及其注释作为参考。

对于视觉语言模型(VLM),我们使用了GPT-4的官方API(包括GPT-4-vision-preview和GPT-4o)以及LLaVA-v1.5-13b-full ft-1e权重。此外,我们还进行了VQA基准测试,使用基于ResNet18的MLP分类模型,数据集按3:1比例分为训练集和测试集,采用Adam优化器和交叉熵损失函数进行20个周期的训练。

C. 定量和定性结果

与最新方法的比较:在本节中,我们将提出的少样本方法与OpenLane-V2验证集上的最新监督方法进行了比较。表I显示了与LaneSegNet、TopoLogic和MapVision等方法的比较结果。

我们的方法使用了两个不同的基线,每个基线使用不同的骨干网络。基线基于LanesegNet和TopoMLP实现,并结合了SMERF中的SD编码和融合过程。如表所示,我们的方法在few-shot设置中实现了与监督基线相当的性能,甚至在TOPlste任务中略微超过了全监督模型。总体而言,我们的方法在仅使用少样本的情况下表现出显著的竞争力。

图片

图四:TopoMLP和我们的方法(Chameleon)在OpenLane-V2验证数据集上的定性结果对比。(a) 车辆刚刚通过交叉路口。(b) 前方有一个左转交通灯。(c) 地面车道标有直行标志。(d) 车辆行驶在单向右转车道上。所选场景均为边缘情况,需要通过密集视觉提示进行进一步推理。每个子图均包含鸟瞰图(BEV)和前视图(PV)。蓝色线条表示车道线段检测结果,绿色线条表示车道与交通元素之间的真正例(ls-te),粉色线条表示车道与交通元素之间的假正例(ls-te)。当车辆刚刚通过交叉路口时(图4-a),车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法(Chameleon)理解了绿灯与车道之间的空间关系,从而做出了正确的判断,而TopoMLP则相反。在图4-b中,左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同,我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志(图4-c),因此该标志仅与其自身车道和连接车道相关,而不是其他平行车道。我们的方法做到了这一点,而TopoMLP没有做到。车辆行驶在单向右转车道上(图4-d),控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

不同VLM方法的VQA比较:由于其通用性,VQA与各种VLM兼容。表II比较了不同VLM在四个任务上的性能。在这些任务中,我们发现GPT-4的性能与监督分类器模型相当,而LLaVA在语义和空间理解任务中表现较差。

图片

数据和推理效率比较:为了比较不同方法之间的推理成本,我们在RTX 4080 GPU上测试了LLaVA的平均VQA任务延迟。平均VQA延迟约为1447毫秒。在我们的实验中,每帧平均执行6次VQA,导致慢速系统的延迟为8.7秒/帧。TopoMLP的延迟根据不同的骨干网络和图像分辨率而变化,范围从140毫秒到700毫秒。密集视觉提示的延迟是基于20×20矩阵的逐个VQA计算得出的,结果为每帧超过200秒。详细信息总结在表IV中。

图片

定性结果:为了更直观地展示我们算法的性能,我们还提供了OpenLane-V2验证数据集上预测的ls-ls关系和ls-te关系的定性可视化结果。所有比较的场景均为边缘情况,每个子图均包含鸟瞰图和前视图。蓝色线条表示车道线段检测结果,绿色线条表示ls-te真正例,粉色线条表示ls-te假正例。

当车辆刚刚通过交叉路口时(图4-a),车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法(Chameleon)理解了绿灯与车道之间的空间关系,从而做出了正确的判断,而TopoMLP则相反。在图4-b中,左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同,我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志(图4-c),因此该标志仅与其自身车道和连接车道相关,而不是其他平行车道。我们的方法做到了这一点,而TopoMLP没有做到。车辆行驶在单向右转车道上(图4-d),控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

图片

D. 消融研究

我们在OpenLane-V2验证集上对TOPlsls任务进行了消融研究,以评估我们框架中每个组件的有效性。结果如表V所示。“提示到符号”指的是仅提供API提示的基本神经符号推理。由于生成代码的不稳定性,我们报告了三次符号推理结果的平均值作为最终性能。“专家规则”指的是将专家观察结果纳入提示。对于少样本示例,我们引入了三个正例和三个负例以改进生成的程序。

结论

本文介绍了一种名为“Chameleon”的新方法,该方法结合了密集视觉提示和神经符号推理,利用视觉语言基础模型(VLM)以few-shot的方式提取车道拓扑。Chameleon通过整合视觉信息来合成程序,针对特定场景定制处理过程,并通过密集视觉提示高效地处理边缘情况。通过平衡计算效率和高性能,Chameleon适用于实时机器人应用,并展示了将视觉输入整合到复杂三维场景任务程序合成中的潜力。未来的工作可以探索将这种方法扩展到其他自动驾驶领域。

#GO-1

智元发布首个通用xx基座大模型

智元发布首个通用xx基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了xx智能门槛,并成功部署到智元多款机器人本体,持续进化,将xx智能推上了一个新台阶。

研究论文:

​https://agibot-world.com/blog/agibot_go1.pdf​

2024年底,智元推出了 AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World,智元今天正式发布智元通用xx基座大模型 Genie Operator-1(GO-1)。

01

 GO-1:VLA进化到ViLLA

图片

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。GO-1作为首个通用xx基座大模型,基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner和Action Expert三者协同工作:

  1. VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
  2. Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
  3. Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:

图片

混合专家一:

Latent Planner(隐式规划器)

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  • Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。其中:
  • 编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。
  • 解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。
  • Latent Action Tokens通过VQ-VAE的方式进行量化处理。
  • Latent Planner负责预测这些离散的Latent Action Tokens,它与VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息,通过Cross Entropy Loss(交叉熵损失)进行监督训练。

混合专家二:

Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入Action Expert,其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

  • Action Expert结构设计上与Latent Planner类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的FFN和Q/K/V/O投影矩阵,它通过Denoising Process(去噪过程)逐步回归动作序列。
  • Action Expert与VLM、Latent Planner分层结合,确保信息流的一致性与协同优化。

实验效果

图片

通过Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

02

GO-1:xx智能的全面创新

GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

  • 人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
  • 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了xx模型的使用门槛,使得后训练成本非常低。
  • 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
  • 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元通用xx基座大模型GO-1的推出,标志着xx智能向通用化、开放化、智能化方向快速迈进:

  • 从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。
  • 从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。
  • 从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将加速xx智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。

#DecoupledGaussian

基于物理的前提

为了提升真实感,研究逐渐超越了传统表示方式,如点云、网格、体素网格和有符号距离场(SDF)。神经辐射场(Neural Radiance Fields, NeRF)利用神经渲染技术从视频中生成新视角图像,使得模拟内容能够直接来源于捕获的数据,从而应用于交互式游戏、动画和仿真。此外,高斯喷溅(Gaussian Splatting, GS)因其快速渲染和重建速度而广受关注。GS 利用 离散高斯核 来表示 3D 场景,使得从视频中重建的物体更容易直接操作和处理。

然而,当前基于物理的仿真方法,无论是使用 NeRF还是 GS,大多仅关注 合成物体,这允许在重建过程中对物体进行全视角观察;或者仅支持 弹性形变与抖动,即物体仍受限于初始接触表面,无法真正脱离并独立运动。因此,当用户施加外部冲击力时,这些方法无法实现物体的真实分离。

为了让物体能够在仿真前 摆脱初始接触表面的限制,我们需要首先将物体与接触表面解耦。在现实环境中,物体通常受重力影响,并停留在其他表面上,例如图 1 中基座上的雕塑。在拍摄过程中,物体与其接触表面往往被视为一体,这会导致部分区域隐藏或被遮挡,使得物体表面的表示变得支离破碎。因此,解耦的主要挑战在于:在仿真前准确恢复并补全物体及其周围场景的 3D 结构。

为了解决这一问题,本文介绍的**DecoupledGaussian[1]**,该系统利用 高斯喷溅(GS) 从自然场景视频中恢复物体及其接触表面的 3D 几何结构和纹理,为真实的物体-场景交互式仿真奠定基础(见图 1)。值得注意的是,2D 修复(inpainting)(如图 2)通常难以进行 3D 恢复,尤其是在准确捕捉几何位置信息方面。我们的方法通过结合几何先验(假设表面为封闭形状)和多视角观察,从训练视角恢复 真实的物体与场景几何,克服了这些限制。

具体而言,我们的方法采用 联合泊松场(Joint Poisson Fields) 来重建物体和场景的形状指示符,以解决物体与场景的 交叉区域问题。直接使用高斯中心点可能会导致物体重建出现 表面偏差,因为混合渲染会引入伪影。为避免此类问题,我们采用 基于平面的 GS 方法,使用 无偏深度图创建 代理点,以实现更真实的物体重建。此外,我们引入 单向负交叉熵 方法进行 多视角雕刻,以优化几何结构,使其与观测视角对齐。

DecoupledGaussian 是首个 无需 2D 修复 即能独立恢复物体和接触表面几何结构的系统。2D 修复仅用于 纹理属性的优化。我们在真实视频数据集上进行了大量实验,包括 新的解耦基准(decoupling benchmark),并结合 用户研究、定量比较和消融实验,验证了我们的方法在 恢复精确 3D 属性和实现精准交互仿真 方面的有效性。

项目链接:https://wangmiaowei.github.io/DecoupledGaussian.github.io/

主要贡献

  • 开发了一种物体-场景交互式仿真系统,该系统允许物体在由 自然场景视频 重建并表示为 GS 后,与接触表面完全分离。
  • 引入几何先验,利用联合泊松场 和 多视角观察 结合 单向负交叉熵(UNCE),提升 GS 中的 几何属性恢复能力

具体方法

DecoupledGaussian 系统从重建的高斯喷溅 GS 场景开始,允许静止在平面表面的物体在仿真中实现合理的分离运动,如图 3 所示。首先,物体被分割出来,并采用基于平面的 GS 使高斯点对齐到底层的场景几何结构。在物体与场景分离后,系统利用几何先验信息,通过联合泊松场 Joint Poisson Fields 修复物体和场景的破损表面。对于物体,代理点 proxy points 被用作泊松场的输入,并通过单向负交叉熵 Unilateral Negative Cross-Entropy 方法进行雕刻,以确保几何结构与训练视角对齐。然后,使用二维修复技术对高斯的纹理属性  进行优化,最后通过移动最小二乘-材料点法 MLS-MPM 进行物体和场景的实时交互式仿真。本节将详细介绍各个阶段的实现方法。

三维高斯准备

场景使用普通消费级相机自由录制,然后使用 COLMAP 进行内外部标定,并生成初始高斯中心点。

基于平面的高斯喷溅

仅依赖图像重建损失优化标准的三维高斯模型通常会陷入局部最优,使得几何提取变得困难,而准确的几何提取对于后续的修复阶段至关重要。为了避免这一问题,我们采用 PGSR 方法进行无偏深度  估计。

由于标准高斯分布的无序性,我们首先将高斯点压缩到与场景表面对齐的近似局部平面,通过最小化尺度项  进行优化,以在允许一定渲染质量损失的情况下提高几何精度。

压缩到平面后,我们为高斯点  分配法向量 ,其方向由视角方向确定。到图像平面的距离计算如下:

其中, 为从相机中心到高斯中心  的向量。最终,在像素  处的无偏深度计算如下:

其中, 为相机的内参矩阵, 为像素  的齐次坐标。压缩后的高斯点提供了单视角和多视角的几何正则化,以保证几何一致性,并通过曝光补偿来减少光照变化的影响。

高斯分割

我们采用 GS 分割方法,为每个高斯核  赋予语义亲和特征 ,并通过一个单层 MLP  将 -混合后的特征  映射到  个分割类别的概率分布,并使用 softmax 进行归一化。网络使用交叉熵损失进行训练,训练数据为 SAM2 生成的多视角二维分割标签。为了减少相邻高斯点之间的误分类,我们应用了局部特征平滑。

物体-场景修复

为了模拟物体  与其周围场景表面  的交互,我们首先需要将  从  中分离出来。具体方法是通过比较语义亲和特征  与像素点  处的 -混合特征 ,确定属于  的高斯点集。然后,利用 K 近邻方法去除表示残留伪影的临近高斯点。接下来,我们修复并补全  和 ,以实现真实的物理仿真。

联合泊松场

本方法的核心贡献之一是对 GS 的几何属性  进行几何修复,假设物体  和场景  是平滑、封闭的形状。基于泊松曲面重建与环绕数场的等价性,我们提出联合泊松场 Joint Poisson Fields,该方法利用异构约束同时修复  和  的几何结构。具体步骤如下:

  1. 通过屏蔽泊松重建计算场景表面  和物体表面  的指示函数  和 ,以隐式方式确保曲面具有最小曲率。
  2. 通过世界坐标变换,将  映射到  所在的网格中,并在交叉区域  处进行冲突解决,以确保  和  互不重叠。
  3. 从  生成密集内部点集 ,并应用 Marching Cubes 算法将  转换为网格 ,随后进行重网格化和裁剪,最终转换为世界坐标系。

代理点

由于 -混合效应,直接使用高斯中心点  可能无法准确表示  的复杂表面。为此,我们引入代理点  以增强泊松重建质量。

单向负交叉熵

泊松场通常会导致几何扩张,即额外填充了不属于  的体积。为了解决这一问题,我们提出单向负交叉熵进行多视角雕刻。具体公式如下:

其中, 为 SAM2 生成的二真实物体掩码, 为当前优化过程中物体的  值。

高斯恢复

对于场景  的修复,我们首先绑定新的平坦三维高斯到网格 ,并最小化其法向方向的缩放因子 。在后续优化中,仅优化纹理属性 ,而几何属性  设为固定值。

交互式仿真

我们利用 MLS-MPM 对修复后的高斯进行仿真,以支持用户施加冲击力、弹性形变、碰撞和断裂等交互场景。在 MLS-MPM 网格操作阶段,我们将场景  的网格节点速度设为零,以模拟粘附边界条件。此外,我们使用 RANSAC 估算平面法向量,以自动对齐重力方向。

实验效果

总结一下

本文提出了 DecoupledGaussian,这是一种快速且鲁棒的方法,能够从接触表面分离静态物体,并恢复其几何和纹理,以实现基于 MLS-MPM (Moving Least Squares Material Point Method) 模拟器的物体-场景交互。

局限性:本研究未涉及包含多个物体的复杂场景,特别是当物体之间具有不同的接触配置时。此外,物体恢复中的高频纹理补全仍然具有挑战性,未来可能需要借助基于 GS (Gaussian Splatting) 的纹理生成方法来提升细节质量。此外,如何进一步对个体物体的 精细组件 (fine-grained components) 进行分离仍是一个待解决的问题。

参考

[1] DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

#浅聊自动驾驶端到端的脉络整理

感知&预测&规划背景自动驾驶感知最近似乎进入瓶颈期,接近一年的时间Nuscenes障碍物检测榜单都不再有更新,而大模型如火如荼的发展把数据驱动的AI发展逻辑也代入了自动驾驶领域。这篇博客主要是想把最近关注到的一些自动驾驶端到端的论文整理一下,捋出一些有价值的思路和想法。

参考VAD的论文思路,我会把端到端整体划分为3部分:

  1. 感知端到端
  2. 预测端到端
  3. 规划端到端-端到端整体架构

感知端到端

感知端到端这一块主要涉及到多传感器融合和时序融合。我想从障碍物和车道线这2个领域分别调一篇比较有代表性的论文聊一聊。

  • 障碍物:Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

nuscensce视觉障碍物检测SOTA方案,整体架构延续DETR一派,新增维护memory队列,其中巧思很多,主要有一下几点:

  1. 可学习query中新增队列实例做初始化(注意速度,是否拿来做障碍物的位置编码残差项?)
  2. 按属性拆分的attention
  3. 在模型中做实例信息整合,而无需显式匹配,在记忆队列里维护实例id
  • 车道线:MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

选择这篇主要是思路和效果都不错,放个效果图大家感受一下~

这篇文章比较吸引我的一个点在架构上

这篇文章和上面的Sparse4D一样是维护了2个记忆队列,可以把这些记忆队列理解为车道线的隐藏状态,这个状态在时序迭代中是越来越切合实际的。可以着重关注一下Minit的2个feature,可以看到在推理的初始阶段这2个tensor是不包含什么信息的,随着推理,这2个tensor的信息实际上由t-1时刻的特征替代,整个架构的前一部分是做t-1 - > t时刻的预测,后一个阶段是做t-1和t时刻的特征融合和t时刻的状态估计,整个流程和卡尔曼滤波几乎别无二致,这也算是一种致敬吧,哈哈哈

思考点:这里的所有CA能不能参考LLM换成因果attention?

预测端到端

1. FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras

虽然是21年的文章,但是确实非常经典

文章的预测部分引入一个隐藏的状态,这个状态满足个元素相互独立的多元正态分布,通过网络预测其期望和方差,再通过分布采样一个状态作为当前时刻的隐藏状态,这个隐藏状态又作为输入用来预测下一时刻的环境。

个人觉得这样建模是比较好的体现了未来的不确定性。

2. Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction

把障碍物轨迹预测建模为多智能体+多运动模式的组合,核心点在下面这个公式,可以按MapTRV2的思路去理解,即智能体和运动模式看做正交的2个变量,通过2者间的组合可以构建其智能体运动空间

下面是不同运动模式的运动终点的可视化分析,可以看到不同运动模式的偏好

这篇文章的建模稍显复杂,感觉不是很必要,整体思路上参考一下就行了

规划端到端-端到端架构

这一部分主要介绍一下最近看的几篇比较流行的端到端架构,总结一下异同。

1. VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

首当其冲的这篇论文架构重点确实清新,指出了端到端的核心点,规划模块。实际上这篇论文很清晰的指出了规划模块的输入输出和约束。

输入包含几块:感知结果,原始图像信息,导航信息和自车运动信息。

输出:规划轨迹的概率分布

监督信号:实际轨迹与预测轨迹的KL散度

约束信息:地图和其他障碍物约束

图片

最后提一句损失函数,有3部分:

  1. 轨迹的概率分布之间的KL散度
  2. 碰撞等约束条件的冲突损失
  3. 感知的监督损失

这样重点清晰,逻辑自谦,可视化简洁的文章可真是懒人最爱~~~

2. Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

这篇文章与VAD师出同门,一样优秀的可视化功底,几张图基本把训练流程、模型架构和模块间相互支撑的关系讲清楚了

这篇是VLM结合端到端的文章,重点主要在VLM的设计上,以下是VLM关注的几个问题:

  1. 场景描述
  2. 交通灯状态
  3. VRU信息
  4. 其他障碍物的运动信息
  5. 自车的运动规划
  6. 运动规划的解释

这几个问题解释了规划的逻辑并为端到端提供高级的驾驶意图指导

这个图展示了VLM和E2E的信息交互,2个模块间的相互支撑很明显

2.1 DRIVEVLM: The Convergence of AutonomousDriving and Large Vision-Language Models

DriveVLM的架构跟Senna很像,都是VLm和E2E并行交互,但是某种程度上来说DriveVLM走的更远一些

上面是DriveVLM的架构,VLM的推理部分更加格式化,且推理之间的递进关系可能能帮助其推理逻辑更加缜密

VLM推理的3步:

  1. 分析理解场景,找出关键障碍物
  2. 分析关键障碍物,给出其状态和其与自车的交互信息
  3. 生成驾驶意图,分为3层:

3.1 meta-action:意图动作

3.2 decision:动作规划

3.3 Waypoints:具体的轨迹点

还给出了推理标注流程,数据集构建流程:

  1. 长尾目标挖掘和挑战的场景挖掘
  2. 人工过滤
  3. 关键帧挑选
  4. 场景标注
  5. 人工校验

3. EMMA: End-to-End Multimodal Model for Autonomous Driving

这篇文章是纯VLM支撑的端到端自动驾驶,输入图像和文本信息,输出感知和规划路径

基于CoT的规划,推理部分包含4个主题:

  1. 场景理解
  2. 关键目标
  3. 关键物体的行为描述
  4. 元决策(例如保持低速直行)

方案有些激进,但是一体化的思路值得参考

4. RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based

Reinforcement Learning

提出利用GS多视角图像,支持训练的反馈闭环

3阶段训练:

s1:感知预训练

s2:规划预训练

s3:规划策略网络强化学习

同时使用PPO强化学习和模仿学习

强化学习的4种反馈信息,GS生成能比较好的模拟这些corner case:

  1. 动态障碍物碰撞
  2. 静态账务碰撞
  3. 位置偏移专家轨迹
  4. 航向角偏移专家轨迹

#Omni-Scene

以自车为中心的3D场景重建大模型

图片

本文是西湖大学刘沛东教授团队在场景级3D重建大模型领域的最新研究成果,相关论文已被 CVPR 2025 接收,代码/数据/模型权重已开源。

工作简介

背景与动机

此前3D重建大模型工作如LGM、pixelSplat、MVSplat等,主要关注以物体或场景为中心(Scene-Centric)的多视角重建,其要求输入图像之间存在较大的视角重叠,在应用时往往需要围绕物体或场景拍摄多张图像或视频。

这种较为低效的输入采集方式,不适用于对实时性要求很高的自动驾驶或具身智能领域的应用,其最理想的情况是:基于车辆/机器人当前位置所拍摄的图像,即可重建场景的3D外观和结构,使得智能系统可以在空间层面进行即时的交互和理解。

本文基于此观察,旨在研究一种以车辆/机器人为中心(Ego-Centric)的多视角3D重建大模型,无需围绕场景移动,基于单帧所拍摄的多视角图像,即可实现即时的大规模场景3D重建。

从上述目标出发,本文发现限制此前方法仅适用于以物体或场景为中心(Scene-Centric)重建的一个重要原因在于:此前方法所使用的像素对齐的3D表示方式,依赖于输入图像间的视角重叠来获取深度信息,从而将2D图像信息升维至3D空间,实现3D层面的重建相关参数的预测(如:NeRF、3DGS)。因此,本文试图从3D表示上改进来避免该问题。受基于体积3D表示的3D感知领域工作(如:BEVFormer、TPVFormer)的启发,本文认为体积表示可以直接在3D层面融合多视角的2D特征,无需预测深度,可以很好地补足此前基于像素表示的缺陷。

故而本文对不同3D表示的特点进行了如图1所示的分析,可以看到对于像素表示,其沿相机射线方向做反投影的方式有2个缺陷:(1)无法预测被遮挡的物体;(2)无法重建视锥以外的空间。而体积表示则恰好避开了这两个缺陷,然而其也存在2个问题:(1)受限于长宽高范围,无法表示远处的建筑或天空等;(2)受限于O(n3)的复杂度,难以精细化表示场景外观。这2个问题又正好被像素表示所弥补。

图1. 基于不同表示进行3D重建的示意图和效果对比

图1. 基于不同表示进行3D重建的示意图和效果对比

考虑到上述不同表示的优缺点及其互补性,本文提出了一种新颖的Omni-Gaussian表示方法,并为其精心设计了网络框架,从而对此前表示方法取长补短,实现不依赖于多视角重叠的Ego-Centric场景重建。在nuScenes数据集上的大量实验表明,本文所提出的基于Omni-Gaussian表示的方法在Ego-Centric重建任务上相比于此前方法具有巨大优势,证明了本文方法的有效性。此外,同2D图像生成方法如MagicDrive结合,本文还可实现多模态控制的3D场景生成,为前馈式(feed-forward)的场景级3D生成开辟了一种可能性。​

技术方案

1. 整体框架:
如图2所示,本文的整体框架由共享多视角图像特征的体积分支(Volume Builder)和像素分支(Pixel Decorator)构成,它们分别用来预测基于体素和像素的3D高斯球参数,并通过对齐融合重建完整的3D场景。以下是每个分支的具体方法介绍。

图2. Omni-Scene方法的总体框架

图2. Omni-Scene方法的总体框架

2. 体积分支(Volume Builder):
如图2(b)所示,体积分支采用稀疏的三平面(triplane)特征以节省计算开销,其通过三个平面的特征插值获取每个体素位置的特征,并预测以体素为锚点(anchor)的3D高斯球,以实现粗粒度的3D场景重建,描绘其大体结构。为了将2D图像特征转换到triplane,本文借鉴3D感知工作中常用的可变形注意力机制(Deformable Attention),从2个维度对triplane特征进行编码和增强。其一,为了将多视角2D图像特征升维至3D,本文先将triplane每个位置扩展成柱状空间体素,接着利用相机参数确定体素的3D坐标对应哪些2D图像坐标,并通过可变形注意力为每个体素抽取其空间上相关联的局部2D特征,以获得3D层面的特征编码。其二,为了促进triplane不同平面特征的对齐与融合,本文将每个平面所扩展的柱状体素投影到另外2个平面,并通过可变形注意力融合其相关联的另外2个平面上的局部3D特征,以实现3D层面的特征增强。以上两种可变形注意力机制的公式如下:

图片

图片

其中,CIDA和CPDA分别对应triplane到2D图像、triplane各平面之间的两种注意力操作。

3. 像素分支(Pixel Decorator):
如图2(c)所示,像素分支采用了多视角U-Net网络(Multi-View U-Net),并在网络的每一层施加多视角特征间的交叉注意力机制,以促进相邻视角间的信息交互。基于网络末端输出的多个视角的像素特征,可以预测每个视角的像素深度和对应的3D高斯球参数,其映射到3D空间后可实现细粒度的3D场景重建,用于为体积表示所重建的粗粒度场景补充外观细节。为了降低Ego-Centric场景下深度预测的难度,本文还提出用Metric3D-v2粗略预测像素深度,用于初始化3D高斯球的位置,发现其可提升像素分支的重建效果。上述基于像素到3D空间映射的3D高斯参数映射可由如下公式表示:

图片

其代表根据深度将相机坐标沿像素的射线方向移动并施加offset偏移。

4. 不同表示间的互补机制(Volume-Pixel Collaboration):
本文的一个核心目标是促进上述两种表示的互补,考虑到两种表示的不同特性,本文提出了如图2所示的2个维度的设计。其一为Featrure Projection,为了促进两种表示在3D空间上的对齐,使得它们能够各自感知到另一种表示需要被补足的空间区域,本文提出将通过深度映射至3D空间的像素特征投影到triplane的各个平面上,以使得两种表示的特征在3D空间是互补对齐的。其二为Training Decomposition,考虑到体积表示长宽高受限的空间范围,其不适用于重建HWZ范围外的场景,本文提出基于像素表示所预测的深度,对本文的训练目标进行解耦。具体地,本文基于每个target视角所预测的深度将像素坐标投影到3D坐标,并将这些3D坐标中位于自车HWZ范围外的像素筛选出来,不计入损失函数的计算,使得体积表示可以专注于HWZ体积内的3D重建,并让像素表示来补充HWZ体积外的3D重建。因此,本文的总体损失函数如下:

图片

其由full和volume两部分组成,以实现训练目标的解耦。​

实验结果分析

本文基于nuScenes构建了一个Ego-Centric稀疏视角3D场景重建任务,并展开了实验,其包含135,941个训练场景和30,080测试场景。同时,本文还在RealEstate10K数据集上进行了实验,用于验证方法在Scene-Centric任务上的兼容性。从表1可以看出,本文方法在两个数据集的新视角合成和深度预测任务上的效果都显著优于此前基于像素表示的SOTA方法(包括:pixelSplat、MVSplat),验证了Omni-Scene方法的有效性。此外,表2的消融实验详细论证了本文各模块的性能增益,验证了本文各项设计的有效性。

表1. Omni-Scene方法与SOTA的对比

表1. Omni-Scene方法与SOTA的对比

表2. Omni-Scene方法的消融实验

表2. Omni-Scene方法的消融实验

总体来说,基于6张Ego-Centric的环视多视角图像,本文的Omni-Scene方法可以在0.1秒内完成3D场景的重建。以下图3展示了我们在重建的3D场景中进行新视角合成的效果。

图3. Omni-Scene方法的新视角合成效果

图3. Omni-Scene方法的新视角合成效果

此外,通过与自动驾驶domain的2D图像生成方法MagicDrive结合(即:先生成多视角2D图像,再重建3D场景),本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成,初步探索了场景级的前馈式(feed-forward)3D生成的可能性,拓宽了本文方法的应用场景。

图4. Omni-Scene方法的3D场景生成效果

图4. Omni-Scene方法的3D场景生成效果

个人和团队信息

韦东旭

本文第一作者,浙江大学博士毕业,曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究,目前在西湖大学计算机视觉和几何深度学习实验室担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。​

西湖大学-计算机视觉和几何深度学习实验室

该实验室由刘沛东教授创立。刘沛东教授博士毕业于苏黎世联邦理工学院(ETH Zurich),师从 Marc Pollefeys 教授和 Andreas Geiger 教授,2021年获得计算机科学专业科学博士学位后加入西湖大学,目前已在CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA、TRO等国际顶级会议或期刊上发表论文40余篇。团队研究主要集中在三维计算机视觉、机器人和具身智能等领域,成员均来自上海交大、同济、西安交大、美国西北大学等海内外知名高校,拥有计算机科学与技术、自动化、机械电子等多专业背景。欢迎大家前来访问交流与合作。

#AlphaDrive

首创GRPO方案!VLM+RL破解自动驾驶长尾难题

OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平,强化学习(RL)和推理在其中发挥了关键作用。在自动驾驶领域,最近的端到端模型极大地提高了规划性能,但由于常识和推理能力有限,仍然难以应对长尾问题。

一些研究将视觉-语言模型(VLMs)集成到自动驾驶中,但它们通常依赖于预训练模型,并在驾驶数据上进行简单的监督微调(SFT),没有进一步探索专门为规划设计的训练策略或优化方法。本文提出了 AlphaDrive,一个针对自动驾驶中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四个基于 GRPO 的 RL 奖励,专门用于规划,并采用结合 SFT 与 RL 的两阶段规划推理训练策略。结果表明,与仅使用 SFT 或不进行推理相比,AlphaDrive 显著提升了规划性能和训练效率。此外,我们还兴奋地发现,在 RL 训练之后,AlphaDrive 展现出了一些新兴的多模态规划能力,这对提高驾驶安全性和效率至关重要。据我们所知,AlphaDrive 是首个将基于 GRPO 的 RL 与规划推理集成到自动驾驶中的框架。代码将被发布以促进未来的研究。

  • 论文链接:https://arxiv.org/abs/2503.07608
  • 代码链接:https://github.com/hustvl/AlphaDrive

图片

引言

近年来,自动驾驶技术取得了快速进展,端到端自动驾驶成为最具代表性的模型之一。这些模型以传感器数据为输入,利用可学习的神经网络规划车辆未来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数持续改进规划能力。然而,由于其黑箱特性与常识推理能力的缺失,端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。例如,当前方车辆携带交通锥行驶时,端到端模型可能无法理解前车与交通锥的关系,误判道路施工不可通行,从而做出错误的制动决策。因此,仅依赖端到端模型实现高级别自动驾驶仍存在显著局限性。

随着GPT的成功,大型语言模型(LLMs)展现出卓越的理解与推理能力,并逐步从单模态文本理解扩展到多模态视觉-语言处理。视觉-语言模型(VLMs)的常识与推理能力为缓解端到端模型的缺陷提供了潜在解决方案。

近期,OpenAI o1通过集成推理技术,在编程等领域达到甚至超越人类专家水平。DeepSeek R1则利用强化学习(RL),不仅展现出“涌现能力”并取得顶尖性能,且训练成本显著低于其他模型。这些进展凸显了推理技术与强化学习在大型模型开发中的巨大潜力。

现有将VLMs应用于自动驾驶的研究可分为两类:

  1. 驾驶场景理解:利用VLMs解析场景语义;
  2. 规划决策:部分研究将VLMs作为端到端系统,直接根据输入图像生成轨迹。然而,与专为轨迹规划设计的端到端模型不同,VLMs的输出空间为离散语言符号,难以直接生成精确数值预测,可能导致性能不足或安全隐患。

部分研究尝试通过自然语言描述高层动作(如“减速右转”)规避上述问题,但仍缺乏对训练方法的深入探索。多数工作仅依赖监督微调(SFT),忽视了不同训练策略对规划性能与训练效率的影响。

本文探讨以下核心问题:
如何将强化学习与推理技术(在通用大模型中取得显著成功的方法)应用于自动驾驶规划,以提升VLMs的性能并降低训练成本?

通过初步实验,我们发现直接应用现有RL与推理技术效果欠佳,主要归因于以下三方面:

  1. 奖励设计不匹配:通用任务的RL奖励(如视觉计数任务的正确性判断)难以适应规划需求。自动驾驶中,不同驾驶行为的重要性差异显著(如制动与加速),需设计权重差异化的奖励机制。
  2. 多解性挑战:规划问题通常存在多个合理解(如直行道路可选择匀速或加速),需避免强制对齐单一真值标签。
  3. 推理数据匮乏:自动驾驶缺乏现成的规划推理数据集,人工标注成本高昂,直接应用现有推理技术困难。

针对上述挑战,本文提出AlphaDrive——首个将基于GRPO的强化学习与规划推理集成到自动驾驶的框架。具体贡献如下:

  • GRPO强化学习策略:采用Group Relative Policy Optimization(GRPO),相比PPO和DPO,其组间相对优化策略更适配规划的多解性,实验表明GRPO训练的模型展现出涌现的多模态规划能力。
  • 四维奖励设计
  • 规划准确性奖励:基于F1分数评估横向(方向)与纵向(速度)决策一致性;
  • 动作加权奖励:根据安全关键性为不同动作分配权重(如制动权重高于匀速);
  • 规划多样性奖励:鼓励生成多样化可行解,防止模式坍缩;
  • 格式规范奖励:强制输出结构化格式(如​​<answer>​​标签),提升训练稳定性。
  • 两阶段训练范式
  • 阶段一(SFT知识蒸馏):利用大模型(如GPT-4o)生成高质量规划推理数据,通过SFT实现推理过程蒸馏;
  • 阶段二(RL探索):在SFT基础上进行RL微调,缓解早期训练的不稳定性和幻觉问题。

实验表明,与仅使用SFT或无推理的模型相比,AlphaDrive在规划准确率上提升25.52%,且在仅20%训练数据下性能超越SFT模型35.31%。此外,RL训练后模型涌现出多模态规划能力(如复杂场景生成多个合理决策),为提升驾驶安全与效率提供了新方向。据我们所知,AlphaDrive是首个将GRPO-based RL与规划推理结合的自动驾驶框架,代码将开源以推动后续研究。

相关工作回顾

视觉-语言模型
自GPT发布以来,大型模型的能力已从单模态扩展到多模态。大型视觉-语言模型(VLMs)在视觉理解与推理任务中展现出卓越性能。早期研究尝试将视觉模型与大型语言模型(LLMs)结合:Flamingo通过视觉编码器处理视觉信号,并在LLM解码器中引入注意力层以实现跨模态交互;BLIP提出Q-Former架构和跨模态对比学习任务,以桥接视觉编码器与LLMs;LLaVA采用简单的MLP作为视觉与语言模块的连接器,仅用有限数据即实现强大的视觉理解能力。QwenVL系列进一步优化了视觉模块,支持高分辨率和动态分辨率图像输入,并在多语言任务和空间感知中表现优异。

强化学习与推理
自回归学习是LLMs的主流预训练策略,而强化学习(RL)与推理技术进一步增强了模型能力。例如,GPT采用基于人类反馈的强化学习(RLHF),将人类意图和偏好融入训练过程;直接偏好优化(DPO)通过优化偏好反馈提升模型性能。Group Relative Policy Optimization(GRPO)引入组间相对优化策略,通过多组输出的相对优劣提升训练稳定性和效果。

DeepSeek R1基于GRPO训练时经历了“顿悟时刻”(Aha Moment),模型在无显式引导下自主增加问题思考并重新评估初始方案,展示了RL在推动模型从模仿转向涌现智能中的潜力。本实验中,我们同样观察到,经过GRPO-based RL训练后,AlphaDrive展现出多模态规划能力,可生成多组合理驾驶方案,为提升驾驶安全与效率提供了可能。
在推理领域,Chain-of-thought通过分步分解复杂问题显著提升解决能力。OpenAI o1基于该方法,结合推理时扩展(如蒙特卡洛树搜索MCTS和集束搜索Beam Search),在科学和编程等需复杂推理的领域取得突破,表明除扩展模型参数与数据外,提升推理时计算量亦是重要方向。

自动驾驶规划
规划是自动驾驶的核心任务。早期基于规则的算法通用性与效率受限。近期,端到端模型通过统一神经网络直接从传感器数据输出轨迹或控制信号,利用大规模驾驶演示数据驱动训练,显著提升规划性能。然而,端到端模型因缺乏常识与推理能力,仍难以应对长尾场景。

VLM在自动驾驶中的应用
VLM的常识与推理能力可有效弥补端到端模型的不足。在机器人领域,视觉-语言-动作(VLA)模型通过理解指令执行复杂动作,VLM生成规划指令后由动作模型转换为控制信号。

自动驾驶领域亦有相关探索:DriveGPT4以视频为输入,直接预测控制信号;ELM利用跨领域视频数据提升VLM在驾驶任务中的性能;OmniDrive提出稀疏3D令牌表征场景,输入VLM进行理解与规划。

部分研究结合VLM与端到端模型:DriveVLM首次将VLM用于低频轨迹预测,端到端模型生成高频轨迹;Senna提出VLM负责高层规划、端到端模型执行低层轨迹预测的框架。此外,多数据集与基准推动了VLM在自动驾驶中的应用。然而,现有工作多依赖预训练模型与简单SFT,缺乏针对规划的训练策略探索,需进一步将RL与推理技术引入自动驾驶领域。

详解AlphaDrive

图片

概述

AlphaDrive 是专为自动驾驶规划设计的视觉-语言模型(VLM)。与以往仅依赖监督微调(SFT)的方法不同,我们探索了强化学习(RL)与推理技术的结合,以更好地适配驾驶规划的独特特性:

  1. 不同驾驶行为的重要性差异(如制动比匀速行驶更关键);
  2. 多解性(如直行道路可选择加速或保持速度);
  3. 规划推理数据的匮乏

为此,我们提出四个基于GRPO的RL奖励函数,并设计结合SFT与RL的两阶段规划推理训练策略。实验表明,与仅使用SFT或无推理的模型相比,AlphaDrive在规划性能与训练效率上均显著提升。以下详细阐述各模块的设计。

面向规划的强化学习

强化学习算法

当前主流RL算法包括PPO、DPO和GRPO。给定查询,GRPO从旧策略中采样一组输出,并通过最大化以下目标优化新策略:

其中,,和为超参数,优势通过组内奖励归一化计算。

选择GRPO的原因:

  1. DeepSeek R1[14]验证了GRPO在通用领域的有效性,其训练稳定性与效率优于PPO和DPO;
  2. GRPO的组间相对优化策略天然适配规划的多解性。实验进一步表明,GRPO训练的模型展现出更强的规划能力。

规划奖励建模

规划准确性奖励
数学或编程领域可通过最终答案是否正确直观判定奖励,但规划需同时考虑横向(方向)与纵向(速度)决策。我们采用F1分数分别评估两者的准确性。初期直接匹配真实标签导致训练不稳定,最终采用F1分数以避免模型学习“输出所有可能动作”的捷径策略。

动作加权奖励
不同动作对安全的重要性不同(如制动权重高于匀速)。为此,我们为动作分配权重,将其作为奖励的加权分量。

规划多样性奖励
规划本质为多模态任务。为避免模型收敛到单一解,我们鼓励生成多样化可行解:当输出差异较大时提高奖励,反之降低奖励。

规划格式奖励
要求输出严格遵循​​​<answer>​​​标签格式(如​​<answer> decelerate, left_turn</answer>​​),未遵循则奖励为0。

奖励计算流程详见算法1。最终,规划质量奖励(准确性×权重×多样性)与格式奖励共同用于GRPO损失计算。

图片

推理:大模型知识蒸馏

自动驾驶缺乏现成的规划推理数据,人工标注成本高昂。为此,我们利用大模型(如GPT-4o)从少量驾驶片段生成高质量推理数据:

  1. 输入:真实驾驶动作、车辆状态与导航信息;
  2. 输出:简洁的决策过程(如“前方绿灯,但行人待穿行,故减速”)。

经人工筛选后,通过SFT将推理过程蒸馏至AlphaDrive,显著提升其推理能力。

训练:SFT预热与RL探索

RL依赖稀疏奖励信号,而SFT基于稠密监督更适配知识蒸馏。此外,仅使用RL易导致训练初期不稳定。因此,我们采用两阶段训练:

  1. 阶段一(SFT预热):使用少量数据蒸馏大模型推理过程;
  2. 阶段二(RL探索):在全量数据上微调,提升模型鲁棒性与多模态规划能力。

实验结果分析

实验设置

数据集
我们采用MetaAD作为训练与评估基准。该数据集包含12万段真实驾驶片段(每段3秒),覆盖多传感器数据与感知标注,并保持各类驾驶环境与规划动作的平衡分布。其中11万段用于训练,1万段用于验证。此外,我们从训练集中采样3万段数据生成规划推理过程。

训练细节
以Qwen2VL-2B为基模型,输入包括前视图像与包含当前车速、导航信息的提示词(如“直行100米后右转”)。训练使用16块NVIDIA A800 GPU。

评估指标

  1. 元动作规划准确性:计算横向(直行/左转/右转)与纵向(保持/加速/减速/停止)动作的F1分数,并综合为整体规划准确率;
  2. 推理质量:通过BLEU-4、CIDEr、METEOR评估生成推理过程与标注的相似度。

主要结果

表1显示,AlphaDrive在MetaAD上的规划准确率达77.12%,较次优模型Qwen2VL-7B提升25.5%。关键动作(如转向与加减速)的F1分数显著提高,推理质量亦优于其他模型,验证了两阶段训练策略的有效性。

图片

表2的消融实验表明:

  • 基础准确性奖励(ID1)因格式不匹配导致性能偏低;
  • 格式奖励(ID2)小幅提升稳定性;
  • 动作加权奖励(ID3-4)显著优化关键决策;
  • 多样性奖励(ID5-6)进一步防止模式坍缩。

图片

表3对比不同训练策略:

  • SFT+RL在复杂动作(如减速)上的F1分数提升15%以上,推理能力优于纯SFT或RL模型;
  • RL训练在数据量有限时(如20K样本)表现更优,仅需20%数据即可超越SFT模型35.31%(表4)。

图片

消融实验

奖励函数设计

  • 规划准确性奖励(F1分数)避免模型学习“输出所有动作”的捷径策略;
  • 动作加权奖励提升安全关键动作(如制动)的权重;
  • 多样性奖励通过惩罚重复输出,鼓励生成多组可行解;
  • 格式奖励确保输出结构化,提升训练稳定性。

训练策略

  • SFT预热缓解RL早期训练的不稳定性;
  • RL探索通过GRPO优化多解性与安全性,实验显示模型在复杂场景中涌现出多模态规划能力(图3)。

图片

多模态规划能力涌现

图3所示,AlphaDrive在复杂场景(如前方车辆缓慢行驶)中可生成多个合理决策(如减速左转超车或停车等待),而SFT模型仅输出单一动作。此能力可与下游动作模型结合,动态选择最优方案,提升驾驶安全性与效率。

结论与局限性

结论
本研究提出了AlphaDrive——一种面向自动驾驶规划的视觉-语言模型(VLM)。与以往仅依赖监督微调(SFT)的方法不同,我们探索了强化学习(RL)与推理技术在规划任务中的结合。具体而言,AlphaDrive引入了基于GRPO的规划导向RL策略,并设计了两阶段规划推理训练范式。据我们所知,AlphaDrive是首个将RL与推理技术应用于自动驾驶规划的框架,显著提升了性能与训练效率。

局限性
当前版本仍存在以下不足:

  1. 复杂行为标注数据不足:由于缺乏丰富的标注数据,AlphaDrive尚无法输出车道变换或绕行等复杂驾驶行为;
  2. 伪标签质量依赖:规划推理数据来自大模型基于真实驾驶动作生成的伪标签,其感知准确性可能影响数据质量,需进一步闭环验证以提升性能上限。

未来工作将聚焦于通过数据增强与系统验证优化模型能力,推动自动驾驶规划技术的实际应用。

#奔驰中国大比例裁员

赔偿N+9,销售体系是重灾区

奔驰中国本轮裁员主要涉及销售、汽车金融两个体系,裁员比例约为 15%。

奔驰中国内部传言已久的裁员,终于落地了。

我们独家了解到,奔驰中国在今天约谈了部分员工,当天即启动裁员,裁员比例约为 15%。本轮裁员主要涉及销售、汽车金融和零部件等体系,公司主体主要是梅赛德斯-奔驰(中国)汽车销售有限公司、梅赛德斯-奔驰汽车金融有限公司,研发体系暂未涉及。

被裁员工除了可以获得 N+9 的赔偿外,如果未来两个月没有入职新公司,奔驰中国还会为其额外发放 3 月和 4 月的工资。这意味着,奔驰中国最高的赔付相当于 N+11。

在外资车企的裁员中,奔驰的赔偿还算丰厚。去年 10 月,大众中国启动裁员,提供的赔偿最高是 N+6;更早之前,去年 4 月,特斯拉中国的裁员赔偿是 N+3。

一位接近奔驰中国的人士告诉我们,这次是 “普裁”,销售、金融两家公司几乎每个部门都参与了。被裁的员工中,大比例是 “无固定期限” 劳动合同的雇员。

按照奔驰中国的传统,员工首次签约的合同期限一般是签三年,第一次续签的合同期限一般是两年,再次续签,会签订无固定期限的劳动合同。这意味着,很多被裁员工,都在奔驰中国工作了五年以上。

对于奔驰中国各个板块的员工而言,裁员的消息从去年下半年开始流传。公布裁员的前一天,2 月 25 日,奔驰中国刚刚开完 Town Hall(员工大会),虽然梅赛德斯-奔驰集团董事会主席康林松亲未到场,但一位参与的员工告诉我们,会上虽然没有明确提及裁员,对于将发生的事情,大部分员工已有心理准备。

就在一周之前,2 月 20 日,奔驰发布了 2024 财年业绩报告,全年营收为 1456 亿欧元(约合人民币 11126 亿元),同比下降 4.5%;息税前利润(EBIT)为 136 亿欧元(约合人民币 1035 亿元),同比下降 31%;净利润 104 亿欧元(约合人民币 794 亿元),同比下降 28%。

对于业绩的下滑,奔驰解释称,主要是因为销量减少,尤其在中国市场。2024 年奔驰在华销量为 71.4 万辆,同比下滑 6.7%。中国是奔驰的最大单一市场,这导致其全球销量同比下降 3% 至 198.3 万辆。

销量的下滑影响了奔驰中国区域的财务表现。2024 年,奔驰在中国的营收为 231.39 亿欧元(约合人民币 1759 亿元),同比下降 8.5%。

奔驰预计业绩和财务的压力,还会持续数年,因此至少在 2027 年之前,会持续推进固定成本的削减举措。

财报会上,康林松称,“为了确保公司的竞争力,我们正在采取措施,使公司更快、更精简、更强大。” 裁员即是举措之一,除了中国区域,奔驰也会在其他国家和地区推进裁员。

尽管销量业绩和盈利能力都在下滑,但奔驰依然需要维持较高水平的研发支出,以期在 2027 年之后扭转局面。这也是为何此次裁员暂时没有涉及研发体系。

2024 年奔驰的研发支出为 97 亿欧元,接近历史高位。其中乘用车部门占据 87 亿欧元,主要用于对未来平台和科技的投资,特别是对全新一代操作系统 MB.OS。

MB.OS 是奔驰为下一代电动车自研的智能座舱系统,目标是在软件架构上追上市面上新势力电动车。但我们了解到,这套系统的开发进度已经落后。

按照计划,MB.OS 系统会随全新一代奔驰 CLA 一起量产。CLA 是奔驰下一代电动车的开篇,最早在 2023 年 9 月德国的车展上进行概念车亮相。

全新一代奔驰 CLA 在硬件层面已逐渐完善。我们了解到,早在 2023 年 11 月左右,这款车已经进入奔驰位于北京大兴的原型车工厂。

但因为 MB.OS 进度落后,全新一代 CLA 的量产(SOP)时间,已经由最初定的今年 5 月,推迟到了今年 9 月前后。

我们独家了解到,此前主要是奔驰德国的研发团队在负责 MB.OS 的开发,现在很多相关的研发项目都陆续转到中国。

一位奔驰中国的员工告诉我们,该公司在中国的研发中心(RDC),几乎是今年奔驰中国唯一还有一定规模招聘计划的机构了。

但对于销售体系的员工而言,奔驰重拾竞争力之前,他们始终要担心进一步的 “降本增效”。

按照奔驰在财报会上的说法,暂时 “不会对减员给出一个明确的数字”。一些奔驰中国的员工担心,如果未来再次裁员,这些没有 “无固定期限” 合同的员工,可能不会拿到这么高的赔偿了。

#MaskGWM

商汤力作!自动驾驶世界模型再进化~

预测环境变化的世界模型对于具有强大泛化能力的自动驾驶模型至关重要。现有的驾驶世界模型主要基于视频预测模型构建。尽管这些模型能够利用先进的基于扩散的生成器生成高保真视频序列,但它们的预测时长和整体泛化能力受到限制。为解决这一问题,本文探索将生成损失与MAE风格的特征级上下文学习相结合。具体而言,我们通过三个关键设计实现这一目标:(1)采用更具扩展性的扩散变换器(DiT)结构,并额外训练掩码构建任务;(2)设计与扩散相关的掩码令牌,以处理掩码重建与生成扩散过程之间的模糊关系;(3)通过使用行级别的掩码进行移位自注意力而非MAE中的掩码自注意力,将掩码构建任务扩展到时空领域。随后,我们采用行式跨视图模块以与这一掩码设计对齐。基于上述改进,我们提出了MaskGWM:一种融合视频掩码重建的泛化驾驶世界模型。我们的模型包含两个变体:专注于长期预测的MaskGWM-long和致力于多视图生成的MaskGWM-mview。在标准基准上的综合实验验证了所提出方法的有效性,包括Nuscene、OpenDV-2K和Waymo数据集的零样本验证。这些数据集上的定量指标显示,我们的方法显著提升了现有最先进驾驶世界模型的性能。

行业介绍

作为人工智能的关键应用之一,自动驾驶技术需要理解周围环境并执行正确动作。然而,对于现有方法而言,在复杂多变场景中泛化能力有限的问题仍未解决。例如,在天气变化、场景变异和运动模糊等情况中,感知性能可能会下降。解决这一问题的有效方法是使用世界模型,该模型可直接预测不同动作下的环境变化。这些模型有助于理解数据分布的复杂性,并像人类感知系统一样构建复杂的规律模式。

得益于基于扩散的图像生成系统的快速发展,最近一系列方法基于扩散模型构建世界模型。尽管能够生成高保真结果,这些方法仍面临长时预测和泛化能力的挑战。在这篇文章中,我们认为在构建自动驾驶通用世界模型方面仍存在两个问题。首先,大规模训练数据集与更具扩展性的变压器架构的结合仍在探索中。其次,一个基本问题仍未得到解答:基于扩散的生成损失是否足以构建一个通用的世界模型?由于扩散损失在像素级别操作,视觉语义的学习可能并不直接。另外,一些工作已表明扩散模型与自监督方法是互补的,有利于提高收敛速度和生成质量。基于上述分析,我们设计了MaskGWM,旨在提高现有方法的保真度、泛化能力和长时间序列预测能力。此外,通过集成多视图模块,我们的模型还能生成多视图案例。我们采用DiT作为主干网络,它更具扩展性,能够利用多种数据集的信息。此外,我们将掩码重建作为生成的补充任务。此外,通过自监督学习获得的特征在语义上更具意义,可以作为辅助监督进一步改善生成质量。然而,将现有的图像生成掩码重建集成到驾驶世界模型中并非直接可行,仍有两个问题需要解决:(1)如何增强扩散模型与掩码重建之间的协同作用。(2)我们应该使用哪种掩码策略来处理视频数据。

因此,MaskGWM引入如下策略来解决上述问题:(1)我们利用掩码标记来改善掩码重建与扩散模型之间的协同作用。(2)我们设计了一种针对时空域的双分支掩码重建策略。对于空间建模,我们使用在所有帧间共享的掩码,并通过空间变压器重建不可见标记。对于时间建模,我们引入各帧独立的掩码,并通过时间变压器恢复掩码标记。与空间分支不同,我们在掩码后直接连接时间维度上的未对齐标记,这相当于在行级别引入小范围的偏移。我们发现这个时间分支实现了在时间语境中预测掩码斑块和减少训练成本的双重目标。

网络模型结构&技术细节

在详细介绍了本文提出的算法模型技术细节之前,下图展示了我们提出的MaskGWM算法模型的整体网络结构,如下图所示。

图片

掩码重建技术。 在训练环节,DiT网络被划分为编码器和解码器。编码时,假设时间步的视频潜变量为,我们随机生成一个二元掩码将分为可见部分和不可见部分。在解码阶段,我们引入重建模块来处理不可见部分,对于不可见部分,我们统一使用掩码令牌初始化其特征表示。具体来说,我们通过学习一个小型的transformer 得到与初始维度相同的特征,具体公式为。为了强化生成过程与掩码重建之间的协同效应,我们提出了与扩散过程紧密相关的掩码策略。在扩散模型框架下,掩码重建可被视为预测任务,而矫正流则采用预测(即预测)。为了平衡这两个预测目标,我们引入了额外的噪声编码网络。由于是明确给出的,因此更容易在扩散过程中恢复原始的掩码重建目标。此外,我们还考虑了时间步的影响,将掩码令牌定义为.

掩码策略。考虑到时空域的特性,我们设计了两种掩码:和,前者关注空间上下文,掩码位置在不同帧共享;后者关注时序动态的建模,掩码位置在各帧独立;为了让两种不同的掩码关注各自的域,我们将设计为双分支transformer,对使用空间自注意力模块编码,对使用时间自注意力模块编码:

对于时间域的掩码,我们进一步的修改了时序自注意力机制,对于掩码的位置,我们直接将其重新紧凑化,由于每一帧被掩码跳过的令牌数相同,重新紧凑化的特征图大小在不同帧是统一的。然而,引入这一策略会导致时序自注意力机制的不对齐,我们认为只要这种不对齐只要是发生在小范围内的,就对模型的性能有正向的帮助,因此我们引入行级别的掩码设计,具体来说对于,每行掩码掉的令牌数是相同的。这一掩码设计能够带来如下两个好处,首先被丢弃的令牌可以直接在计算中跳过,导致更高的训练效率,其次,我们在实验中发现这一设计的效果会更好。

多视角设计。为了验证模型的泛化能力,除了在关注于预测时长的单视角任务外,我们还额外衡量了模型在多视角任务上的性能,为了支持这一能力,我们引入行级别的跨视角注意力机制,可以与之前的掩码策略对齐,使得我们可以在多视角任务中继续使用提出的掩码策略。

实验分析

我们展示了一系列广泛的实验来评估模型的性能,我们使用SD3作为基础模型,使用FID和FVD作为评测指标,在Nuscenes,OpenDV和Waymo数据集上评估了模型的性能:

1)与最先进的方法的比较

表1将研究方法与单/多视角最先进的方法进行了比较,同时我们对单/多视角分别对齐了评估策略,研究方法在图像生成质量和视频生成质量均优于最先进方法。

图片

2)消融实验

表3(a)比较了不同掩码令牌设计策略的效果,表3(b)比较了不同掩码策略的效果,实验结果显示,我们的模型在生成指标上有着显著的提升;表4(a)进一步地分析了行级别的掩码设计的影响,表4(b)验证了双分支使用独立的自注意力模块编码的影响,表4(c)验证了多视角模块的效果。

图片

#GaussTR

基于大模型对齐的自监督三维空间理解方法

本文提出了一种新颖的高斯变换器(GaussTR),通过与大模型对齐,推动自监督的三维空间理解。该方法促进了多功能三维表示的学习,并实现了无需显式标注的开放词汇占据预测。

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

Haoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu, Xinggang Wang

3D Semantic Occupancy Prediction is fundamental for spatial understanding as it provides a comprehensive semantic cognition of surrounding environments. However, prevalent approaches primarily rely on extensive labeled data and computationally intensive voxel-based modeling, restricting the scalability and generalizability of 3D representation learning. In this paper, we introduce GaussTR, a novel Gaussian Transformer that leverages alignment with foundation models to advance self-supervised 3D spatial understanding. GaussTR adopts a Transformer architecture to predict sparse sets of 3D Gaussians that represent scenes in a feed-forward manner. Through aligning rendered Gaussian features with diverse knowledge from pre-trained foundation models, GaussTR facilitates the learning of versatile 3D representations and enables open-vocabulary occupancy prediction without explicit annotations. Empirical evaluations on the Occ3D-nuScenes dataset showcase GaussTR's state-of-the-art zero-shot performance, achieving 11.70 mIoU while reducing training duration by approximately 50%. These experimental results highlight the significant potential of GaussTR for scalable and holistic 3D spatial understanding, with promising implications for autonomous driving and embodied agents. Code is available at this https URL.

三维语义占据预测是空间理解的基础,因为它提供了对周围环境的全面语义认知。然而,现有方法主要依赖于大量标注数据和计算密集型的体素建模,限制了三维表示学习的可扩展性和泛化能力。本文提出了一种新颖的高斯变换器(GaussTR),通过与大模型对齐,推动自监督的三维空间理解。GaussTR采用变换器架构,以前馈方式预测表示场景的稀疏三维高斯集合。通过将渲染的高斯特征与预训练大模型的多样化知识对齐,GaussTR促进了多功能三维表示的学习,并实现了无需显式标注的开放词汇占据预测。在Occ3D-nuScenes数据集上的实验评估表明,GaussTR在零样本性能上达到了领先水平,取得了11.70的mIoU,同时将训练时间缩短了约50%。这些实验结果凸显了GaussTR在可扩展和整体三维空间理解方面的巨大潜力,对自动驾驶和具身智能体具有重要的应用前景。代码可在https://github.com/hustvl/GaussTR获取。

Subjects:

Computer Vision and Pattern Recognition (cs.CV)

Cite as:

arXiv:2412.13193 [cs.CV]

图片

图片

图片

图片

#GoalFlow

中科院&地平线:解锁端到端生成式策略新未来~

论文地址:https://arxiv.org/abs/2503.05689

代码地址:https://github.com/YvanYin/GoalFlow

简介

在自动驾驶场景中,往往不仅只有一条最优的轨迹。例如对于某些场景,车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹,通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效,且能生成安全精准的轨迹,但是很难对多模态轨迹进行有效的建模。

最近的一些方法希望通过以扩散模型为代表的生成式方法来建模轨迹的多模分布。这种训练加噪、推理去噪的范式能捕捉到数据的多峰分布,在轨迹规划的过程中为其提供大量发散的候选轨迹。但是这种发散轨迹会大大提高选择轨迹的难度,这往往需要比较强的先验信息,例如全场景的高精地图。另外,传统的扩散方法往往需要多步去噪,这大大提高了自动驾驶硬件的负担。

为了解决这个问题,我们提出了一种基于goal point的生成式方法GoalFlow,通过goal point引导轨迹规划模块生成轨迹。一方面,我们设计了一套map-free的goal point评估机制,能很好地捕捉到goal point的分布信息。另一方面,我们引入了一种更加高效的扩散模型变体,Flow Matching,通过简洁的扩散路径实现推理步数的大幅度减少。我们发现仅用一步去噪即可达到远超基线的效果。

方法

图片

核心思路:引入goal point作为引导信息,通过建立密集的goal point词汇表和相应的评分机制挑选最优goal point,再由goal point和场景信息作为condition,由Flow Matching建模最终的轨迹分布。

pipleline:

  • 感知信息提取:感知特征采用transfuser框架,分别由两个分别的backbone提取image和lidar的信息,将两种信息进行融合后得到BEV feature。
  • goal point词表:为了使得goal point词表能很好地捕捉到驾驶场景中的分布信息,我们首先通过聚类数据集中的轨迹末端点得到一个密集的goal point词表
  • goal point评分机制:通过goal point和ground-truth的轨迹末端点以及是否在可行驶区域内,对词表中的goal point进行打分。
  • Flow Matching建模:词表中的最高分goal point和BEV feature作为condiiton,来引导Flow Matching生成轨迹。
  • 轨迹后处理:对于Flow Matching生成若干轨迹,通过筛选出的goal point进行打分,并引入阴影轨迹来对轨迹进行矫正。

Goal Point评分机制:

图片

在自动驾驶中,对控制信息的精度往往要求比较高。我们发现对于Diffusion以及其变体Flow Matching,goal point可以对轨迹进行很好的约束和引导。这既可以用来引导多模态也可以用来对车辆进行精确控制。

goal point在自动驾驶中并不是个新事物,实际业务中往往可以使用车道信息来构造goal point或者使用直接将导航作为引导。但是车道信息往往需要昂贵的高精地图,而导航往往并不表示车辆在未来几秒后的精确信息。我们借鉴了VADv2的思想,通过聚类来捕捉goal point的分布,并用类似分类的方法来对聚类出来的goal point词表进行打分。具体来说我们分别构造了词表中点和ground-truth末端点的softmax,以及词表中点是否在可行驶区域作为gt信息,通过Scorer decoder对这两种信息进行监督。在推理时对这两种分数进行融合挑选出分数最高的点作为condition。

Flow Matching:

在图像生成领域已经验证了Flow Matching的强大建模能力。相比之前的Diffuison方法,Flow Matching有更加简洁的加噪去噪路径,往往需要更少的去噪步数即可达到很好的效果。但是直接训练很难平衡好场景信息和goal point信息对轨迹的引导作用。我们在训练过程中分别对不同的condition进行类别编码,并参考classifer-free guidance对其中的feature进行随机的置零。

实验结果

图片

我们在最新的端到端驾驶数据集NAVSIM进行了实验。NAVSIM采用PDM score,通过碰撞率,可行驶区域,舒适率等对生成轨迹进行综合评定。GoalFlow的PDM score远超以transfuser为代表的基线方法。同时我们尝试将goal point替换成ground-truth轨迹的末端点,发现得分非常接近人类的驾驶分数,这说明goal point是一个非常好的对轨迹精调的condition。

图片

在训练时采用100步数的条件下,我们对推理时的步数进行实验。实验发现,Flow Matching对推理步数不敏感,即使是一步推理,依然能达到远超基线的效果。

图片

对比其他方法,GoalFlow借助goal point的评价机制能生成更加高质量的轨迹。同时在一定范围内goal point能引导出更加具有指示性的多模态轨迹,而不会使得轨迹过于发散。

  1. Chen, S., Jiang, B., Gao, H., Liao, B., Xu, Q., Zhang, Q., Huang, C., Liu, W., and Wang, X. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning. arXiv preprint arXiv:2402.13243, 2024.
  2. Chitta, K., Prakash, A., Jaeger, B., Yu, Z., Renz, K., and Geiger, A. Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. Pattern Analysis and Machine Intelligence (PAMI), 2023.
  3. Jiang, C. “., Cornman, A., Park, C., Sapp, B., Zhou, Y., and Anguelov, D. Motiondiffuser: Controllable multi-agent motion prediction using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9644–9653, June 2023b.
  4. Yang, B., Su, H., Gkanatsios, N., Ke, T.-W., Jain, A., Schneider, J., and Fragkiadaki, K. Diffusion-es: Gradientfree planning with diffusion for autonomous driving and zero-shot instruction following. arXiv preprint arXiv:2402.06559, 2024.
  5. Sun, W., Lin, X., Shi, Y., Zhang, C., Wu, H., and Zheng, S. Sparsedrive: End-to-end autonomous driving via sparse scene representation. arXiv preprint arXiv:2405.19620, 2024.

目标点驱动,解锁端到端生成式策略新未来

一种用于端到端自动驾驶的高质量多模态轨迹生成方法。通过引入目标点约束生成过程,并结合Flow Matching技术,GoalFlow能够高效生成高质量的多模态轨迹,显著提升了轨迹的准确性和可靠性,并在PDMS上达到了 90.3 的最佳性能,超越了现有方法。

基于目标点驱动的端到端生成式策略

论文链接:​​https://arxiv.org/abs/2503.05689​

项目链接:​​https://github.com/YvanYin/GoalFlow​

图片

图片

图片

图片

概述

在自动驾驶场景中,往往不仅只有一条最优的轨迹。例如对于某些场景,车辆可以选择超车或者跟车策略。以往的驾驶方法聚焦在用判别式的方法来生成轨迹,通过直接对轨迹进行回归学习来建模轨迹的分布。这种学习方式非常高效,且能生成安全精准的轨迹,但是很难对多模态轨迹进行有效的建模。

最近的一些方法希望通过以扩散模型为代表的生成式方法来建模轨迹的多模分布。这种训练加噪、推理去噪的范式能捕捉到数据的多峰分布,在轨迹规划的过程中为其提供大量发散的候选轨迹。但是这种发散轨迹会大大提高选择轨迹的难度,这往往需要比较强的先验信息,例如全场景的高精地图。另外,传统的扩散方法往往需要多步去噪,这大大提高了自动驾驶硬件的负担。

为了解决这个问题,我们提出了一种基于goal point的生成式方法GoalFlow,通过goal point引导轨迹规划模块生成轨迹。一方面,我们设计了一套map-free的goal point评估机制,能很好地捕捉到goal point的分布信息。另一方面,我们引入了一种更加高效的扩散模型变体,Flow Matching,通过简洁的扩散路径实现推理步数的大幅度减少。我们发现仅用一步去噪即可达到远超基线的效果。

GoalFlow解决的问题

当前生成多模态候选轨迹的方法主要由两种方式:一种是在回归轨迹的基础上添加不同的引导信息,例如左右转等。另一种是通过扩散模型这种连续建模的方式通过不断加噪和去噪来生成众多的轨迹。这两种方式都很难达到理想的效果。前者容易发生轨迹的坍缩,引导出的轨迹非常相似。后者容易生成高度发散的轨迹,这为挑选轨迹增加了难度。为此,GoalFlow主要思考如何探索其他可行道路来实现高质量的候选轨迹生成。

a. 如何应对生成式模型轨迹过于发散的情况: GoalFlow借鉴了Motiondiffuser的方法,其中用轨迹末端点对生成轨迹进行约束和引导。但是Motiondiffuser直接采用ground-truth末端点进行约束,这提供了过强的先验信息。我们将利用一种goal point评估机制来挑选goal point。

图片

b. 如何构造goal point: goal point在自动驾驶中并不是个新事物,业务中往往可以使用车道信息来预测goal point或者使用直接将导航作为goal point。但是车道信息往往需要昂贵的高精地图,而导航往往并不表示车辆在未来几秒后的精确信息。与之前方法都不同的是,我们首先会将轨迹的末端点进行聚类,用密集的词表来捕捉goal point的分布特性,得到包含将近一万个goal point的词表。以此将goal point的回归任务转化成一个分类任务。之后对静态的goal point词表从两个角度进行评价,分别是词表中点到ground-truth末端点的距离以及是否在可行驶区域内。

图片

c. 如何平衡生成准确轨迹和多模态轨迹: 生成模型的输入包括goal point(引导轨迹)和融合BEV特征的query(提供场景信息)。前者要求轨迹指向目标点,后者则当前场景下生成最可能的轨迹。为平衡两者,我们在训练中采用Classifier-Free Guidance,随机丢弃不同特征,并进行类型编码。训练时的 condition 设为三类:无条件、仅场景信息、场景信息+goal point。

GoalFlow框架

图片

核心思路: 引入goal point作为引导信息,通过建立密集的goal point词汇表和相应的评分机制挑选最优goal point,再由goal point和场景信息作为condition,由Flow Matching建模最终的轨迹分布。

完整流程:

  • 感知信息提取:感知特征采用transfuser框架,分别由两个分别的backbone提取image和lidar的信息,将两种信息进行融合后得到BEV feature。
  • goal point词表:为了使得goal point词表能很好地捕捉到驾驶场景中的分布信息,我们首先通过聚类数据集中的轨迹末端点得到一个密集的goal point词表
  • goal point评分机制:通过goal point和ground-truth的轨迹末端点以及是否在可行驶区域内,对词表中的goal point进行打分。
  • Flow Matching建模:词表中的最高分goal point和BEV feature作为condiiton,来引导Flow Matching生成轨迹。
  • 轨迹后处理:对于Flow Matching生成若干轨迹,通过筛选出的goal point进行打分,并引入阴影轨迹来对轨迹进行矫正。

实验结果

图片

图片

在Navsim数据集上,轨迹采用碰撞率,是否在可行驶区域内,舒适度等综合指标PDMS来评价。GoalFlow在PDMS上达到90.3分,远超以regression为代表的Transfuser方法(84.0分)和naive的generative model(85.6分)。模拟真实场景用更精确goal point代替预测goal point时,PDMS达到92.1分,逼近人类驾驶的94.8分。此外,基于flow matching的方法对推理中denoising步数具有鲁棒性,只需1步推理就能达到优异性能,大大减轻自动驾驶硬件负担。

总结与展望

GoalFlow 通过聚类方法捕捉目标点(goal point)的分布特性,并设计了一套目标点评估机制,为目标点进行打分。基于这些目标点,GoalFlow 引导生成式方法 Flow Matching 生成高质量轨迹。实验表明,GoalFlow 能够生成优异的轨迹,并提供多样化的高质量轨迹候选,显著提升了轨迹生成的性能。

未来,我们将进一步探索如何优化引导信息的利用,尤其是设计更高效的网络结构,以更好地平衡场景信息和目标点引导信息对模型的影响。此外,当前工作主要聚焦于坐标位置作为引导条件,之后可以进一步探索将人类语言指令作为条件输入,结合 GoalFlow 实现更智能的指令跟随能力,拓展其在人机交互和自动驾驶等领域的应用潜力。

参考文献 

a. Chen, S., Jiang, B., Gao, H., Liao, B., Xu, Q., Zhang, Q., Huang, C., Liu, W., and Wang, X. Vadv2: End-to-end vectorized autonomous driving via probabilistic planning. arXiv preprint arXiv:2402.13243, 2024.

b. Chitta, K., Prakash, A., Jaeger, B., Yu, Z., Renz, K., and Geiger, A. Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. Pattern Analysis and Machine Intelligence (PAMI), 2023.

c. Jiang, C. “., Cornman, A., Park, C., Sapp, B., Zhou, Y., and Anguelov, D. Motiondiffuser: Controllable multi-agent motion prediction using diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9644–9653, June 2023b.

d. Yang, B., Su, H., Gkanatsios, N., Ke, T.-W., Jain, A., Schneider, J., and Fragkiadaki, K. Diffusion-es: Gradientfree planning with diffusion for autonomous driving and zero-shot instruction following. arXiv preprint arXiv:2402.06559, 2024.

e. Sun, W., Lin, X., Shi, Y., Zhang, C., Wu, H., and Zheng, S. Sparsedrive: End-to-end autonomous driving via sparse scene representation. arXiv preprint arXiv:2405.19620, 2024.

#UnifiedReward

视觉奖励大一统重磅来袭!复旦最新

Title: Unified Reward Model for Multimodal Understanding and Generation

面向多模态生成与理解的统一奖励模型

主要工作:

我们提出UnifiedReward,一个视觉领域通用的奖励模型,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现

图片

研究动机:

  1. 缺乏通用的视觉奖励模型 – 现有的奖励模型普遍较为专门化,尚未有一个统一的模型能够有效评估多模态生成与理解任务。
  2. 多任务学习的相互促进作用 – 我们认为联合学习多个任务可以实现跨任务增强,例如:

(1)提高图像理解的评估能力,有助于图像生成评估,因为更准确的主体、场景理解可以更好衡量生成质量。

(2)强化图像评估能力,有助于视频评估,因为更细粒度的逐帧分析可以提升视频质量评估的精准性。

图片

☺️实验与核心贡献:

  1. 超越现有视觉奖励模型 – UnifiedReward在主流视觉评测基准上全面超越现有方法。
  2. 验证跨任务的相互促进作用 – 通过实验,我们证明了多任务学习在图像/视频的生成和理解评估之间具有互相增强的效果。
  3. DPO优化带来显著提升 – 我们利用UnifiedReward对图像/视频的生成与理解模型进行DPO优化,在各个领域均取得了显著性能提升。

我们希望该工作能拓展奖励模型的应用范畴,使其在多种视觉任务中更具适应性、泛化性与高效性。

数据,代码和模型均已全面开源,README也写的很详细,欢迎大家批评指正!

Project page: UnifiedReward

Paper: https://arxiv.org/pdf/2503.05236

Github: GitHub - CodeGoat24/UnifiedReward: Official implementation of Unified Reward Model for Multimodal Understanding and Generation.

Huggingface: https://huggingface.co/papers/2503.05236

Models: https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a

Datasets: https://huggingface.co/collecti

#在理想贾鹏GTC 25讲VLA前,先看看他在GTC 24怎么讲VLM的

本文核心基于:

24年3月贾鹏在英伟达GTC 2024上双系统的演讲。文末有视频版与完整文字版。

24年6月8日李想重庆脱稿演讲,详见:《​​李想是真懂自动驾驶细节​​》。

24年6月8日VLM通讯作者赵行老师研讨会演讲,详见:《​​李想昨天说的VLM是什么意思?​​》。

24年7月5日理想双系统发布会,详见:《​​理想双系统发布会917字总结与完整图文​​》。

链接内容均包含完整视频与文字版,推荐读者仔细阅读。

贾鹏在GTC 2024上分享了双系统的完整架构,明确输入传感器信息,输出的是轨迹,认为光靠端到端实现不了L3,觉得双系统这套架构是在探索L4, VLM加速这块提到了和英伟达合作,没提细节。(7月双系统发布会上由詹琨进行的这块讲解),介绍了一下AD MAX 3.0 理想是怎么做的,开城进展,AEB实现了什么水平。提到了世界模型,没有明确说这是考试系统,没有双系统多久量产时间预期,没有需要多少视频片段预期,没有提两个系统会变成一个系统的预期。没有对L3L4定义。当时算力储备是1.4eFlops。

李想6月脱稿演讲定义了L3为有监督的自动驾驶,L4为无监督的自动驾驶,给了三季度内测用户测试预期(实际7月内测),1000万Clips最早24年年底,最晚25年年初全量推送预期(实际25年2月全量推送),L4三年内一定实现预期。李想当时的演讲内容,基本有了认为AI是能力不是功能的认知(虽然当时没有完全归纳成一个短句),AI是能力不是功能是李想在AI Talk里多次强调的概念,在张小珺后来在小宇宙里分享的加长版(在腾讯科技的完整版之上,还有一个加长版,详见:《​​李想AI Talk 加长文字版与1507字省流版​​》)里李想认为AI是能力不是功能,是大家很少有人知道,但是必须了解的知识点。建议读者留意并思考这个概念。

赵行老师6月研讨会演讲里提到将来两个系统可能变成一个系统的预期,直接输出方向盘油门电信号比输出轨迹更难。

理想7月双系统发布会内容较贾鹏3月表达,信息密度大了不少,更加详细与结构化,配了字幕,并且所有英文表达都有中文翻译。

故基于以上4份原始材料,贾鹏GTC 2025 可能侧重分享理想VLA架构会如何实现,在简介里已经明确了是一个系统,演讲里可能会明确输出的是油门方向盘信号,不是轨迹。

有可能不会提VLA多久会上车,当然,提的可能性也是存在的。

微博用户大雁jassy整理的贾鹏VLA演讲摘要的摘要:

1.VLA模型将E2E模型和VLM模型合并成一个模型;

2.VLA模型会自主选择何时使用慢思考何时使用快思考;

3.通用世界知识和物理世界交互做到了联合训练,实现了模型隐状态对齐;

4.已经在Thor上单芯片落地跑通;

5.该系统可以和驾驶员通过语音互动进行控制交互

贾鹏VLA演讲摘要:

在 GTC2024 大会上,我们介绍了 DriveVLM-Dual,一种快-慢思考混合的自动驾驶系统,可协同发挥端到端 (传感器数据输入、轨迹输出) 模型和视觉语言模型 (VLM) 的优势。两个模型均基于大量人类驾驶数据进行训练,并展现出符合数据量扩展定律(data scaling law)的特性,系统在真实驾驶环境中的表现随训练数据量的增加而提升。双系统被部署在双 NVIDIA DRIVE AGX 车载平台上,并已经大规模交付给终端客户,覆盖超过 40 万辆汽车。今天,我们将介绍理想 VLA(视觉-语言-行动)模型。理想 VLA 模型将快慢系统结合为一个单一大模型并赋予该模型自主决定何时采用慢思维的能力。它实现了空间感知与理解、开放世界知识、语言推理和行动策略的统一并进行联合训练和优化。此模型已经部署在下一代单 NVIDIA DRIVE AGX 的车载平台上,展现出了诸多令人兴奋的特性和能力。这套系统可以被视为一个物理世界智能体的雏形,通过语言自然地与用户互动,执行复杂、开放世界的驾驶任务。这一进步不仅标志着技术上的飞跃,也预示着一种全新、前所未有的自动驾驶产品形态的出现。

Key Takeaways:

1️⃣:VLA 是空间智能、语言智能和 action policy 的统一,将快、慢思考结合为一个模型

2️⃣:VLA 是自动驾驶 Physical AI 的核心技术

3️⃣:模型由海量文本、视频、行为数据训练,由云端世界模型测试、验证,并由NVAIE进行加速

4️⃣:理想 VLA 系统已经在下一代 NVIDIA DRIVE AGX 平台上优化部署。

贾鹏GTC 2024 VLM分享文字版:

大家好,我是来自理想汽车自动驾驶的贾鹏,今天有幸收到英伟达的邀请,来参加GTC,并且介绍一下我们团队对于自动驾驶的一些思考落地以及研发的一些进展。今天talk会分成两部分,第一部分我会迅速的快速的给大家介绍一下理想汽车在过去几年交互过程中,形成了对增加一个认知以及我们整体的开发的一个框架。然后第二部分会得快速介绍一下我们在过去交互中,以及现在运营过程中一些技术的亮点。

理想汽车从2021年开始,自动驾驶的自研,我们从L2开始就是高速NOA开始,逐渐的对自动驾驶这件事情形成了一个比较独特的认知。对于L2来说,都是在固定的场景,已知的场景或者是这种封闭场景。比如说高速,城快去做辅助驾驶,人需要的时候去接管。这一部分其实过去都是以rule base为主,只有感知部分可能做了一部分的AI化或者模型化,咱们传统用的2G的一些感知或者是3D。其他部分还是以一些工程化代码,一些规则为主。去年开始大家开始卷着城市NOA或者全场景NOA。这一方面随着开城的进展,大家可能都做到全国的开放。

这一部分我们称之为可能称之为L3。这一部分因为比L2要困难非常多,它的场景要丰富非常多。传统的这个范式,L2范式就没办法在L3里去用。随着特斯拉的打样,它开发就是开发出一条新的路。

我们要数据驱动。他比如说在所有的模块感知规控都逐渐做成模型化。这里比较大家熟知的BEV的感知,做到了比如说多传感器,多摄像头的前融合,逐渐它的极致就是端到端,完整的端到端。那就从感知一直到跟踪预测、决策规划都做到模型化。这里比较有代表性的就是特斯拉的V12,做到了一个端到端,这个端到端模型不仅是完全模型化,而且可以做到端到端的可训。

即使到了数据驱动或者端到端的,是否可以做到L4,那我们自己的思考还是没法实现的。到了L4,在任何的未知场景中,用户都不需要去做监管。由于我们是在现实世界中,其实未知场景是无穷多的,尤其是一些长尾的问题。通过数据驱动可能我们没办法去解决。数据驱动本身还是他我有了数据我才能真正去理解,去在这样的场景里去使用。对于L4来说,我们逐渐认识到可能需要一个新的方式,我们称之为知识驱动。随着大语言模型的过去两年的火爆,其实在L4场景里我们需要怎么去应对未知场景,我们可能就需要真正的对于世界进行理解,那有一定的这种常识去理解世界的时候,我们才能做到这个未知场景下才能安全的去驾驶。

比如说我们在这种刚刷的水泥地,如果是传统的数据接口的方式,这样的场景非常少,而且我们的模型我没有办法理解。如果有了这种这种超大的LLM或者是多模态的视觉语言模型,他有这样的常识,那在这个场景里他就可以去安全的做驾驶。基于上的一些思考,以及我们在实际落地中,因为在中国或者增加的是非常挑战的,包括中国的基建是每天都在进行。类似左边这个各种这种人开起来都比较迷惑的场景,以及右边这个大量的车多人多,我们就大量的这种车人交互,在中国做自动驾驶是非常挑战的。

我们逐渐形成了基于以上的一些认知,逐渐形成了自动驾驶自己的一些开发的一个框架。我们现在做L3以及将来做L4,都是基于这个框架去进行的。那它跟人的思维非常接近,我们把它分成快慢系统,快捷的这个system one,它是偏直觉偏有点类似接入记忆或者是这种应激反应。我看到类似的场景我就去执行这样的动作。

这一趴就是对应我们的L3端到端的模型。很很直观的就是传感器看到什么样的场景,我做出什么样的决策和动作。

另一趴其实是慢思考。比如说我做思考题,我做应用题的时候,我需要一定的思考的时间,我们称之为system two,它主要是做一些逻辑的思考。在做刚才提到在L4的这种未知场景或者是复杂场景里,我们得具备这样的常识,或者没有short的能力。那这一趴我们可能可以去使用我们所谓的认知模型,就是偏VLM去解决。这一部分是它提供了一个基础的一些世界的知识,形成对世界的一定的认知和逻辑思维,同时也由于这个模型会比较大,那我们还会做一些短期的一些知识的更新,比如通过一些rank去实现认证,认证模型的一些快速的迭代。这两趴结合在一起,但是我们觉得最终能解决L4的1个整体的车端的框架。

除了车端的系统之外,我们还需要一个巨大的云端的世界模型。它的主要作用是去训练快慢系统,跟物理世界去做交互,从中不同不断的去学习。这个其实有点类似最近人比较火爆的sora,它是一个生成式的世界模型,有了它之后,我们就可以在通过一个闭环去训练我们的整体的车端的系统,那中间的这些流其实都是我们的数据闭环,有大量的这种数据和训练的快速迭代。

接下来我会从这四个方面去介绍理想汽车在这个自动驾驶的一些这种亮点。

第一部分就是我们端到端的模型,以及它落地的一些场落地的一些情况。

第二部分是我们的认知模型,我们的一些语言的一些进展。

然后第三部分是我们世界模型的一些进展。

最后是把我们的这个增强的数据闭环里头的一些亮点介绍给大家。

好,第一部分是我们端到端部分,其实我们做端到端模型已经很长一段时间了。其实咱们最早业界最早的,比如说基于BEV的3D的一些感知,动态的感知、静态的感知,包括tracking的模型化,这个前融合都是理想汽车最早最早的一系列工作,这也是业界比较早的一些文章。那基于这些工作,我们其实去年量产了我们的AD Max 3.0,推给了我们的全量用户,它的整体框架已经偏端到端,但是还没有完整的端到端,今年会把它做一个彻底的端到端。

它主要是分成三个大的模块。第一个其实我是我们的感知模型,这是一个大的BEV的感知模型。我们把所有的感知任务统一到1个模型里,包括静态、动态,然后通用障碍物。我们的预测决策和规划也做到了模型化,放到了一个模型里。这两部分我们会在今年会把它们统一在一起,形成一个端到端大模型。

然后另一部分,其实在中国很挑战的是红绿灯,因为中国的红绿灯五花八门,各地的红绿灯的样式不同,规则不同。以前的做法是我们会把红绿灯检测出来,然后跟车道做一个关联匹配,然后才能得到本车道的红绿灯状态。我们红绿灯部分其实是把这个pipeline彻底做成了一个端到端的模型。进来就是我们的传感器,出来就是我们这个模型的输出,就是本车道的红绿灯的状态或者意图。那同样的一套框架,我们其实做到了行车和泊车的一体化。

基于在此过程中,其实和NV的合作比较多,主要是其中的一块比较突出的工作是在我们车端的推理方面,跟英伟达的合作进行了一个推理的加速。

从我们最早的9赫兹到现在是21赫兹,就是我们整个模型方面,也是很感谢这个NV的帮助,把这个模型的推理速度提升了很大一部分。然后基于之上的一些工作,其实我们去年年底推送的AD Max 3.0,其实在四个产品维度上都实现了业界的顶尖水平。

第一个是全场景的NOA,这个全场景的包括了高速和城区,城区里面包括了红绿灯路口的左右转,红绿灯的刹停和和启停,然后还有包括比如说施工道路的这种避让,禁止或者违章车的绕行。那在LCC方面跟传统的LPA不一样的是,我们的LCC可以做到红绿灯的启停,然后同时也可以做到这种直行车道上的的这种自动的超车变道,然后同时也可以实现这种这种施工路段以及违章车的绕行避让。

得益于我们的整体的软件一体化,在泊车方面提得到了一个巨大的提升。除了传统的这个自动泊车之外,我们还实现了一个长距离的AVP就是从下车库那一刻开始,它可以自动把你带到你的停车位。这期间比如说这种跟其他车的一些博弈,行人的博弈,甚至包括超窄车道对其他车的倒车让行,都已经能够实现。

同时在主动安全方面,我们也实现了业界的顶尖的水平。现在我们这个静止车可以做到120的刹停。两轮车或者是这个三轮车可以做到100的差距,行人做到90。除了这种正向的性能达到业界顶尖水平之外,这是远超行业标准的水平。那么在误触发方面,我们要做到30万公里以上的误触发,这个也是业界高的水平了,这里有一个视频,去说一下我们在这种北京这种繁忙路口,做这种交互,行人的一些避让,超车的绕行,类似这样的工作。如果大家感兴趣可以去开一开我们的车,或者去门店做个试驾。

去年的时候我们已经把城市NOA推给了20万的用户,这基本是中国大规模城市NOA的推送,因为整体有20万的用户,现在在大概去年年底是110城,现在已经做到114城。随着我们的扩城可能无论是在城市的数量上和覆盖率上也会逐渐提高,今年会把全国都开。

除了上面提到的L3端端到端的一些进展,其实我们更放了很多人在L4的一些预研上。

刚才提到的第一点就是认知模型,我们会跑一个慢系统,那它可能是比快系统要,比如说快系统可能是20赫兹,慢系统可能是5赫兹甚至1赫兹,做一些关键场景的决策。我们的方法是基于一个多模态的大语言模型。我们最近发表了一篇论文叫做Drive-VLM,他的思路是不需要任何其他的输入,从多模态语言模型直接出我们的规划结果。

它是通过三阶段的COT去自动去检测,去自动去做推理。比如说现在的它的场景是什么,这里头这个场景里头对我的驾驶形成最关键的一些障碍物是什么?他跟我的交互关系是什么?最后会输出我们叫meta action,其实是决策,就是说我是的动作是什么样子。最后给出一个模型自动会给出一个三秒的一个规划结果。

刚才提到这是我们的慢系统,结合到传统的端到端两端。我们形成了一个快慢系统,这个决策,这个慢系统或者认知模型给出来的决策会和我的快系统结合在一起,最终给出一个更安全应对更多未知场景的一套系统。整体的效果我们可以整体看一下,这就是模型直接无论里头框也好,还是底下的文字也好,都是模型自己给出来的,那我看到了这样的场景,我会给出一个描述,然后最后给出decision,最后给出一个轨迹,这都是模型直接一个模型把所有的事情都做完。

在我们在大量的这种corner case,或者是L3或城市自动驾驶中遇到的一些这种问题中,都发现它其实对快系统的提升会非常多。

大家可能一个concern就是说大的VLM它是太大了,怎么部署在车端。其实我们在跟NV的合作,一大部分工作也是带着这个VLM的在车辆的加速,我们在orin上也已经部署,目前也取得了还不错的效果。那另一个方向刚才提到除了我的快慢系统之外,还需要一个车这个云端的世界模型,去与我的车端去做交互,训练它验证它。

最近sora很火,因为它是个纯生成式,也看到它的一些问题,所以有些场景还是不太符合物理规律,所以我们的整体思路跟他有些差异。我们还是想在静态上通过重建,然后的静态和动态一起生成,这样的话你在静态上更加符合物理规律,符合物理实际,这样我们最近发表的一篇工作叫Street Gaussians。基本实现了实施的这种场景的重建和渲染,这基本也是无论是速度还是指标上都已经是sota的工作。好,这里可以看一下我们在在公开数据集上的一些表现, 有了这个之后,我们其实可以做很多,不仅仅是做重建。我们可以做很多这种场景的支撑。比如说加入一些新的这种player,或者加入一些新的动态物体,这样就可以创造出无数的场景出来。

刚才提到了其实都是偏我们的算法和偏我们的整体的一半。但是中间串起来的是我们一个庞大的数据闭环的系统。我们基本实现了从数据的这种corner case的收集、自动化的挖掘、自动化的标注、自动化的训练,然后以及新的模型推到车端去做影子模式的验证,这整套闭环已经做到非常高效。随着我们朝L4做,咱们其实一个很困难的点就是说corner case的挖掘,尤其是长尾corner case的挖掘怎么去实现?传统咱们做挖掘就是通过一些规则去手写,去挖掘,比如说一些场景,比如说我们想挖掘一个骑行人打着雨伞,然后闯红灯横穿路口,类似场景就很难通过规则去匹配出来。

我们也借鉴了多模态大语言模型的范式,形成了一个做了做了一个工作叫BEV clip。它也是个多模态的数据的检索的这么一个引擎。通过大语言模型的能力,同时加入了自动驾驶的一些这种先验知识,然后形成这么一个训练了一个这种多模态的clip。通过这个clip我们去可以去类似刚才那种场景的一些复杂场景的一些检索。我们可以把这个场景以文字的方式描述出来,可以快速的找到我们想要的这样的场景。

对于数据闭环这边,云端其实NV的帮助也很大。我们跟他们在训练和推理和云端的推理方面都做了很多的这种加速的工作。这节省了我们大量的训练时间和推理时间,时间其实就是资源和钱。

除了刚才提到的数据闭环能串起来我们整个的开发流程之外,其实对于车厂来说,因为我们有很多的车型,那车型之间的数据的复用和适配也是个很大的难点。那我们也在英伟达NeRF的引擎之上,开发了一套数据重用的,或者数据复用的这么一个pipeline。那我们比如说我们L9的一些数据,通过我们的重建,然后加上一些动态的injection编辑之后,我们形成新的场景。然后从通过新的novel  view的projection投影到新的视角上。比如说到我们的MEGA的传感器上,这样就形成了新的一个标注数据,这样我们的很多历史数据都可以做处理。

那刚才讲了这个数据闭环,我们刚才提到我们是国内最早做,也是最大规模的,其实大家并没有太多概念,可以通过几个数字来看。其实我们现在场全场景NOA已经达到了,这是年前的一个结果,四亿多公里过年这期间其实现在已经涨到了五亿多公里。除了这个数据之外,计算方面,尤其训练方面,我们过去几年也建设了一个大的智驾的训练集群,达到了1.4亿flops的计算能力。有了这些之后,才能支撑我上面快慢系统的快速迭代。

前面主要给大家介绍了我们理想汽车在过去几年的交付落地过程中,形成了对自动驾驶的整体的认知,以及我们整体的这个大的框架,整体还是基于一个快慢系统的system one,system two的这么一个思维这么一个概念。

介绍了我们几个关键点:

一个是L3方面的端到端的一些这种方案和落地的一些情况。

第二点是我们在认知模型,就刚才提到的慢系统上我们做了一些工作。

第三点在云端的世界模型上,我们也正在开展一些这种类似重建生成的一些工作。然后为我们的快慢系统提供一个好的世界的仿真的引擎。

第四点就是把这些串起来的是我们的一个大的数据闭环的系统。这里头随着咱们长尾corner case的一些开展,或者L4的一些研发进展,其实数据闭环的作用会越来越大,其实数据和算法不分家,今天的内容主要是这些,感谢大家。

#DriveLMM-o1

自动驾驶即将开启o1时代!用于自动驾驶场景理解的逐步推理数据集和多模态大模型来了~DriveLMM-o1

  • 论文标题:DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding
  • 论文链接:https://arxiv.org/abs/2503.10621
  • 论文代码:https://github.com/ayesha-ishaq/DriveLMM-o1

图片

核心创新点:

1. 专用逐步推理数据集与多模态基准

  • 提出首个面向自动驾驶场景的逐步推理数据集DriveLMM-o1,包含18k训练样本和4k测试样本,覆盖感知、预测、规划任务。
  • 数据集集成多视角图像(multiview images)与LiDAR点云(LiDAR point clouds),并标注逻辑链式推理步骤,确保模型理解场景动态与空间关系。

2. 动态多模态模型架构与高效微调

  • 基于InternVL2.5-8B构建模型,融合视觉Transformer编码器与LLaMA语言模型,支持动态图像分块(dynamic image patching),高效处理高分辨率多视角图像。
  • 采用LoRA微调(Low-Rank Adaptation),仅调整0.49%参数,保留通用多模态能力的同时,适配自动驾驶推理任务,显著提升模型泛化性与计算效率。

3. 自动驾驶专用评估体系

  • 设计逻辑连贯性指标(如Faithfulness-Step、Commonsense)与安全关键型指标(如风险识别准确率、交规遵循度),综合评估推理步骤的合理性与最终决策的可靠性。
  • 结合人工验证与GPT-4o自动化评分,确保评测框架的严谨性。

4. 性能优势与领域适应性

  • 模型在最终答案准确率上超越最佳开源基线7.49%,推理得分提升3.62%,尤其在场景感知(75.39分)与风险识别(73.01分)任务中表现突出。
  • 相比通用视觉推理模型(如LlamaV-o1),DriveLMM-o1在复杂驾驶场景中展现更强的多模态融合能力与安全决策逻辑,减少黑盒推理缺陷。

A Survey of Sim-to-Real Methods in RL

  • 论文标题:A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models
  • 论文链接:https://arxiv.org/abs/2502.13187
  • repo链接:https://github.com/LongchaoDa/AwesomeSim2Real.git

图片

核心创新点:

1. MDP四要素系统化分类框架

  • 提出基于马尔可夫决策过程(MDP)的Sim-to-Real技术分类体系,将方法论锚定于观察空间对齐 (Observation)、动作空间适配 (Action)、环境动力学建模 (Transition)及奖励函数设计 (Reward)四大维度,实现对经典与新兴技术(如扩散模型生成安全场景Diff-Scene)的统一表征。

2. 基础模型驱动的自动化流程革新

  • LLM赋能奖励函数生成 :提出Text2Reward框架,通过自然语言任务描述自动生成稠密奖励函数,减少人工设计依赖。
  • 零样本视觉泛化 :构建视觉通用强化学习框架,利用预训练多模态模型实现跨场景策略迁移,突破传统Sim2Real对精确环境建模的依赖。

3. 复杂动力学建模与延迟补偿

  • 随机延迟动态建模 :提出随机延迟强化学习框架,通过时序建模解决现实世界动作执行延迟问题。
  • 非马尔可夫决策过程处理 :开发语义非马尔可夫仿真代理,增强长序列决策的可解释性与可扩展性。

4. 高保真评估基准与工具链

  • DISCOVERSE仿真平台:支持复杂高保真环境下的机器人策略验证,集成物理引擎与传感器噪声模拟。
  • NeuronsGym导航框架:融合仿真-现实混合训练,通过模块化设计量化信息瓶颈对Sim2Real迁移的影响。

MuDG

  • 论文标题:MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction
  • 论文链接:https://arxiv.org/abs/2503.10604

图片

核心创新点:

1. 多模态扩散模型与高斯泼溅(3DGS)的协同框架

  • 提出首个将可控多模态扩散模型(MDM)与3D高斯泼溅(3DGS)深度融合的框架,通过MDM生成新视角的RGB、深度及语义数据,作为监督信号优化3DGS表示,显著提升极端视角变化下的渲染鲁棒性。

2. 无需逐场景优化的前馈新视角合成

  • 基于LiDAR点云投影的稀疏RGB-D条件输入,MDM通过视频扩散先验直接生成多模态密集输出,实现无需逐场景优化(per-scene optimization)的实时新视角合成,避免传统NeRF/GS方法的高计算开销。

3. 动态-静态解耦与多模态联合监督

  • 通过追踪边界框(bbox tracking)分离动态与静态元素,构建融合LiDAR点云;利用生成的多模态数据(RGB、深度、语义)联合监督3DGS训练,强化几何-语义一致性,缓解极端视角外推时的性能退化。

4. 跨模态对齐的潜在空间编码

  • 设计统一潜在空间编码策略,将单通道深度图扩展为伪RGB,语义图通过颜色映射适配VAE输入,实现多模态数据的高效对齐,确保扩散生成与3DGS优化的跨模态一致性。

Unlock the Power of Unlabeled Data in Language Driving Model

  • 论文标题:Unlock the Power of Unlabeled Data in Language Driving Model
  • 论文链接:https://arxiv.org/abs/2503.10586

图片

核心创新点:

1. 动态自监督预训练框架(Dynamic Self-Supervised Pre-training Framework)

  • 提出分层渐进式掩码语言建模(Hierarchical Progressive Masked Language Modeling, HP-MLM),通过语义层级动态调整掩码策略(词级→短语级→句子级)
  • 引入基于信息熵的自适应负采样机制,优化对比学习中的难负例挖掘(Hard Negative Mining)

2. 半监督知识蒸馏架构(Semi-Supervised Knowledge Distillation Architecture)

  • 构建双通道异构模型结构(Dual-Channel Heterogeneous Architecture),实现教师模型(预训练LM)与学生模型(任务驱动LM)的协同训练
  • 开发跨模态一致性正则化方法(Cross-Modal Consistency Regularization),通过未标记数据的隐式语义对齐增强模型泛化性

3. 数据-模型协同优化机制(Data-Model Co-Optimization Mechanism)

  • 提出基于梯度相似性的动态数据筛选策略(Gradient Similarity-based Dynamic Data Selection),建立未标记数据质量评估的数学模型:

图片

  • 设计课程式数据增强管道(Curriculum Data Augmentation Pipeline),通过强化学习动态调整数据增强强度

OCCUQ

  • 论文标题:OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction
  • 论文链接:https://arxiv.org/abs/2503.10605
  • 论文代码:https://github.com/ika-rwth-aachen/OCCUQ

图片

核心创新点:

1. 轻量级不确定性量化模块(UQ Module)

  • 提出一种基于深度确定性不确定性(DDU)的轻量化模块,集成至3D占据预测网络(如SurroundOCC),通过单次前向传播实现认知不确定性(epistemic uncertainty)与 数据不确定性(aleatoric uncertainty)的高效解耦估计,计算开销仅增加0.02%参数量。

2. 高斯混合模型(GMM)特征密度估计

  • 在特征空间中引入GMM建模,通过训练集特征分布拟合,将特征密度作为认知不确定性度量。结合谱归一化(Spectral Normalization)约束特征空间的双利普希茨连续性(bi-Lipschitz continuity),确保特征距离与输入语义变化的一致性。

3. 区域级OoD检测与腐蚀模拟

  • 首次提出区域特定腐蚀(region-specific corruption)方法,通过单摄像头失效模拟局部传感器故障,构建体素级分布外(OoD)场景。在nuScenes数据集上验证了模型在区域级(如单摄像头腐蚀)和场景级(如雾、运动模糊)OoD检测的优越性(mAUROC提升10.6% vs Deep Ensembles)。

4. 动态置信度校准策略(UGTS)

  • 提出基于不确定性的温度缩放(Uncertainty-Guided Temperature Scaling),根据认知不确定性动态调整分类logits的温度参数,在腐蚀数据上实现更优的校准效果(mECE降低61.5% vs 基线方法)。

Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

  • 论文标题:Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback
  • 论文链接:https://arxiv.org/abs/2503.10434

图片

核心创新点:

1. 人类反馈驱动的生成轨迹微调框架(TrajHF)

  • 首次将强化学习与人类反馈(RLHF)系统性引入自动驾驶轨迹生成任务,通过构建偏好奖励函数和群体相对优势计算(Group Relative Advantage),实现多模态轨迹分布与人类驾驶风格的动态对齐。

2. 多条件去噪Transformer架构(MCD)

  • 提出融合多模态感知(图像、LiDAR、历史动作)的条件去噪网络,通过交叉注意力机制实现状态-动作空间的可逆映射,在无锚点/词汇表约束下直接生成连续轨迹,解决传统方法模式坍缩问题。

3. 双重优化目标与行为克隆约束

  • 设计复合奖励函数(R = w_avgR_avg + w_final R_final),同步优化轨迹平滑性与终端状态精度;引入行为克隆损失(BC Loss)防止微调过程中的灾难性遗忘,平衡风格迁移与基础驾驶能力保留。

4. SOTA性能与风格可解释性

  • 在NavSim基准测试中达到93.95 PDMS,超越现有方法(如Hydra-MDP、GoalFlow等);通过人类评估实验(BOE指标)验证生成轨迹在"激进性"等风格维度的语义一致性,为个性化自动驾驶提供可解释的解决方案。

Learning Multiple Probabilistic Decisions

  • 论文标题:Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving
  • 论文链接:https://arxiv.org/pdf/2409.15730
  • 项目链接:https://github.com/Sephirex-X/LatentDriver

图片

核心创新点:

1. 多概率决策建模

  • 提出基于高斯混合模型(GMM)与拉普拉斯分布的混合分布框架,将环境状态转移与自车动作空间联合建模为多模态概率分布(mixture distribution)。通过多概率规划器(MPP)的分层Transformer结构,逐层优化动作分布参数,显式捕捉驾驶决策的随机性。

2. 潜在世界模型与规划的统一学习

设计双向随机交互机制:

  • 潜在世界模型(LWM) :采用自回归Transformer预测环境潜在状态分布,通过适配器(Adapter)将动作-观测序列编码为低维隐空间表征;
  • 规划-模型联合优化 :利用中间层动作采样(intermediate action sampling)生成估计动作分布,作为LWM的输入以缓解“自欺问题”(self-delusion),打破历史动作依赖的级联条件分布。

3. 场景泛化性提升

  • 在Waymax闭环仿真中验证了方法在长尾场景(如U-turn、无保护左转)的专家级性能(mAR指标达89.3%),通过引入场景分类指标(mAR@[95:75])量化复杂交互下的决策鲁棒性,显著优于基于强化学习/模仿学习的PlanT、EasyChauffeur等基线模型。

#xx

#xx

#xx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值