51c自动驾驶~合集46_在3d物体检测任务中,预训练模型的map指标提升7.5%,表明其对复杂场景中目标识别的-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/145067845

我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104

#世界模型会是L3自动驾驶的唯一解吗

三维空间占有率（3D Occupancy）预测的目的是预测三维空间中的每个体素是否被占有，如果被占有，则对应的体素将被标记。3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息，成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。而自动驾驶世界模型（World Model）具备对真实物理世界的理解能力，基于一些历史信息/状态，能够预测未来时刻的场景变化甚至agents的状态变化。因此将OCC和世界模型结合，除了可以实现当前时刻的OCC预测，还可以预测未来时刻的OCC演变，可以直接影响到自动驾驶的规划/决策，也是这两年自动驾驶研究的一个重点方向，预计2025年会有更多的工作问世,和大家一起复盘2024年OCC和世界模型相关的工作，并在文末总结未来的趋势~

Scene as Occupancy

paper: https://arxiv.org/abs/2306.02851
code:https://github.com/OpenDriveLab/OccNet

虽然OccNet不属于世界模型+OCC的范畴，但是有必要简单介绍一个这个工作，有助于理解后续介绍的方法。

人类驾驶员能够通过视觉系统轻松描述复杂的交通场景。这种精确感知的能力对于驾驶员的规划至关重要。为了实现这一点，一种将物理三维场景量化为具有每个单元语义标签的结构化网格地图的几何感知表示形式，即三维占用表示，将是理想的。与边界框的形式相比，占用表示的关键见解在于它能够捕捉场景中关键障碍物的细粒度细节，从而促进后续任务。先前或同时期的文献主要集中在单个场景补全任务上，我们可能会认为这种占用表示形式的潜力可能会产生更广泛的影响。在本文中，我们提出了 OccNet，这是一种以多视图为中心的管道，具有级联和时间体素解码器来重建三维占用。OccNet 的核心是一个通用的占用嵌入来表示三维物理世界。这种描述符可以应用于广泛的驾驶任务，包括检测、分割和规划。为了验证这种新表示形式的有效性和我们提出的算法，针对该算法，我们提出了 OpenOcc，这是首个基于 nuScenes 构建的高密度高质量 3D 占有率基准。实证实验表明，在多个任务中均有显著的性能提升，例如，运动规划的碰撞率可降低 15% - 58%，这证明了我们方法的优越性。

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

paper: https://arxiv.org/pdf/2311.16038
code: https://github.com/wzzheng/OccWorld

理解三维场景如何演变对于自动驾驶中的决策至关重要。大多数现有的方法通过预测物体检测框的运动来实现这一点，但无法捕捉到更精细的场景信息。在本文中，我们探索了一种新的框架，即在三维占用空间中学习世界模型，名为OccWorld，以同时预测自动驾驶汽车的运动和周围场景的演变。我们提出基于三维占用而非三维边界框和分割图来学习世界模型，原因有三：1）表达能力：三维占用能够描述场景更精细的三维结构；2）效率：三维占用率更易于获取（例如，从稀疏的激光雷达点中获取）。3）通用性：三维占用率能够适应视觉和激光雷达。为了便于对世界演变进行建模，我们在三维占用率上学习了一种基于重建的场景tokenizer，以获取离散的场景tokens来描述周围场景。然后，我们采用类似 GPT 的时空生成转换器来生成后续场景和ego tokens，以解码未来的占用率和自车轨迹。在广泛使用的 nuScenes 基准上进行的大量实验表明，OccWorld 能够有效地对驾驶场景的演变进行建模。OccWorld 还在不使用实例和地图监督的情况下产生了具有竞争力的规划结果。

OccWorld是两阶段模型：

VQ-VAE 的训练极大地阻碍了效率，并为第二阶段引入了性能瓶颈。为场景tokenizer找到合适的超参数在平衡重建和预测性能方面仍然具有挑战性
完全依赖于自回归方式的隐式特征。它要么忽略了相邻场景中显式的结构一致性，要么忽略了图像中容易获取的纹理信息。这些都阻碍了模型充分捕捉环境动态的能力

RenderWorld: World Model with Self-Supervised 3D Label

paper: https://arxiv.org/abs/2409.11356

仅基于视觉的端到端自动驾驶不仅比激光雷达与视觉融合的方法更具成本效益，而且比传统方法更可靠。为了实现经济且鲁棒的纯视觉自动驾驶系统，我们提出了 RenderWorld，这是一种仅基于视觉的端到端自动驾驶框架，它使用基于自监督高斯的 Img2Occ 模块生成 3D 占有率标签，然后通过 AM-VAE 对标签进行编码，并使用世界模型进行预测和规划。RenderWorld 采用高斯点阵来表示 3D 场景并渲染 2D 图像，与基于 NeRF 的方法相比，这极大地提高了分割精度并减少了 GPU 内存消耗。通过应用 AM-VAE 分别对air和non-air进行编码，RenderWorld 实现了更精细的场景元素表示，在自回归世界模型的 4D 占有率预测和运动规划方面均达到了最先进的性能。

两阶段训练范式。

OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving

paper: https://arxiv.org/abs/2409.03272

多模态大型语言模型（MLLMs）的兴起推动了其在自动驾驶中的应用。近期基于 MLLM 的方法通过学习从感知到动作的直接映射来执行动作，忽略了世界的动态以及行为与世界动态之间的关系。相比之下，人类拥有世界模型，能够基于三维内部视觉表征模拟未来状态，并据此规划行为。为此，我们提出了 OccLLaMA，这是一种占用-语言-动作生成式世界模型，它采用语义占用作为通用视觉表示，并通过自回归模型统一了视觉-语言-动作（VLA）模态。具体而言，我们引入了一种类似 VQVAE 的场景tokenizer，以高效地离散化和重建语义占用场景，同时考虑到其稀疏性和类别不平衡的问题。然后，我们为视觉、语言和动作构建了一个统一的多模态词汇表。此外，我们增强了大型语言模型（LLM），特别是 LLaMA，使其能够在统一的词汇表上进行下一token/场景预测，以完成自动驾驶中的多项任务。大量实验表明，OccLLaMA 在包括 4D 占用预测、运动规划和视觉问答在内的多项任务中均取得了具有竞争力的性能，展示了其作为自动驾驶基础模型的潜力。

两阶段训练范式。

An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training

paper: https://arxiv.org/abs/2412.13772

自动驾驶领域对世界模型的兴趣日益浓厚，这类模型旨在基于历史观测预测潜在的未来场景。在本文中，我们介绍了 DFIT-OccWorld，这是一种高效的 3D 占有世界模型，它利用了解耦动态流和图像辅助训练策略，显著提升了 4D 场景预测性能。为了简化训练过程，我们摒弃了之前的两阶段训练策略，并创新性地将占有预测问题重新表述为解耦的体素变形过程。我们的模型通过使用体素流对现有观测进行变形来预测未来的动态体素，而静态体素则通过姿态变换轻松获得。此外，我们的方法还引入了图像辅助训练范式以增强预测的可靠性。具体而言，采用可微体积渲染通过预测的未来体积生成渲染深度图，并将其用于基于渲染的光度一致性。实验表明了我们方法的有效性，在 nuScenes 和 OpenScene 基准测试中展示了其在 4D 占有预测方面的先进性能。该模型实现了精准预测、端到端运动规划和点云预测。具体而言，与现有的 3D 世界模型相比，它达到了最先进的性能，同时计算成本大幅降低。

效率和性能都比之前的两阶段模型好。

Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving

paper:https://arxiv.org/abs/2408.14197
project page: https://drive-occworld.github.io/

世界模型基于各种ego行为设想潜在的未来状态。它们嵌入了关于驾驶环境的大量知识，有助于实现安全且可扩展的自动驾驶。大多数现有的方法主要侧重于数据生成或世界模型的预训练范式。与上述先前的工作不同，我们提出了 Drive-OccWorld，它将以视觉为中心的 4D 预测世界模型适应于自动驾驶的端到端规划。具体而言，我们首先在内存模块中引入语义和运动条件归一化，该模块从历史 BEV 嵌入中积累语义和动态信息。然后，这些 BEV 特征被传递到世界解码器，用于未来占用和流预测，同时考虑几何和时空建模。此外，我们提出将灵活的动作条件（如速度、转向角、轨迹和指令）注入世界模型，以实现可控生成，并促进更广泛的下游应用。此外，我们还探索了将 4D 世界模型的生成能力与端到端规划相结合，从而能够利用基于占用率的成本函数连续预测未来状态并选择最优轨迹。在 nuScenes 数据集上进行的大量实验表明，我们的方法能够生成合理且可控的 4D 占用率，为驾驶世界生成和端到端规划开辟了新的途径。

OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

paper: https://arxiv.org/abs/2405.20337
code: https://github.com/wzzheng/OccSora

理解 3D 场景的演变对于实现有效的自动驾驶至关重要。虽然传统方法通过单个实例的运动来建模场景的发展，但世界模型作为一种生成框架，能够描述一般的场景动态。然而，大多数现有的方法采用自回归框架来进行下一个token预测，这在对长期时间演变进行建模时效率低下。为了解决这个问题，我们提出了一种基于扩散的 4D 占有率生成模型 OccSora，用于模拟自动驾驶中的 3D 世界的发展。我们采用 4D 场景tokenizer来获取 4D 占有率输入的紧凑离散时空表示，并实现对长序列占有率视频的高质量重建。然后，我们在时空表示上学习扩散Transformer，并根据轨迹提示生成 4D 占有率。我们在广泛使用的 nuScenes 数据集上进行了大量实验，该数据集带有 Occ3D 占有率注释。OccSora 能够生成具有真实 3D 布局和时间一致性的 16 秒视频，这表明它能够理解驾驶场景的空间和时间分布。凭借轨迹感知的 4D 生成能力，OccSora 有可能成为自动驾驶决策的世界模拟器。

DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model

paper: https://arxiv.org/abs/2410.10429
project page: https://gusongen.github.io/DOME

我们提出了一种基于扩散的世界模型 DOME，它能够根据过去的占用情况预测未来的占用帧。这种世界模型捕捉环境演变的能力对于自动驾驶中的规划至关重要。与基于 2D 视频的世界模型相比，占用世界模型利用了原生的 3D 表示，具有易于获取的标注且不受模态限制。这种灵活性有可能促进更先进世界模型的发展。现有的占用世界模型要么因离散tokens而损失细节，要么依赖于简单的扩散架构，导致预测未来占用情况时效率低下且难以实现可控性。我们的 DOME 具有两个关键特性：（1）高保真度和长时生成。我们采用时空扩散Transformer，基于历史上下文预测未来的占用帧。这种架构能够高效地捕捉时空信息，从而实现高保真度的细节，并具备长时间生成预测的能力。（2）细粒度可控性。我们通过引入一种轨迹重采样方法来应对预测中的可控性挑战，这显著增强了模型生成可控预测的能力。在广泛使用的 nuScenes 数据集上进行的大量实验表明，我们的方法在定性和定量评估中均超越了现有的基准，在 nuScenes 上建立了新的最先进性能。具体而言，在占用重建方面，我们的方法在 mIoU 上比基准高出 10.5%，在 IoU 上高出 21.2%；在 4D 占用预测方面，在 mIoU 上高出 36.0%，在 IoU 上高出 24.6%。

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

paper: https://arxiv.org/abs/2412.10373
code: https://github.com/zuosc19/GaussianWorld

3D 占有率预测对于自动驾驶至关重要，因为它能全面感知周围环境。为了融合序列输入，大多数现有方法将先前帧的表示融合起来以推断当前的 3D 占有率。然而，它们未能考虑驾驶场景的连续性，并且忽略了 3D 场景演变所提供的强大先验信息（例如，只有动态物体在移动）。在本文中，我们提出了一种基于世界模型的框架，以利用场景演变进行感知。我们将 3D 占有率预测重新表述为一个基于当前传感器输入的 4D 占有率预测问题。我们将场景演变分解为三个因素：1）静态场景的自身运动对齐；2）动态物体的局部移动；3）新观察到场景的补全。然后，我们采用高斯世界模型（GaussianWorld）来明确利用这些先验信息，并在考虑当前 RGB 观测的情况下，在 3D 高斯空间中推断场景演变。我们在广泛使用的 nuScenes 数据集上评估了我们框架的有效性。我们的GaussianWorld在不增加额外计算量的情况下，将单帧对应模型的 mIoU 性能提高了 2% 以上。

Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving

paper: https://arxiv.org/abs/2407.21126

环境预测框架对于自动驾驶汽车（AV）在动态环境中的安全导航至关重要。激光雷达生成的占用网格地图（L-OGM）为场景表示提供了可靠的鸟瞰视角，能够实现自监督的联合场景预测，同时对部分可观测性和感知检测失败具有较强的鲁棒性。先前的方法主要集中在网格单元空间内的确定性 L-OGM 预测架构上。尽管这些方法取得了一定的成功，但它们经常产生不切实际的预测，并且无法捕捉环境的随机性。此外，它们还不能有效地整合自动驾驶汽车中现有的其他传感器模态。我们提出的框架在生成架构的潜在空间中进行随机 L-OGM 预测，并允许基于 RGB 相机、地图和规划轨迹进行条件设置。我们使用单步解码器来解码预测，该解码器能够实时提供高质量的预测，或者使用基于扩散的批处理解码器，该解码器可以进一步优化解码帧，以解决时间一致性问题并减少压缩损失。我们在 nuScenes 和 Waymo Open 数据集上进行的实验表明，我们方法的所有变体在定性和定量方面都优于先前的方法。

DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

paper: https://arxiv.org/abs/2405.04390

以视觉为中心的自动驾驶由于成本较低，近来受到了广泛关注。预训练对于提取通用表示至关重要。然而，当前以视觉为中心的预训练通常依赖于 2D 或 3D 的预训练任务，忽略了自动驾驶作为 4D 场景理解任务的时间特性。在本文中，我们通过引入一个基于世界模型的自动驾驶 4D 表示学习框架来解决这一挑战，该框架被称为DriveWorld，能够从多摄像头驾驶视频中以时空方式预训练。具体而言，我们提出了一种用于时空建模的记忆状态空间模型，它由一个动态记忆库模块组成，用于学习具有时间感知的潜在动态以预测未来变化，以及一个静态场景传播模块，用于学习具有空间感知的潜在静态以提供全面的场景上下文。我们还引入了一个任务提示，以解耦适用于各种下游任务的任务感知特征。实验表明，DriveWorld 在各种自动驾驶任务中取得了令人鼓舞的结果。在使用 OpenScene 数据集进行预训练时，DriveWorld 在 3D 物体检测方面实现了 7.5% 的 mAP 提升，在在线地图绘制方面实现了 3.0% 的 IoU 提升，在多目标跟踪方面实现了 5.0% 的 AMOTA 提升，在运动预测方面实现了 0.1 米的 minADE 降低，在占用预测方面实现了 3.0% 的 IoU 提升，在规划方面实现了平均 L2 误差 0.34 米的减少。

MUVO: A Multimodal World Model with Spatial Representations for Autonomous Driving

paper: https://arxiv.org/abs/2311.11762
code: https://github.com/fzi-forschungszentrum-informatik/muvo

为自动驾驶学习无监督世界模型有可能极大地提升当今系统的推理能力。然而，大多数工作都忽略了世界的物理属性，仅关注传感器数据。我们提出了 MUVO，一种具有空间体素表示的多模态世界模型，以应对这一挑战。我们利用原始的摄像头和激光雷达数据来学习一种与传感器无关的世界几何表示。我们展示了多模态的未来预测，并表明我们的空间表示提高了摄像头图像和激光雷达点云的预测质量。

总结

OCC+世界模型的范式具有很大的潜力，相信接下来会有更多的相关工作；
使用diffusion-base的世界模型生成未来时刻的数据这个过程比较耗时，同时多帧以及多传感器的融合策略也可能会影响实时性；
OCC的演变本身依赖于世界模型的生成能力，但是目前训练一个精确理解物理世界演变的世界模型非常困难，因此一定程度上会影响这类模型的性能；
Gaussian的强大表达能力有助于提高帧间的一致性，而且相比NeRF,占用更少的资源，有待进一步探索。

#EnerVerse

智元机器人最新！首个机器人4D世界模型来了！

EnerVerse 主要科研成员来自智元机器人研究院xx算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生，师从 CUHK-MMLab 的李鸿升教授。博士期间的研究课题为基于多模态大模型的xx智能以及高效智能体的研究。在 CoRL、MM、 IROS、ECCV 等顶级会议上，以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的xx算法专家，主要负责xx空间智能与世界模型的研究。

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是xx智能领域的核心科学问题。然而，这一目标的实现受两大关键挑战制约：

模态对齐：需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。

数据稀缺：缺乏大规模、多模态且带有动作标签的数据集。

针对上述难题，智元机器人团队提出了 EnerVerse 架构，通过自回归扩散模型（autoregressive diffusion），在生成未来xx空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型，EnerVerse 深度结合xx任务需求，创新性地引入稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV），在提升 4D 生成能力的同时，实现了动作规划性能的显著突破。实验结果表明，EnerVerse 不仅具备卓越的未来空间生成能力，更在机器人动作规划任务中实现了当前最优（SOTA）表现。

项目主页与论文已上线，模型与相关数据集即将开源：

欢迎访问

主页地址：

https://sites.google.com/view/enerverse/home

论文地址：

https://arxiv.org/abs/2501.01895

如何让未来空间生成赋能机器人动作规划？

机器人动作规划的核心在于基于实时观测和任务指令，预测并完成一系列复杂的未来操作。然而，现有方法在应对复杂xx任务时存在如下局限：

通用模型局限性：当前通用视频生成模型缺乏对xx场景的针对性优化，无法适应xx任务中的特殊需求。
视觉记忆泛化能力不足：现有方法依赖稠密连续的视觉记忆，容易导致生成长程任务序列时逻辑不连贯，动作预测性能下降。

为此，EnerVerse 通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角（FAV）方法，解决了上述瓶颈问题。

技术方案解析

逐块扩散生成：Next Chunk Diffusion

EnerVerse 采用逐块生成的自回归扩散模型，通过逐步生成未来xx空间来引导机器人动作规划。其关键设计包括：

扩散模型架构：基于结合时空注意力的 UNet 结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑（causal logic）保持时间一致性，从而确保生成序列的逻辑合理性。
稀疏记忆机制：借鉴大语言模型（LLM）的上下文记忆，EnerVerse 在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列，有效降低计算开销，同时显著提升长程任务的生成能力。
任务结束逻辑：通过特殊的结束帧（EOS frame），实现对任务结束时机的精准监督，确保生成过程在合适节点终止。

灵活的4D生成：Free Anchor View (FAV)

针对xx操作中复杂遮挡环境和多视角需求，EnerVerse 提出了自由锚定视角（FAV）方法，以灵活表达 4D 空间。其核心优势包括：

自由设定视角：FAV 支持动态调整锚定视角，克服固定多视角（fixed multi-anchor view）在狭窄场景中的局限性。例如，在厨房等场景中，FAV 可轻松适应动态遮挡关系。
跨视角空间一致性：基于光线投射原理（ray casting），EnerVerse 通过视线方向图（ray direction map）作为视角控制条件，并将 2D 空间注意力扩展为跨视角的 3D 空间注意力（cross-view spatial attention），确保生成视频的几何一致性。
Sim2Real 适配：通过在仿真数据上训练的 4D 生成模型（EnerVerse-D）与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代，EnerVerse 构建了一个数据飞轮，为真实场景下的 FAV 生成提供伪真值支持。

高效动作规划：Policy Head

EnerVerse 通过在生成网络下游集成 Diffusion 策略头（Diffusion Policy Head），打通未来空间生成与机器人动作规划的全链条。其关键设计包括：

高效动作预测：生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保动作预测的实时性。
稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的 FAV 观测结果，有效提升长程任务规划能力。

实验结果

1. 视频生成性能

在短程与长程任务视频生成中，EnerVerse 均展现出卓越的性能：

在短程生成任务中，EnerVerse 表现优于现有微调视频生成模型，如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
在长程生成任务中，EnerVerse 展现出更强的逻辑一致性与连续生成能力，这是现有模型无法实现的。

此外，EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

2. 动作规划能力

在LIBERO基准测试中，EnerVerse在机器人动作规划任务中取得了显著优势：

• 单视角（one FAV）模型在LIBERO四类任务中的平均成功率已超过现有最佳方法。

• 多视角（three FAV）设定进一步提升任务成功率，在每一类任务上均超越现有方法。

3. 消融与训练策略分析

• 稀疏记忆机制：消融实验表明，稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

• 二阶段训练策略：先进行未来空间生成训练，再进行特定场景动作预测训练的二阶段策略，可显著提升动作规划性能。

4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块，研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过 EnerVerse 架构开创了未来xx智能的新方向。通过未来空间生成引导动作规划，EnerVerse 不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。

#nuscenesSOTA

东北大学4D时空Lidar分割网络4D-CS

LiDAR点云的语义分割对于自动驾驶和移动机器人系统具有重大意义。大多数方法通过探索多扫描的时间信息来识别每个点的类别和运动状态。然而，这些方法常常忽略了空间和时间上的一致性分割，可能导致同一物体内的点被预测为不同的类别。为了解决这个问题，我们的核心思想是生成跨多个帧的聚类标签，这些标签可以反映物体的完整空间结构和时间信息。这些标签作为显式指导用于我们的双分支网络4D-CS，该网络结合了基于点和基于聚类的分支，以实现更一致的分割。具体来说，在基于点的分支中，我们利用历史知识通过多视图的时间融合来丰富当前特征。在基于聚类的分支中，我们提出了一种新策略来生成前景物体的聚类标签，并将其应用于收集点特征以派生聚类特征。然后，我们合并多个扫描中的相邻聚类以恢复由于遮挡而缺失的特征。最后，在点-聚类融合阶段，我们自适应地融合来自两个分支的信息以优化分割结果。广泛的实验验证了我们所提方法的有效性，并且在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的结果。
代码地址 ：https://github.com/NEU-REAL/4D-CS.git

I. INTRODUCTION

LiDAR点云的语义分割是自动驾驶和移动机器人系统中的一项关键任务，它涉及识别每个点的类别。这对于下游任务，包括语义映射和长期自主导航，具有重要意义。

近年来，一些方法尝试对单个LiDAR帧进行语义分割。然而，这些逐帧分割算法忽略了一些有用的时间知识，特别是过去时刻对物体的不同且互补的观察，这使得处理遮挡和稀疏点的情况变得困难。此外，由于独立分离每一帧，这些方法无法区分LiDAR序列中物体的运动状态，导致在映射过程中出现幽灵效应。

为了克服上述限制，一些方法采用多扫描LiDAR点来恢复物体的完整外观，或利用时空特征来提高场景感知能力。此外，它们还探索了从LiDAR序列中提取潜在运动信息的潜力，以识别物体的运动状态。例如，Memory-Seg通过循环更新记忆特征来补偿当前帧由于遮挡造成的信息丢失。SVQNet通过聚合相邻历史点的信息进行局部特征编码，并选择时间上下文来完成不可见的几何形状，从而取得了有希望的结果。

然而，即使考虑了这种时间信息，有时对实例级信息的适当考虑不足，可能导致属于同一物体的点被归类到不同的语义类别。具体来说，如图1(a)所示，大型车辆的分割结果容易出现截断，因为网络通常关注点分类而忽略了实例级别的理解。然后，如图1(b)所示，尽管在某一时刻可以准确预测物体的运动状态，但模型仍然难以确保相邻时间中分割的一致性。因此，如何在时空空间中实现一致的结果呢？一种可能的方法是聚类。对于具有稀疏分布前景物体的室外场景，像DBSCAN这样的聚类方法可以提供完整的物体外观（见图1(e)和(f)），这适用于指导网络生成满足时空一致性的分割结果。

方法论

A. 概述

在本节中，我们提出了一种基于聚类的方法，称为4D-CS，它提高了同一对象所属点的分割结果的一致性。如图2所示，我们的方法包括基于点的分支、基于聚类的分支和点-聚类融合。对于图2(a)中的基于点的分支，我们首先使用自我运动将多帧点云对齐到当前点的坐标系中，并将它们输入骨干网络以提取特征。为了利用过去的知识，我们使用多视角时间融合（MTF）模块来合并多个视图上的时间特征，从而得到增强特征。对于图2(b)中的基于聚类的分支，我们根据历史预测生成聚类标签，并利用它们从点特征中聚合初始实例特征。然后，提出了一个时间聚类增强（TCE）模块来整合时间聚类特征，这些特征随后被分配给前景点以创建精细的实例特征。最后，在图2(c)中的点-聚类融合阶段，我们采用来自两个分支的特征来预测分割结果，然后在自适应预测融合（APF）模块中自适应地优化每个点的语义类别和运动状态。

B. 基于点的分支

如图2所示，我们使用姿态变换矩阵将过去的扫描转换到当前点的坐标系中。通过堆叠它们，我们可以得到密集点云，其中每个点包含3D坐标和距离激光雷达传感器原点的距离d。在点特征提取过程中，我们采用WaffleIron[14]作为我们的骨干网络，它首先结合K最近邻（KNN）和多层感知器（MLP）为每个点获取粗略的局部特征。此后，将这些点映射到不同视图的2D平面上以提取特征，避免了直接处理大量点云的计算负担。具体来说，我们将点特征沿z轴投影到x-y平面上，并利用2D卷积提取语义信息。然后，我们将2D特征反投影到点云上，并再次沿y轴和x轴映射到其他平面上。通过重复上述过程，我们可以实现高效的特征提取并生成点特征，其中是下采样点的数量。

多视角时间融合：为了充分利用时间信息，我们使用MTF模块将历史信息与当前特征相结合。最初，投影矩阵被应用于将历史特征转换到当前帧的坐标系中。然后，如图3(a)所示，我们依次将转换后的特征和输入对应于x-y、x-z和y-z平面的2D融合块中进行时间融合。2D融合的过程如图3(b)所示。首先，将点特征输入沿特定坐标轴投影到2D网格中。然后，我们在同一网格内平均点特征，得到大小为的2D特征。接下来，它们沿通道维度组合，并使用1x1卷积执行特征融合。然后将2D特征反投影到相应的3D点上，替换原始特征。最后，通过在不同视图上执行上述步骤，我们可以嵌入历史知识并获得增强特征，从而减少由于遮挡造成的信息丢失。

C. 基于聚类的分支

大多数语义分割网络[10],[13]通常缺乏实例级感知，这将导致属于同一对象的点的语义预测不一致（图1(a)和(b)）。为了解决这个问题，我们旨在利用多扫描的聚类结果作为额外信息来增强语义分割中的时空一致性。

聚类标签生成：由于点云序列的连续性，我们可以采用自我运动将过去的扫描与当前点对齐，并将历史预测分配给当前帧。然后，对于被归类为前景的点，我们可以使用DBSCAN将它们分割成多个聚类并获得聚类标签（图1(e)和(f)）。

具体来说，如图4(a)所示，我们通过以下步骤将历史语义预测转移到当前点：(1) 标签初始化：由于关注前景分割的一致性，我们将历史预测映射到背景、前景和道路状。同时，t帧中的所有点都初始化为“未标记”。(2) 非地面标签分配：首先，我们通过变换矩阵将历史非地面点转换到t帧的坐标系中。接下来，我们将3D空间分割成多个大小为的体素，并将历史点输入相应的体素中。通过最多投票操作，基于其点中最常见的类别分配体类。然后，我们根据坐标关系将体类分配给当前帧。(3) 地面标签分配：如果两帧之间存在平移，则当前帧中的地面点可能没有来自历史帧的附近对应点，导致许多地面点在小体素步骤(2)中仍然未标记。因此，我们使用更大更平的体素为“未标记”的点分配道路状标签。

为了获得包含时空信息的前景聚类结果，我们对多帧的堆叠点云进行聚类（图4(b)）。然而，由于前景对象可能在移动，一些邻居Missing or unrecognized delimiter for \left\tilde{C}t={c_i}{i=1}^{N_c}，其中N_c$是中的第j个点，L表示预测的类别。

实例特征聚合：这部分旨在根据聚类标签收集基于点的分支的所有点特征以产生实例信息。一种简单而有效的方法是将同一聚类中的所有点特征聚集起来$$\left{u_i\in R^D\right}{i=1}^{N_c}。同时，点的坐标也被平均以产生聚类中心G_t=\left{g_i\in R^3\right}{i=1}^{N_c}$。然而，由于点云的稀疏性或遮挡，DBSCAN可能会将同一对象的点分割成多个聚类，导致聚类不能很好地反映实例信息。因此，我们提出了一个时间聚类增强（TCE）模块，通过与多帧相邻聚类的组合来补充聚类特征，并提高聚类信息的完整性。

在TCE中，我们通过变换矩阵将历史聚类中心投影到当前坐标系中，并将其与当前聚类组合以获得新的聚类中心和相应的特征密集点，这是多帧如图所示的。然后，我们保留被归类为前景聚类的点，我们使用线性层o查询。并且特征的uisters 被投影到$$和值向量。之后，我们将的通道分成h组，并使用分组向量注意力[16]来聚合靠近的聚类特征，表示为：

其中是位置编码函数，是不同邻居的所有的集合。表示可学习的分组权重编码。同时，增强的聚类特征表示为。最后，我们将聚类特征分配给相应的前景点。对于剩余的点，我们用零填充它们的特征，并得到与大小相同的最终点级聚类特征。

D. 点-聚类融合

为了结合两个分支的语义特征和实例信息，并获得时空一致的分割结果，我们提出了一个自适应预测融合（APF）模块，在点-聚类融合阶段自适应地合并两个分支的预测结果。如图5所示，对于来自不同分支的特征，我们采用特定的头部分别估计每个点的语义类别和运动状态，获得语义逻辑分数和运动逻辑分数。然后，为了对两个分支的预测逻辑分数进行加权，我们将点特征沿通道维度连接起来，并通过两个不共享权重的MLP计算置信度分数，其值范围从0到1。

之后，置信度分数用于合并t的预测逻辑分数可以表示为以下公式：

E. 损失函数

在训练过程中，给定地面真实标签，我们采用每个点的预测语义逻辑分数和运动逻辑分数来计算损失，如下所示：

其中和分别是语义和运动预测的交叉熵损失。和是语义和运动结果的多项式软最大损失[27]。该损失函数作为一个可微分的替代品，旨在优化用于衡量分割质量的交并比（IoU），从而补偿交叉熵损失在优化目标中的不足。

IV. 实验

A. 数据集

SemanticKITTI[31] 是一个广泛使用的室外场景语义理解数据集。它利用64束激光雷达收集点云，并包含22个激光雷达序列，其中序列00至10为训练集（序列08为验证集），序列11至21为测试集。语义分割任务分为单次扫描（19个类别）和多次扫描（25个类别），前者仅区分对象类别，后者还需识别前景对象的运动状态。此外，SemanticKITTI-MOS是另一个基准，仅确定点的动态和静态状态。另外，nuScenes[32] 由32束激光雷达传感器收集的1000个驾驶场景组成，提供16个语义类别。然后，按照[29],[30]的方法，我们使用真实的3D边界框创建额外的8个移动类别。

B. 评估指标

我们采用交并比（IoU）来评估不同方法。IoU定义为，其中TP、FP和FN分别表示真阳性、假阳性和假阴性。由于我们采用了两个分支，我们采用mIoU作为评估指标，它表示所有类别的IoU平均值。对于MOS基准，我们使用移动对象的IoU作为评估指标。

C. 实现细节

在训练和测试过程中，我们使用SemanticKITTI数据集的三连续帧点云作为输入。对于nuScenes数据集，激光雷达以20Hz的频率运行，我们选择时间步长为2的三帧以更好地捕捉对象运动。我们采用WaffleIron[14]（6层）作为骨干网络。与[14]类似，我们通过保留每个10厘米体素中的一个点来下采样点云。对于WaffleIron的超参数，我们在SemanticKITTI上使用和40厘米的网格分辨率，在nuScenes上使用和60厘米的网格。对于聚类标签生成，非地面分配的体素大小设置为，地面分配的体素大小为。此外，我们在没有历史特征的情况下训练网络45个周期，使用两块NVIDIA RTX 4090 GPU。之后，冻结骨干网络，并对剩余模块额外训练45个周期。我们采用AdamW[33]优化网络，权重衰减为0.003，批量大小为6。此外，我们的数据增强策略包括随机翻转、旋转、缩放以及与polarmix[14]结合的实例cutmix。

D. 评估结果

定量结果：如表I和表II所示，我们将我们的算法与其他方法在SemanticKITTI和nuScenes的多扫描语义分割任务上进行比较。结果表明，所提出的4D-CS在mIoU方面达到了最先进的性能。与基线[14]相比，我们在大型前景对象上取得了显著改进，卡车提高了22.5%，其他车辆提高了17.0%，动态卡车提高了26.2%，移动的其他车辆提高了14.7%。在表II中，我们的方法在大多数前景对象上也实现了IoU的提升，特别是对于大型对象，如卡车和公共汽车。这表明显式的聚类先验可以帮助网络关注对象的完整空间信息，而不是依赖于其他算法从有限感受野获得的局部特征，从而获得更好的前景对象分割结果。此外，我们在SemanticKITTI的MOS基准测试集上的表现也进行了比较。我们的方法在测试集上超越了最先进的工作MF-MOS[24]，IoUM提高了6.8%。这验证了在点和实例级别传输历史特征不仅可以提高分割的完整性，还可以增强模型识别对象运动状态的能力。

定性比较：语义定性结果如图6所示。它显示了基线网络在大对象上的分割结果容易因缺乏实例感知能力而出现截断。相比之下，我们的方法在引入聚类信息后可以实现一致的分割结果。此外，对于图7中显示的移动对象定性结果，基线模型仍然难以完全分割移动对象，而我们的方法成功实现了这一点。总体而言，我们的方法在准确一致地识别前景对象的类别和运动状态方面具有更强的能力。

E. 消融研究

在本节中，我们在SemanticKITTI数据集的验证集上进行了全面的消融实验。

F. 运行时间和内存

在本节中，我们使用NVIDIA RTX 4090 GPU来测量SemanticKITTI数据集上多扫描语义分割的推理时间。使用三帧点云，我们的基线方法（WaffleIron）需要117毫秒，并占用8.2 GB的内存。相比之下，我们提出的算法需要151毫秒的网络处理时间和5毫秒的聚类标签生成时间，使用9.9 GB的内存。

结论

文章的主要贡献如下：

● 一个使用显式聚类信息来解决同一前景物体内点类别不一致的双分支分割网络。

● 一种获取聚类标签的新策略，伴随着三个模块：多视图时间融合、时间聚类增强和自适应预测融合，旨在通过利用实例信息和整合时间特征来改进分割。

● 在SemanticKITTI和nuScenes数据集的多扫描语义和移动物体分割上取得了最先进的性能。我们的代码将很快发布。

文章名字：4D-CS: Exploiting Cluster Prior for 4D
Spatio-Temporal LiDAR Semantic Segmentation

#DrivingWorld

一次搞定自驾场景的可控生成和长时序生成？科大和地平线提出：基于视频GPT构建自动驾驶世界模型

本文介绍了港科大和地平线联合提出的DrivingWorld模型，该模型基于视频GPT构建，能够实现自动驾驶场景的可控生成和长时序生成，通过创新的空间-时间解耦机制和高效的编码解码模块，显著提升了视频生成的质量和长度，为自动驾驶技术的发展提供了新的支持。

DrivingWorld的主要作者是来自香港科技大学和地平线公司的研究团队，他们专注于世界模型和自动驾驶技术的研究，力求在这两个领域做出更多的贡献。

论文地址：https://arxiv.org/abs/2412.19505

代码地址：https://github.com/YvanYin/DrivingWorld

1. 背景介绍：

世界模型（World Model）是一种可以模拟世界动态的模型，能够基于过去的观测实现对未来状态的预测，因此被视为实现AGI的关键途径。世界模型在自动驾驶领域展现了巨大的潜力，不仅具备对环境和驾驶状态的深刻理解，还为未来轨迹预测与自动驾驶决策提供了重要支持。然而，要通过World Model实现高逼真度的驾驶场景生成并非易事。香港科技大学与地平线联合推出的基于自回归架构的DrivingWorld模型，为构建精准的自动驾驶世界模型带来了全新突破。

2. 为什么世界模型要采用自回归模型？

同样是输出未来的视频，为什么不采用扩散生成模型（Diffusion Model），而是采用自回归模型？为了回答这个问题，小编向GPT-4o询问了这个问题。

3. 如何实现这一步呢？

美国知名公司Wayve率先展示了针对自动驾驶的世界模型GAIA-1。该模型采用了自回归路线，但是由于其采用的传统GPT框架缺乏空间与时间动态建模能力，其生成视频质量与时间都有很大提升空间。

，时长00:11

为解决这个问题，DrivingWorld创新性地引入空间-时间先解耦后融合的机制，提出了一种基于Next-State自回归式框架的方法，用于实现超长时序视频预测和可控的视频生成。尽管相关领域已有一些研究，但是DrivingWorld在视频生成长度方面仍然取得了明显突破。

高效的视频可量化的编码和解码模块：首次提出视频可量化编码解码器，相比于单张图压缩方案，在降低视频抖动和提升连续性方面取得了明显改进，FID指标上相对于SOTA提升了17%；
解耦时序信息和多模态信息实现可控预测和超长时序预测：DrivingWorld能够生成未来>40s的video，相较于当前的SOTA方法（最长15s）在时序长度上有了显著提升；
高效的自回归模型设计以实现并行化预测：DrivingWorld采用了空间-时间先解耦后融合的设计，采用next-state prediction的自回归策略，有效降低了token预测的时间复杂度，在复杂视频生成任务中展现了良好的性能表现。

4. 实验结果：4.1 长时序生成

以下展示了一个长时序视频生成的示例。DrivingWorld在不同帧之间能够捕捉到连贯的3D场景结构。

4.2 解决Drift问题

在生成长序列时，模型经常会因为误差积累导致显著的drift问题。DrivingWorld引入了一种有效的mask token策略，可以缓解drift的影响，从而提升生成质量。

4.3 生成质量评估

DrivingWorld与现有的SOTA方法在NuScenes验证集上进行了性能比较。其中，蓝色表示 NuScenes数据被包含在模型的训练集中，橙色则代表zero-shot测试结果。“w/o P”指未使用私有数据进行训练的情况。具体对比结果如下：

从结果可以看出，DrivingWorld 模型不仅能够生成更长的视频序列（最长达40s / 400帧），同时在FID和FVD上也展现出了较强的竞争力。

4.4 更多Demos展示

4.4.1 可控生成

，时长00:18

，时长00:20

，时长00:29

4.4.2 长时序生成demo

，时长00:51

，时长01:02

5. 未来工作：

展望未来，DrivingWorld 还有很大的发展潜力。DrivingWorld 的研究团队计划进一步融入更多模态信息，如车辆传感器数据、地图信息等，并整合多视图输入，如不同角度的摄像头画面。通过全方位融合多模态和多视角数据，有望进一步提升模型在复杂驾驶环境下的理解能力、动作控制精度以及视频生成的准确性，从而推动自动驾驶系统整体性能和可靠性迈向新的高度，为自动驾驶技术的广泛应用奠定坚实基础。

#自动驾驶决策规划 - 基于模型的预测方法

1. 预测系统概述

通过已有的感知信息及常识，推理出目标一段时间后的行为，来决定自己当前的动作。

自动驾驶系统架构

1.1 预测系统的必要性

Cut In 场景

对于隔壁车道目标 cut in 场景，如何平衡召回率（Recall）和准确率（Accuracy），对决策规划分别有何影响？

如果recall过低，隔壁车辆切入，会存在误检，存在碰撞风险。
如果Accuracy过低，可能存在误识别隔壁车切入，存在误制动问题。

召回率（Recall）和准确率（Accuracy）

召回率（Recall）和准确率（Accuracy）都是用于评估分类模型性能的重要指标，但它们侧重点不同，适用于不同的场景。

召回率（Recall）

召回率主要衡量的是模型能够识别出多少实际存在的目标（正样本）。它的核心关注点是减少漏报，即确保尽可能多的目标被正确识别，特别是在自动驾驶场景中，涉及检测行人、车辆、障碍物等时尤为关键。

其中，TP（True Positive）：正确预测为目标的数量，FN（False Negative）：漏掉的实际目标的数量。
召回率高意味着系统漏掉的目标较少，减少了碰撞或事故的风险，但它可能会增加误报的风险。

准确率（Accuracy）

准确率衡量的是所有预测中，模型预测正确的比例。它包括正确的正样本（TP）和负样本（TN）。

其中，TN（True Negative）：正确预测的负样本，FP（False Positive）：误报的负样本。
准确率高并不总是意味着模型好，特别是在数据不平衡的情况下。

预测结果的的多模态性、不确定性。

意图多模态，预测不可能百分百准确。预测系统主要考虑一下几个问题：

如何基于环境信息进行建模？
模型应该输出哪些信息？
对于长时间的预测应该怎么做？

预测结果多模态、不确定

1.2 预测系统的架构

输入表征：agent feature、map、其他辅助信息.

输出表征：trajectory\intention、object、scenarios.

预测系统架构

轨迹预测的输入输出

1.3 预测系统的发展

预测系统的发展

2. 定速度预测

一维匀速运动模型：感知信息不确定，道路结构缺失等情况，适用CV 模型。

目标做匀速直线运动，加速度为0。现实中速度会有轻微扰动变化，可视为具有高斯分布的噪声。

一维运动：仅沿着 x 轴或 y 轴方向运动，因此状态向量只需要描述位置和速度。

一维状态向量：

局限：与感知耦合密切, 目标的yaw 与 velocity会影响预测的轨迹。感知系统存在的误差，会直接影响到预测。

二维匀速运动模型

二维模型：在 x-y 平面上运动，状态向量需要同时描述 x 和 y 两个方向的位置和速度。

二维连续模型

二维离散模型

3.定曲率预测

目标车过去按照某一曲率运动，假设会继续按照该曲率运动。

定曲率意味着物体的运动轨迹具有恒定的曲率，即轨迹为一个圆弧或圆的一部分。
在物体运动时，转向角速度（yaw rate）保持不变，因此物体会沿着一个固定半径的圆弧运动。

定曲率预测模型

缺点：曲率估计不准确时，误差会比较大。

定曲率预测的bad case

共同局限：长时间区间会失准！

定速度、定曲率预测对比

4. 短时预测与长时预测

预测不确定性随着预测时间变长显著增大。

短期预测：基于运动学模型或者预测网络，完成短时推演，一般为 3s。
长期预测：结合意图预测，稳定长时预测，避免远端发散，符合道路结构一般为 8s+。

如何解决预测时间越长，预测越不准确的问题？引入意图预测。

5. 基于手工特征的意图预测

意图：预先定义的车流行为，如变道，左右转等。意图一般会绑定到车道、路口两个信息上。
分类：基于车辆的行为特征，对车辆的意图进行分类。意图转变为分类问题。

常见预测场景

5.1基于SVM的意图分类

支持向量机Support Vector Machine（SVM）

支持向量机Support Vector Machine

以预测目标车是否会变道为例，二分类问题。

手工特征标记：距离目标车道的横向距离、距离目标车道的横向速度、道路实线、虚线、目标车与前车的距离或者速度等等。

特征如何选取？选择哪些维度？拓展特征维度有什么意义？
变道前一段时间，预测出其变道行为，需要提前多久？（超参，变道趋势不一样。如果较早，缓慢变道与Lane keep不易区分，较晚，较低预测性能）

预测目标车是否会变道

SVM 输入输出案例

5.2 基于神经网络的意图预测

将原始信息进行编码，使用高维向量进行输入，通过多层感知机预测障碍车会选择哪一条车道行驶，输出每个车道线的概率。DNN + Rule兜底。

Apollo 5.0

5.3 其他的输出建模方法

将路口进行扇区划分进行交通路口的变道意图预测

输入：障碍物自身运动历史，路口车道信息，周围其他障碍物信息。
模型：以障碍物车朝向为参考方向，划分为12个扇形区域；记录每个扇形区域内是否有离开该路口的车道；将问题转化为12元分类问题。
输出：每一个扇形区域行驶的概率，然后对扇形区域内的所有lane segment赋上概率。

Apollo 5.0 对路口的处理

5.4 其他的输入建模方法

人工构造的输入特征有天然局限性

输入：语义地图渲染的方式，将障碍车的历史运动状态、车道的形状与连接关系，以及其他车的运动状态和历史，都转化为图像信息。（看图说话，根据图像信息，预测目标轨迹）

Multimodal Trajectory Predictions for Autonomous Driving using Deep Convolutional Networks

5.5 其他的分类模型建模

基于隐马尔可夫模型的意图估计

马尔可夫模型

6.基于模型的轨迹预测

6.1 如何将短时轨迹结合长时意图，生成长时轨迹？

长时轨迹生成 -> 轻量化的planner

通过意图估计得到目标车要驶入某个车道，并根据运动趋势等得到短时的运动轨迹，如何构造出长时预测轨迹？

优化目标：贴合短时轨迹、符合常识意图

约束条件：满足运动学约束、与地图等信息匹配

寻找一个规划器，得到未来的轨迹点，并且要做到轻量化。

Planner 三把斧：搜索、采样、优化，对该问题，不适用。使用现有的轨迹生成方式，如贝塞尔曲线、样条曲线等。

曲线生成方式

控制点的生成策略 --> 决定曲线的生成。意图预测判断出车道后，可以灵活基于地图抽取控制点。

Bezier曲线基本原理

Bezier曲线基本原理

Bezier曲线的数学方法

基于Bezier曲线的长时轨迹生成过程

意图预测 --> 根据意图查询地图，得到车道信息等 --> 长时控制点
短时预测轨迹 --> 短时控制点
长时控制点+短时控制点 --> 短时控制点与长时控制点衔接、插值去重拟合 --> 长时轨迹

基于Bezier曲线的长时轨迹生成过程

6.2 EPSILON: Intention Prediction Network

arxiv.org/pdf/2108.07993.pdf

Intention Prediction Network Pipline

Agent历史轨迹 --> 特征抽取 --> 坐标转换/编码 --> 拼接/解码/归一化 --> 候选路径及概率

思考：全局归一化是否合适？

Intention Prediction Network Structure

Intention Prediction Network Application

意图到轨迹：使用前向仿真,forward simulation，对于交互更加友好些，完成长时轨迹推演。

#图森未来创始人陈默终结了造车项目

我的造车创业画上句号了，以后也不会再涉足。”

图森未来的创始人之一陈默，这样告诉我们。

智能车参考刚刚获悉，图森转型AIGC并改名CreateAI后，掌舵人陈默决定不再投入造车，之前创立的氢燃料重卡公司Hydron准备出售。

Hydron曾有个中文名图灵智卡，是为了配合图森自动驾驶业务而生的卡车新势力。

曾在创办第一年以10亿美金（70亿RMB）估值一鸣惊人，但现在也随着图森自动驾驶业务的谢幕，走向结局。

70亿造车独角兽，要卖了

图森未来的北京总部办公室现在已经挂上了“CreateAI”的牌子。董事长陈默的办公室大门上，赫然写着新Title：首席制作人。

办公室的陈设充满戏剧性对立：桌子上还摆放着重卡发动机模型，陈默说是当年合作造车的车企送的；而黑板上张贴的则是金庸群侠传的游戏项目资料。

一边是未尽的过去，另一边是还未开始的未来。

就在这间办公室中，陈默向智能车参考透露了最终决定：终止造车项目Hydron，寻找买家接手。

并且悉数清盘，不做任何保留。这也是陈默目前与汽车、自动驾驶相关的最后一批“硬”资产。

它们包括一辆车长5米7，轴距3米4的全尺寸SUV MARK X：

非承载车身，7座。搭载200度磷酸铁锂电池，分双电机和四电机版本，续航均超过700公里。

一辆车长5米1，轴距3米1的中大型SUV MARK Y：

承载式车身，5座。搭载112度磷酸铁锂电池，有双电机四驱和单电机后驱两个版本，续航分别对应520和550公里。

以及一辆车长5米9，轴距3米7的全尺寸皮卡 MARK T：

底盘形式，动力、续航参数和7座全尺寸SUV相同。

三款车都搭载博世的辅助驾驶功能，包括最基本的L2全家桶：

每款车也有对应的右舵版本。

这两款SUV和一款皮卡车，就是Hydron 3年造车的全部成果和最有价值资产。

陈默强调，三款车不是PPT，而是高度完成状态的准量产车。

从汽车正向研发流程来看，Hydron已经完成了最重要的前三个阶段：

1）概念设计阶段的总体布局、造型设计、油泥模型。
2）工程设计阶段的布局、造型验证，动力总成、白车身、底盘、内外饰、电气架构设计。
3）样车试制阶段风洞、场地、道路等等实验。

甚至在决定停止投入之前，已经确定了部分供应链，走到了量产前夜。

对于愿意接手的买家来说，“Hydron是到手就能直接量产的优质资产”。

并且要价还不高，陈默自述在这场交易中只寻求偿还股东投资。

Hydron公开的融资总额是8000万美元，约合5.8亿人民币，也是Hydron的全部融资。

而如今寻求出售，陈默直言：

只要价格合理都能接受，可以不要求8000万美元。

多少钱算合理？国内设计款车至少一个多亿人民币，同时还能节省两年设计时间…

至于股东层面，陈默说一开始就不存在什么对赌协议，而且投资人对Hydron的进展、成果也都认可，“尽量偿还投资，是达成的一致共识”。

不过有一个明显问题：

之前Hydron以卡车新势力身份亮相，并且明确和图森自动驾驶落地相互配合，这也是投资人认可入局的核心因素。但造车3年后，成果却是电动SUV。

为什么发生这样的重大转变？投资人又为什么会认可？

和图森经历的一系列风波，有直接关系吗？

Hydron从何而起，又为什么要卖

陈默向我们梳理了Hydron的时间线。

图森未来在北美最早合作的卡车厂名叫Navistar，陈默回忆当时因为Navistar规模小、业务弱，希望借图森的技术“翻身”，所以在合作中图森话语权较高，能更好贯彻自动驾驶公司的追求和理想。

但2021年大众收购了Navistar，合作中的话语权也转向以车厂为主。

图森判断以自己为运营主体的合作形式可能生变（后面也被证实）。所以在2021年中，Hydron被提上日程，一开始是作为技术落地的车辆储备，随后不久就被确认为全力配合图森的L4量产计划。

当时，包括侯晓迪在内的董事会一致通过了相关决议，由陈默牵头去做Hydron，并且留下了相关会议记录。

陈默着重强调的是，侯晓迪自始至终都知晓Hydron的存在，而这也成为后来董事会发难、开除侯晓迪的导火索之一。

Hydron造氢能卡车的过程中（已有几台样车上路测试），实际已经和图森的业务产生了协作。比如陈默透露，侯晓迪曾经就传感器的类型位置等等向Hydron提出过要求。

2022年，图森高层先后发生了几次重大变动。首先是3月，陈默辞任图森董事长，6月又退出了图森董事会，本人的说法是“专心经营Hydron”，也避免给图森带来监管层面的额外麻烦。

随后图森的事件走向失控。

先是6月侯晓迪提出“二选一”，于是陈默出面“劝退”吕程，让侯晓迪将董事长、CEO、CTO三权集于一身。

随后“以白人为主”的图森董事会发起了对在任的侯晓迪、以及离任的陈默的一系列调查，认为图森和Hydron存在不合规的技术转移，并且在10月罢免了侯晓迪的一切职务。

陈默说自己对其中的细节不甚知情，因为他本人当时在国内忙Hydron相关的事：“实在不明白大权在握的侯晓迪，怎么就这么轻易被解除职务了”。

但陈默提到，当时侯晓迪在面对董事会，以及后续监管调查中撒了慌，“说对Hydron毫不知情”。

陈默同样表示不理解侯晓迪为何做出这样的表态，不过他推测，这样的行为可能是董事会将他赶出公司的原因之一。

后面的故事我们详细追踪过。11月，陈默回归，与侯晓迪联合行使超级投票权清理了旧董事会，随即由唯一董事侯晓迪重新任命吕程为CEO、陈默为董事长。

侯、陈、吕重新形成同盟，但分歧也越来越严重。

陈默、吕程的观点是，因为地缘政治等等不可抗因素，图森在北美落地自动驾驶几乎无望，所以主张卖掉北美业务，转战中国、澳洲、日本等等市场。

但陈默说侯晓迪“坚决不同意，一定要在北美做自动驾驶，并且在22年底秘密启动了全新的L4级自动驾驶卡车项目”，也就是2023年公布的Bot Auto。

此时，图森落地北美无望，其他海外市场表态又模棱两可，于是陈默开始考虑Hydron业务的转型，并且最终选择了北美和国内市场都处于空白的全尺寸新能源SUV，以及衍生的电动皮卡品类。

时间快进到2024年3月，图森最终和北美监管达成“和解”，但也彻底失去了自动驾驶落地的机遇，海外市场大门紧闭，核心技术人才持续流失。

2024年底图森决定转型AIGC赛道，专注动漫影视。

因自动驾驶梦想而诞生的Hydron，最终也被决定清盘出售。

主导Hydron 3年，陈默怎么评价

Hydron之所以走到今天这一步，与图森遭遇的地缘政治挫折有很大关系。

最后和北美监管达成的所谓和解协议，图森在书面承认唯一的“过错”，就是转岗了几个员工到Hydron，既无利益输送，更谈不上耸人听闻的“安全因素”，否则双方也不会以“和解”告终。

对于侯晓迪和管理层之间的分歧，陈默评价为“科学家的追求”和“商人特性”的天然冲突，谈不上谁对谁错。

不过正是这样的分歧，让图森和Hydron在CIFUS禁令发出前，错失了最后闪转腾挪的窗口。

至于Hydron本身的业务，陈默给予相当高的评价，认为它相对国内海外，都是优质资产。

首先产品本身属于市场稀缺品类，完成度还很高，到手即可量产。

其次，资金利用率高，8000万美金完成3款新能源量产车，没有额外负债。

第三，没浪费投资人的钱，没有对赌协议，没有股权纠纷，而且Hydron没欠员工一分钱。

如短期无人愿意接盘，陈默也做了长期打算：目前Hydron团队已经收缩到最小（大约10人左右），可以用极低成本维持，继续寻找买家。

但无论最终Hydron是否成功出手，对于陈默而言，自动驾驶、造车的生涯都要画上句号，以后不会再涉足了。

“做AIGC的成本可控，只有自动驾驶的1/5甚至更低，2026年图森就能开始赚钱”，动漫和游戏也是陈默个人爱好所在。

2024年12月底的图森股东大会，结果是包括陈默在内的6名董事全员保留，说明股东同样认可支持图森的转型规划。

“如果当年从未参与过图森的任何事务，我会比现在快乐得多”——CreateAI 的首席制作人陈默，这样感叹和总结自己的图森生涯。

#地极华理魔元舟远博歌

智驾2024的10个第一

2024年，智驾市场竞争已经进入白热化阶段，头部企业已经展现出了先发优势。我们汇总了10个行业第一，记录2024年的智驾市场。

Momenta

城市NOA市占率第一

最近，佐思汽研公布了一项研究数据，在2023年1月至2024年10月期间，Momenta城市NOA的市场份额达到60%，位列第三方智驾公司市场第一。

目前城市NOA规模量产上车的国内第三方智驾供应商主要有5家：Momenta、华为Hi模式、Bosch+WeRide、百度和元戎启行。也就是说在与华为，博世，百度等大公司PK的过程中，Momenta拔得头筹。

Momenta能够突围绕不开3个因素：首先是成立时间早，Momenta成立于2016年，是最早一批智驾公司；第二个就是战略选择，当时大部分自动驾驶公司都押宝L4自动驾驶，Momenta是为数不多坚持渐进式路线的玩家。这也让它获得了一众车企的青睐，赢得了不少战略投资，包括丰田，上汽，奔驰都是Momenta的股东，这也奠定了双方在后期的合作基础。

最后一个就是技术实力，这个其实和前两个有一定的因果关系，因为出发得早，且路线坚定，所以技术积累深。按照官方的宣发口径来看，Momenta和元戎是目前唯二实现一段式端到端量产上车的第三方智驾供应商，还有一个是主机厂理想。

Momenta CEO曹旭东一直有一个观点，将来独立第三方智驾玩家不会超过3个，而且是721的市场配比，Momenta会是其中一家。至少在今天看来， Momenta的可能性还是很大的。

地平线

计算平台出货量最多的

国内智驾公司

2024年可以说是地平线持续攀升的一年。征程家族累计出货量突破700万，2024年4月发布的征程6目前累计已经拿下20+合作伙伴。预计2025年出货量将突破千万。

此外，蔚来第三品牌萤火虫已经官宣采用地平线方案。至此，新势力蔚小理三强，地平线已经拿下其二。显然已经成为国内智驾上最具潜力的独角兽公司。

值得注意的是，不止计算平台，在智驾算法上，地平线也在努力引领行业标杆，其集合全部优势资源打造的城市领航高阶智驾功能SuperDrive在2024年已经准备就绪，并且计划在2025年上半年量产。地平线创始人余凯将其称之为捅破天的智驾技术。和单纯聚焦软件算法的公司不一样，地平线软硬结合的能力无疑让智驾能力拥有更多可能性。

极氪

首个自研智驾交卷的传统车企

2024年，极氪智驾实现了1年2次提速，2024年初计划城市领航在2025年初上线，但是8月份直接提升到2024年底，然而到了10月，极氪直接宣布智驾城市领航功能公测用户推送。速度之快甚至让很多新势力都望尘莫及。

刚刚结束的CES 2025展会上，极氪再放大招，宣布基于英伟达Thor芯片自研了智驾域控，通过低成本、高性能，多接口的优势，提升极氪在智驾上的平台化能力。

一个值得注意的事情是，虽然大部分传统车企目前都在采用第三方智驾公司的方案，但也没有丢下自研路线。每家车企基本都有自己的嫡系部队，有的是单独的子公司，比如长城毫末，奇瑞大卓等；有的是集团的智驾部门，比亚迪研究院，上汽研究院，吉利研究院等。

在所有转型的车企中，极氪无疑是最值得研究的一个样本。它是第一个交卷的企业。甚至从某种程度来说，极氪智驾的成败会直接影响所有传统车企对智驾自研的重新评估。因为不管牵头人还是资源供给，极氪都堪称传统自研派最豪华的阵容，如果极氪都搞不成，其他传统自研车企的可能性也不会太大。

理想

智驾成长最快OEM

2024年应该是理想对外阐述智驾理念最多的一年。这一年理想在智驾项目上急下猛药，连续实现了两段式端到端到一段式端到端的跨越，并且还在预研更新的VLA系统。根本原因在于理想认为智驾已经成了用户购车的首要因素。理想自己内部数据显示，其AD MAX车型销售比例从上半年的20%上升到了下半年的50%。

从“端到端+VLM”，从智能汽车到硅基家人，李想甚至“魔怔”地把公司定位都改了，并不是一家汽车公司，而是一家人工智能公司。2024年，理想无疑是智驾上成长最快的公司，但智驾除了先进的算法还有工程落地的苦活累活，欲速则不达。希望理想能够走得快更要走得稳。

轻舟智航

第一家高阶智驾交付

突破50万的智驾公司

2024年底，轻舟智航宣布其「轻舟乘风」NOA智驾方案累计上车量突破50万，并且成为第1家达成50万级量产交付的中高阶智驾方案商。这里的高阶智驾主要指的是高速NOA功能。

此外，轻舟智航还获得了业内首个基于征程6M的量产新定点。

轻舟智航在智驾圈一直是一个非常励志的存在。它并不是最早一批成立的智驾公司，同期成立的很多企业要么倒闭，要么目前处境艰难，只有轻舟上升势头正猛。2024年连续获得2轮融资，高阶方案上车量不断突破，并且获得新定点。

这得益于轻舟对市场和技术的敏感度。2021年之前，轻舟主要聚焦L4无人小巴。2021年以后，随着辅助驾驶量产上车，轻舟开启双线并行战略。不管L4还是L2，轻舟始终以商业落地作为第一驱动要素。L4聚焦更容易落地的无人小巴，L2先发更容易落地的高速NOA。这使得即便在市场艰难时期，轻舟也具备一定的造血能力。

博世

第一个智驾交卷的国际Tier1

汽车圈新势力不只是主机厂，还包括供应商。相较于地平线，Momenta等新科技公司，博世在汽车供应商里也算是妥妥地老牌大厂。

外界喜欢说大象难转身，但这些对博世并不存在。博世中国仅用了18个月就完成了高阶智能驾驶的量产，成为全球首个量产高阶智驾的国际Tier1，涵盖城市领航，智能泊车等功能。目前已经在奇瑞星途星际元上车，并且完成了5次重大OTA。

按照计划，博世的两段式端到端无图智驾方案也将在近期推送上车，并且计划在2025年年中推出一段式端到端。而基于地平线J6E/M平台开发的博世中阶智驾，也计划在2025年年中本土量产交付。

面对来势汹汹的打擂者，博世在用实际行动捍卫国际大厂的威严。

文远知行

全球Robotaxi第一股

2024年10月，文远知行在纳斯达克上市，成为全球通用自动驾驶第一股。

我一直觉得在所有自动驾驶公司里，文远是一个比较另类的存在。有两个点值得注意：首先是商业化能力，自动驾驶很难，但文远知行似乎却似乎一直游离在艰难之外，在商业化上总能找到见缝插针的机会。文远的L4无人环卫和无人小巴已经获得了规模化运营，拥有持续造血能力；

第二，文远也是全球所有自动驾驶公司中布局最广的企业，涵盖自动驾驶出租车、自动驾驶小巴、自动驾驶货运车、自动驾驶环卫车、高阶智能驾驶五大板块。由于商业化问题，其他自动驾驶公司一直在收缩，聚焦，但文远始终坚持多线并行。

2024年以来，随着技术突破，自动驾驶也在持续迎来利好，文远前期的布局最多，一旦自动驾驶开花结果，收获也就最多。

华为

智驾系统上车最多

2024年，华为是国内智驾系统上车车型最多的品牌，智选车+HI模式差不多10+车型。包括问界，享界，智界，尊界共6款车型，HI模型长安系阿维塔和深蓝，岚图，极狐，埃安等8款左右，总计超过10＋车型。上车数量越多就意味着更多的数据积累，更好的用户反馈来推动系统迭代。

华为在智驾圈一直有极高的影响力，但是很多人并不理解到底强在哪。如果单纯把某一项拿出来对比，华为都不算是最强的。智驾算法目前上车一段式端到端的有Momenta，元戎和理想，华为要到今年上半年才能上车一段式端到端。激光雷达最强的是禾赛和速腾，芯片最强的是英伟达。

华为的强项主要在两点。一个是智驾的体系能力。华为拥有全套智驾解决方案，包括算法软件，数据处理算法，激光雷达，芯片，域控等硬件，包括再上层的云计算中心，系统能力保证了华为的全局掌控力。

另一个是强大的工程能力。在智驾完全实现AI数据驱动之前，智驾依然是个堆人力的工作，需要大量的人力资源去干更多的脏活累活，比如在开城泛化方面，有的企业10城为一个网格，广州深圳珠海汕头等，只要在深圳调试完成之后，这个网格里的所有城市全部推送，这就导致不同城市的智驾差异性非常大；而有些企业开城的网格划分非常细，可能5个城市，甚至2个城市一个网格，每个网格派专门的人员去做开城测试。人力越多，意味着开城的网格划分越细，体验也就越好。

朗歌科技

CVPR 2024

国际自动驾驶挑战赛最佳选手

自从2023年余承东，何小鹏公开抨击高精地图之后，高精地图在智驾领域的声音每况愈下。车企们甚至将“无图”宣传作为技术强弱的判定标准。（这里“无图”主要指的是没有高精地图）

2024年，朗歌科技的一条重磅信息将智驾地图重新拉回舞台中央。当年6月5日，CVPR 2024 国际自动驾驶挑战赛（Autonomous Grand Challenge）落下帷幕，朗歌科技在无图驾驶（Mapless）上斩获全球冠军与创新奖。其核心是以HD自动化和轻地图全自动的周天多模态地图大模型为基础，利用标精地图提供的道路拓扑先验，引入辅助深度监督，并提出了一种混合时序融合模块，获得了最好的道路拓扑结构认知性能。从而大幅提升智驾在复杂场景下的能力。

智驾的泛化要求确实让高精地图的生存受到了挑战，但朗歌等新贵们也在用实际行动告诉主机厂，智驾地图不可或缺。

元戎启行

智驾供应商最大单笔融资

2024年以后3年，智驾公司将会迎来最后的鏖战阶段。大家都很难再拿到外部融资，基本都拼的是自造血能力。在这样的市场大背景下，元戎启行拿到了长城汽车的一亿美元融资，这是智驾供应商2024年的最大一笔融资。（这里默认华为属于主机厂阵营）

元戎的突围很大程度上得益于其在技术上的激进策略。元戎身上带着创始人周光很深的激进主义色彩。按照周光的说法，从前融合到无图NOA，再到端到端方案，元戎都是最早提出这些理念的选手。

有主机厂的人透露，其实在2023年中旬元戎就搞出来端到端架构，并且邀请主机厂的人测试。

元戎智驾之路并非一帆风顺，之前聚焦L4和城市快运，后来转型L2聚焦城市领航，端到端到来之后，元戎希望通过一套系统实现城市领航和Robotaxi两个场景的覆盖。好在大决战前夕，元戎拿到了充足的弹药。并且建立了深度合作关系。

以上就是2024年智驾行业的10个第一，在接下来3年是自动驾驶大规模量产的3年，也是竞争最激烈的3年，以上选手未必每个都能留在牌桌上，但胜者大概率会从他们中产生。拭目以待。

#世界模型与自动驾驶场景生成

框架

mmagic：https://github.com/open-mmlab/mmagic

综述

World Models for Autonomous Driving: An Initial Survey

The JEPA model aims to construct mapping relationships between different inputs in the encoding space by minimizing input information and prediction errors.

Towards Knowledge-driven Autonomous Driving

Embodied AI is a facet of intelligence emphasizing the direct interaction between an intelligent system and its environment, involving perception, understanding, and action.

扩散模型

Diffusion model

扩散模型 - Diffusion Model【李宏毅2023】_哔哩哔哩_bilibili

Diffusion扩散模型大白话讲解，看完还不懂？不可能！

多模态预训练CLIP

Diffusion论文：Denoising Diffusion Probabilistic Models

StableDiffusion论文：High-Resolution Image Synthesis with Latent Diffusion Models

Diffusers

stable-diffusion-v1-5权重地址：runwayml/stable-diffusion-v1-5 at main

pytorch手写Diffusion Model：The Annotated Diffusion Model

Stable Diffusion with Diffusers

手写扩散模型-diffuers介绍_哔哩哔哩_bilibili

世界模型

GAIA-1（2023.9.29）

MAGICDRIVE（2024.1.26）

论文地址：MAGICDRIVE: STREET VIEW GENERATION WITHDIVERSE 3D GEOMETRY CONTROL

github：https://github.com/cure-lab/MagicDrive

Drive WM（2023.11.29）

https://github.com/BraveGroup/Drive-WM?tab=readme-ov-file

MUVO（2023.11.23）

多模态生成

DriveDreamer（2023.11.27）

https://github.com/JeffWang987/DriveDreamer

https://drivedreamer.github.io/

DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation（2024.3.11）

多视角视频生成

WorldDreamer

https://world-dreamer.github.io/

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)

Driving with LLMs

DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models（2024.2.25）

DriveVLM集成了场景描述、场景分析和分层规划的思维链（CoT）模块

VLM计算量大，提出DriveVLM Dual，将DriveVLM的优势与传统自动驾驶流水线协同混合

据说可以部署在orin芯片上，但猜测只是在orin上跑通，还没有大规模部署到车上

DriveVLM识别了一个倒塌的树木，并给出了稍微向右偏移的驾驶决策

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

论文地址：Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

github：https://github.com/wayveai/Driving-with-LLMs

ADriver-I: A General World Model for Autonomous Driving

GAN（图生图）

CYCLEGAN

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

mmgeneration：https://github.com/open-mmlab/mmgeneration?tab=readme-ov-file

Lidar GAN

GAN-Based LiDAR Translation between Sunny and Adverse Weather for Autonomous Driving and Driving Simulation

#LargeAD

用于自动驾驶的大规模跨传感器数据预训练

论文链接：https://arxiv.org/pdf/2501.04005
项目主页：https://ldkong.com/LargeAD

摘要

本文介绍了LargeAD：用于自动驾驶的大规模跨传感器数据预训练。视觉基础模型（VFMs）的最新进展彻底改变了2D视觉感知，但是它们在3D场景理解方面的潜力（特别是在自动驾驶应用中）仍然没有得到充分探索。本文引入了LargeAD，这是一种专门为跨不同现实世界驾驶数据集的大规模3D预训练而设计的多功能、可扩展框架。本文框架利用VFMs从2D图像中提取语义丰富的superpixels，它们与激光雷达点云对齐以生成高质量的对比样本。这种对齐有助于跨模态表示学习，增强2D和3D数据之间的语义一致性。本文引入了若干项关键创新：i）VFM驱动的superpixel生成，用于详细的语义表示；ii）VFM辅助的对比学习策略，用于对齐多模态特征；iii）superpoint时间一致性，以保持跨时间的稳定表示；iv）多源数据预训练，以在各种激光雷达配置上泛化。与最先进的方法相比，本文方法在基于激光雷达的分割和目标检测的线性探测和微调任务中均实现了显著的性能提升。在11个大规模多模态数据集上进行的大量实验突出了本文方法的卓越性能，证明了在现实世界自动驾驶场景中的适应性、效率和鲁棒性。

总结

本文引入了LargeAD，这是一种可扩展且可泛化的框架，专门为各种激光雷达数据集上的大规模预训练而设计。本文方法利用视觉基础模型（VFMs）来生成语义丰富的superpixels，将2D图像特征与激光雷达点云对齐以改进表示学习。通过结合VFM辅助的对比学习、superpoint时间一致性和多源数据预训练，本文框架在多项3D场景理解任务中实现了最先进的性能，包括基于激光雷达的语义分割和3D目标检测。在11个不同数据集上进行的大量实验突出了本文框架在域内和域外场景中的有效性。本文框架不仅在下游泛化方面表现出色，还在分布外条件下展现出更优的鲁棒性。消融研究进一步验证了本文设计选择的重要性，展现了在预训练阶段加入多个数据集的重要影响以及本文框架的每个单独组件的优势。研究结果突出了LargeAD推进现实世界自动驾驶应用的潜力，它提供了能够适应各种传感器配置和驾驶环境的更通用、更具适应性的模型。在未来工作中，本文旨在将该方法扩展，以加入额外的传感器模态（例如雷达和热成像），并且进一步扩大自动驾驶系统的跨模态预训练范围。

#海量数据的挑战下，如何进行高效场景测试与性能安全评估？

01 前言

随着自动驾驶技术的快速发展，庞大的测试数据和复杂的场景需求为性能与安全评估带来了巨大挑战。如何高效管理海量数据、挖掘关键场景，并满足以Euro NCAP（European New Car Assessment Programme，欧洲新车安全评鉴协会）为代表的严格评估标准，已成为行业亟待解决的核心问题。

这不仅关乎技术研发的效率与精度，更是智能驾驶车辆进入市场、提升竞争力的关键前提。本文我们将围绕如何应对海量数据所带来的挑战进行探讨，分享提高场景测试与性能安全评估的见解。

02 场景测试与性能评估的挑战

在自动驾驶技术的研发与测试过程中，“场景”是一个核心概念，也是验证自动驾驶系统性能和安全性的关键手段之一。无论是行业专家还是普通关注者，谈及自动驾驶测试时，都会提到“场景”以及“基于场景的测试”。

图 1 自动驾驶场景概念图

场景通常由静态要素（道路、交通标志、建筑物等）、动态目标（车辆、行人等）、环境条件（天气、光照等）、行为模式（变道、急刹车等）组成，旨在描述车辆可能面临的各种复杂情况。由于内容极为丰富，国际标准ISO 34501通过四层抽象分级模型对其进行分类，即功能场景、抽象场景、逻辑场景和具体场景，后两者便是当下关注的重点。

图 2 四层抽象分级模型与场景测试挑战

对于测试而言，除了在各个场景下的性能表现，通常还得满足一些法规或者评估标准。例如，对于车辆的安全性而言，最广为人知的便是Euro NCAP的评级。

Euro NCAP的评级结果不仅会为消费者选购车辆提供重要参考，也是诸多汽车制造商和技术开发者研发过程中明确的安全目标。无论是传统燃油车还是智能驾驶车辆，获得Euro NCAP的高评分都是进入欧洲市场、提升市场竞争力的重要前提。

然而，随着自动驾驶技术的高速发展，测试需求与标准的日益复杂化，自动驾驶研发与测试中所产生的数据日益增加，对逻辑场景与具体场景的需求也逐步攀升，这也就为场景测试带来了诸多挑战：

海量的测试数据与场景

自动驾驶测试需要处理极其庞大的场景库和测试数据，如何高效地管理和利用这些数据成为一大难题。

指标分析与数据管理的难度

随着测试指标的逐渐增加，如何对测试结果进行全面、准确的分析，以及如何高效地管理测试数据，都是亟待解决的问题。

性能与安全评估方法的效率

自动驾驶系统的性能和安全性评估需要高效快捷的方法，以应对大规模测试的需求。

真实场景向仿真场景的转换

为了实现重复测试，需要将真实场景高效地转化为仿真场景，即LogSim到WorldSim的转化。

高昂的测试成本

应对上述种种挑战需要投入大量的资源，包括人力、时间和资金。

面对这些挑战，我们尝试在云端搭建一个模块化的数据管理与场景挖掘平台，并集成Euro NCAP 道路稳健性协议（包括速度辅助系统、车道支持系统和辅助驾驶），进而实现了高效场景测试与性能安全评估。

图 3 数据管理与场景挖掘概览

03 数据管理与高效分析方法

在自动驾驶测试中，海量的驾驶数据与复杂的场景构建是基础，同时也是挑战。如何高效地管理这些数据，并从中提取出有意义的场景，成为验证自动驾驶系统性能与安全性的关键环节。3、4章节将从数据管理、聚合分析、场景提取与评估技术以及场景导出四个方面，详细探讨如何高效处理海量数据并挖掘关键场景。

数据管理技术：高效处理海量信息

对于场景测试或者以Euro NCAP为代表的性能评估而言，通常会产生大量的驾驶数据，例如Euro NCAP 2026年新版安全驾驶汽车辅助协议（Safe Driving Vehicle Assistance）就明确提出部分功能的评估需要满足至少2000公里的测试。

面对海量的驾驶记录与复杂的场景需求，数据管理需要兼顾高效性、灵活性与协作性。对此，我们尝试基于云搭建模块化的数据管理平台，旨在实现驾驶数据的高效处理、评估与检查。

a. 驾驶数据摘要与高级查询

通过鼠标单击查看驾驶记录的摘要信息，获取清晰的驾驶数据概览，并采用事件（Event）、操作设计域（ODD）或场景（Scenario）三类标签，以组合的方式快速查询需要的驾驶记录。

图 4 快速摘要与高级查询

b. 可视化界面与团队协作

基于相机视角、感知还原、GPS轨迹、车辆速度等多维度创建可视化界面，对场景进行深入分析。同时，采取URL分享的方式，实现团队成员之间的高效协作与共同分析数据。

图 5 自定义可视化界面

聚合分析技术：从海量数据中洞察规律

除了单一场景的快速查询与分析，针对海量驾驶数据的整体规律分析同样至关重要。为此，我们使用聚合分析的方法，通过多级指标（Metrics）对驾驶数据进行整理、分类和聚类分析，加速发现数据中的潜在规律。

图 6 聚合分析

a. 多级指标的灵活分析

通过采取感知、行为、舒适度等多级指标进行分析。例如，当想要了解“自动驾驶系统开启状态”、“特定速度区间”、“白天”的违规率，就可以设定对应指标，构建指标矩阵与直方图，随着指标的增加，矩阵与直方图会产生动态变化，得以快速掌握概况以及各个指标下统计出的违规率。

b. 一键聚类与场景跳转

聚合分析技术能够基于指标矩阵对驾驶记录进行自动聚类，并支持关键场景的快速跳转。单击矩阵中的特定数值即可直接查看对应的场景列表，并快速跳转到可视化界面，查看场景细节，进行深入分析。

04 场景挖掘、评估与OpenX场景导出

为了在大量驾驶数据的挑战下提高场景测试与评估的效率，我们基于感知算法从原始驾驶数据中提取出场景，将原有的大量里程与时间浓缩为了一系列特定场景，并结合了自定义标准与Euro NCAP标准建立了多种预设评估方式，保障效率与准确性的同时尽可能节省时间与精力。

场景提取与评估：挖掘关键场景与性能见解

如何从大量的驾驶数据中提取有意义的场景并进行性能评估，是自动驾驶测试的重要环节。我们通过对激光雷达、相机、GPS等原始传感器输入的数据进行感知，从真实或仿真数据中高效挖掘场景，提供多维度的性能与安全见解。

图 7 场景挖掘流程示意图

a. 自动清除空驶里程

驾驶数据中通常存在大量没有特殊事件发生的空驶里程，占据了大量存储空间但对测试无意义。我们通过设定场景提取的条件，例如自车速度、障碍物速度、自车与障碍物纵向距离等，自动剔除这些“空驶里程”，准确提取出常用场景（如SOTIF、ISO 26262、Euro NCAP等标准规定的场景），进而节省时间成本。

b. 性能与安全评估

提取的场景可以基于预设的Euro NCAP或自定义标准进行性能评估。例如，设定最大速度或碰撞时间（TTC）等指标，就可以快速筛选出不符合预期的场景，并通过可视化界面查看详细信息。对于失败的场景，一键点击跳转到数据管理与分析平台，查看感知还原的场景、相机视频、速度等细节进行深度分析。

图 8 自定义标准与Euro NCAP标准的场景评估

场景导出器：从LogSim到WorldSim的转换

为了推动仿真测试的便捷化，我们基于相机图像、激光雷达点云、GPS定位信息等原始驾驶数据，通过内部的感知算法将其转化为仿真场景，完成了从LogSim到WorldSim的高效转换。转化后的仿真场景能够被导出为仿真所需的ASAM标准文件格式（OpenSCENARIO与OpenDrive），实现数字孪生。

图 9 场景导出器：一键导出与自定义导出

数据输入支持多种数据格式（如RosBag、LCM、ADTF等），并可以根据需求自定义导出场景的时间范围（最长30秒），导出的场景文件可以直接导入支持标准OpenX格式文件的仿真器（如aiSim5），根据需要进行修改后运行仿真测试。

图 10 联动aiSim仿真器的场景仿真示例

05 集成式Euro NCAP道路评估器

为了更快速且可靠地对驾驶系统性能安全进行评估，并帮助在未来Euro NCAP的安全辅助评估中拿到高评分，数据管理与分析平台（DAP）内将集成Euro NCAP道路评估器（On-road Evaluator），获得基于海量驾驶数据的深刻见解。

基于Euro NCAP协议的三大评估板块

通过在数据管理与分析平台中集成Euro NCAP道路评估器，可以支持对道路ADAS性能快速提供评估结果，减少评估时间和成本，同时确保严格遵守既定的标准，帮助在评定中获得更高的星级。

图 11 道路评估器三大评估板块

Euro NCAP道路评估器主要针对Euro NCAP 2026协议归纳出三大板块进行评估：

SAS（Speed Assist System，速度辅助系统）
LSS（Lane Support System，车道支持系统）
AD（Assisted Driving，辅助驾驶）

这些板块进一步被细分为多个功能模块，例如AEB（自动紧急制动）、LKA（车道保持辅助）、SLIF（速度限制信息功能）等，覆盖了智能驾驶车辆在不同场景下的关键安全功能。

Euro NCAP道路评估器工作流及特点

通过道路评估器可以快速测试ADAS功能，例如SLIF与LKA，并快速评估Euro NCAP KPI，自动生成反馈报告，使得直击问题根源与优化系统性能变为可能，进而在最终评定中得以获得更高的星级。

图 12 Euro NCAP道路评估器工作流程

道路评估器的工作流分为以下几个步骤：

基于参考传感器硬件设备采集驾驶数据
使用 Euro NCAP On-Road Evaluator 进行数据处理
基于 ODD 的 Euro NCAP 道路 KPI 评估
快速得到 KPI 计算和评分的反馈

通过上述工作流，Euro NCAP道路评估器便能够做到在完全遵循Euro NCAP中关于SAS、LSS、AD的要求的前提下，基于操作设计域（ODD）对车辆进行快速评估，节省大量时间和资源。

图 13 速度限制信息功能示意图（SLIF）

结合DAP的基础功能模块，道路评估器可以实现数据可视化、相机视图、数据管理的定制化功能，如图13所示，便于深入研究特定的失败事件或异常场景。在此基础上，通过精确的评估算法，道路评估器能够避免代价高昂的返工，最大限度上节省该方面的成本。

06 结语

在自动驾驶技术的研发与测试中，场景测试是验证系统性能与安全性的核心手段。康谋IVEX方案通过高效的数据管理、场景挖掘与性能评估技术，解决了海量数据处理、复杂场景构建、高昂测试成本等难题，并深度耦合Euro NCAP相关协议，推动基于真实世界场景的安全评估标准化。

通过数据驱动的方式，IVEX方案不仅提升了系统的测试效率，还能够助力智能驾驶车辆在Euro NCAP评定中获得更高评分，加速自动驾驶技术的研发与落地，为行业发展提供重要支撑。

#DiffusionDrive论文解读

原文：DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

作者单位：华中科技大学 & 地平线

发表时间：2024.11

项目地址：GitHub - hustvl/DiffusionDrive: Truncated Diffusion Model for Real-Time End-to-End Autonomous Driving

Disclamer

这篇总结仅仅列出了论文中的精华部分：作者的动机，发现的问题，以及如何解决这些问题。其中有一些个人的理解一般会放在括号或者引用字体中，如有错误还望和大家一起讨论更正!

简介

本文将diffusion的网络结构的思想引入到端到端自动驾驶的任务中，并着重解决了

<1> 多步降噪带来的计算量问题

<2>模态坍缩的问题

方案亮点：

加入了prior multi-mode anchors来减少diffusion中的计算量，让模型能够从anchored Gaussian Distribution里面学习到denoising从而得到最终的多模态轨迹规划。

解读：这里的改进实际上是把random Gaussian noise改成了基于“预先设计好的多条可能的轨迹线”（也就是文中多次提到的anchors）来采样gaussian noise。相当于从源头上输出上就缩小了模型的搜索空间。

级联(cascade)的diffusion decoder，加强模型与场景上下文的互动

效果：

在降噪阶段有10倍的速度提升，只需要2步去噪
在planning-oriented NAVSIM数据集上，达到88.1PDMS
在4090显卡上的推理速度为45 FPS

Introduction：

之前的一些work(Transfuser, UniAD, VAD)直接去回归一条确定的自车轨迹，没有考虑到驾驶行为的不确定性和多模态性。直到VADv2中，把连续的动作空间离散化成一系列固定的anchor轨迹（4096个anchors），然后在预测出的置信度上去采样这些anchors，来得到多模态的轨迹预测。然而这样做的缺点是，“预先定义好的anchor轨迹”这本身就限制了预测轨迹的数量和质量——简而言之，无法覆盖全部场景。

与之相比，diffusion模型可以通过去噪过程，基于高斯分布在连续的动作空间来采样多模态的驾驶动作。

一些早期的尝试：直接在Transfuser的模型基础上，把单模态轨迹回归的方式替换成了简单的diffusion策略，（确定的mlp-regression替换成conditional diffusion model）但是发现了两个问题：(1) 20步的去噪步骤带来了极大的计算量（延时从0.2ms --> 6.5ms） (2) 从高斯噪声采样得来的轨迹之间有非常严重的overlap，甚至坍缩成了单模态输出。

由此引出了改进点：将高斯分布分割成多个以prior anchors为中心的sub-Gaussian distributions——叫做anchored Gaussian distribution。利用truncated diffusion policy，把去噪的步骤从20降低到了2

为了加强conditional scene context，使用了基于transformer的diffusion decoder，会与感知模块的structured queries，BEV，PV features一起交互，通过一个sparse deformable attention机制。另外，作者引入了一个cascade的机制来在每一步去噪步骤对轨迹重建进行refine。

主要贡献点：

第一次在端到端自动驾驶领域引入了diffusion模型，并提出了一个truncated diffusion策略来解决原始diffusion模型中的“模态坍缩”和大计算量的问题。
设计了一个高效的diffusion decoder与conditional information进行交互，达到了更好的重建效果。
在NAVSIM数据集上达到了88.1 PDMS的跑分，在4090显卡上的推理速度为45 FPS
展示了DiffusionDrive可以生成多模态且可行的轨迹

Method3.1 Diffusion简介

Conditional diffusion model

一种forward diffusion的过程，慢慢地在data sample中加入噪声：

3.2 Vanilla Diffusion Policy存在的问题3.2.1 将Transfuser变成conditional diffusion model

将模型中的MLP回归层替换成基于UNet架构的[1]。在评估过程中，采样了一个随机噪声，然后逐步进行refine（20步），相比于原始的Transfuser，这个改动给planning跑分带来了小幅度的提升（PDMS↑ +0.6）。但同时带来了两个巨大的问题：

问题1：模态坍缩

作者从高斯分布中随机选取了20个噪声作为初始状态，并用20步对其进行去噪过程。如下图所示，20步之后所有不同的输出模态都坍缩成了几乎是同一条轨迹。

问题2：计算量大

20步的去噪过程来将随机噪声变成一个可执行的轨迹，计算量太大，将原本的FPS从60降低到了7.

3.3 解决方案 - Truncated Diffusion

因为人类驾驶员是有固定的驾驶模式的，所以决定不再从标准的高斯分布中随机初始化，而是设计了一个anchored Gaussian distribution。

Anchored Gaussian Distribution

一、训练阶段

二、推理阶段

输入的初始状态还是从anchored Gaussion distribution中采样得到“噪声轨迹”
在每一步的去噪过程中，上一步得到的预估轨迹会传递到下一步，最终预测出条轨迹和其对应的置信度
更新规则：在每次得到了当前timestep的预测之后，作者使用了DDIM[2]的更新规则来为下一个timestep去采样轨迹
优点：训练时使用的预测轨迹数不会影响到推理时的预测轨迹数。也就是,可以是任意数字，可以根据不同部署平台的计算资源任意调整。

3.4 模型结构

Diffusion Decoder

输入从anchored Gaussian distribution采样来的噪声轨迹
使用deformable spatial cross-attention来与BEV或者PV特征进行交互，这个交互是基于轨迹坐标系的（想必是根据轨迹的坐标点进行reference point的选择）
在轨迹features和agent/map信息之间做cross attention，然后接上一个FFN
Timestep Modulation layer，用来对diffusion timestep信息进行编码，而后接上一个MLP来预测置信度以及offset(相对于初始的噪声轨迹坐标）
当前层的diffusion decoder layer的输出，会作为下一层decoder的输入
在推理时使用这些cascade diffusion decoder来逐步对轨迹进行去噪，并且在不同的denoising timestep使用的参数是共享的。
最终选择置信度最高的轨迹作为输出。

实现细节

网络结构

backbone：ResNet34
Diffusion Decoder Layer:

spatial cross-attention只和BEV features做交互（和Transfuser保持一致）
只和agent做cross-attention
使用2层decoder layers
使用20个聚类得到的anchor轨迹

推理时仅使用2个denoising steps，并选择top1置信度对应的轨迹作为最终输出

输入：

使用了3个前向摄像头的图像信息（剪裁并下采样），concat在一起形成1024x256的输入尺寸
栅格化的BEV LiDAR

训练：

在navtrain数据集上，从头开始训练100个epochs
优化器 = AdamW
8张Nvidia 4090显卡
batch size = 512/8 = 64
学习率 = 6

评估

没有使用test-time augmentation

#Perception, Reason, Think and Plan

哈工大最新多模态推理综述

哈尔滨工业大学的多模态推理模型综述，全面概述了迄今为止SOTA的推理大模型，并把推理模型的发展划分为四个阶段：

第一阶段：感知驱动的模块化推理——设计特定任务的推理系统
第二阶段：以语言为中心的简短推理——系统1推理
第三阶段：以语言为中心的长期推理——系统2思维和规划
第四阶段：迈向原生大型多模态推理模型（展望）

综述主页：https://github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models

文章摘要

推理是智能的核心，决定了做出决策、得出结论和解决问题的能力。近年来，大型多模态推理模型（Large Multimodal Reasoning Models, LMMs）在感知、推理、思考与规划等任务中展现出强大的能力。这些模型通过融合文本、图像、音频等多种模态的信息，能够处理复杂的现实世界问题，并在多个领域取得了显著的进展。本文对当前LMMs的研究进行了全面的综述，重点探讨了其在推理任务中的应用和发展趋势。

首先，我们回顾了LMMs的基本概念及其发展历程，介绍了关键的技术框架和方法。接着，文章详细分析了LMMs在不同领域的应用，包括视觉问答（VQA）、语音识别、情感分析、跨模态检索等。此外，还讨论了LMMs在实际应用中面临的挑战，如数据异构性、计算资源消耗、模型可解释性等问题。

为了更好地评估LMMs的性能，我们整理了一系列具有代表性的基准测试集，例如FLEUR、CoVoST2、MELD等，这些数据集涵盖了多种语言和任务场景。同时，我们也总结了最新的研究成果，展示了LMMs在未来的发展潜力，特别是在开放世界环境下的自适应性和泛化能力提升方面。

最后，本文提出了未来研究的方向，强调了构建更加高效、灵活且具备更强推理能力的LMMs的重要性。通过对现有工作的梳理与展望，希望为后续研究提供参考，推动LMMs在更多实际应用场景中的落地与发展。

多模态推理范式的演变与探讨

文章主要划分为了四个阶段：

Stage 1: Perception-Driven Modular Reasoning - Designing Task-Specific Reasoning Systems
Stage 2: Language-Centric Short Reasoning - System-1 Reasoning
Stage 3: Language-Centric Long Reasoning - System-2 Thinking and Planning
Stage 4: Towards Native Large Multimodal Reasoning Model (Prospect)

多模态推理模型路线图

第一阶段：感知驱动的模块化推理-开发特定任务的推理模块

在多模态推理的早期阶段，有限的多模态数据、新兴的神经网络架构和不太复杂的学习方法等约束导致了针对特定任务量身定制的模型的开发。这些模型通常采用不同的模块来实现多模态表示、对齐、融合和推理。根据模型架构和学习方法，这些模型可以概括为模块化推理网络和基于预训练视觉语言模型（VLMs）的模块化推理。

第二阶段：以语言为中心的简短推理——系统1推理

随着大规模多模态预训练的出现，MLLM已经开始展现出紧急推理能力。然而，这样的推论往往很肤浅，主要依赖于隐含的相关性，而不是显式的逻辑过程。MCoT已成为一种简单而有效的方法来缓解这一限制。通过整合中间推理步骤，MCoT改善了跨模式对齐、知识集成和上下文基础，所有这些都不需要广泛的监督或重大的架构修改。在这个阶段，我们将现有的方法分为三种范式：基于提示的MCoT、具有预定义模式的结构推理和具有轻量级外部模块的工具增强推理。

第三阶段：以语言为中心的长推理-系统2思维和规划

虽然结构推理引入了预定义的模式来引导MLLM进行更系统的推理，但它仍然受到推理深度浅和适应性有限的限制。为了处理更复杂的多模态任务，最近的工作旨在开发System-2风格的推理。与快速和反应性策略不同，这种推理形式是深思熟虑的、组合的，并由明确的计划指导。通过扩展推理链，将其置于多模态输入中，并使用监督或强化信号进行训练，这些模型开始表现出长期推理和自适应问题分解。

面向原生多模态推理模型

LMRM在处理具有长思路的复杂任务方面表现出了潜力。然而，他们以语言为中心的架构限制了他们在现实世界场景中的有效性。具体而言，它们对视觉和语言模式的依赖限制了它们处理和推理交织的不同数据类型的能力，而它们在与动态环境的实时迭代交互中的性能仍然不发达。这些局限性强调了对一类能够进行更广泛的多模态集成和更先进的交互式推理的新模型的需求。

在本节中，我们首先分析了最先进的LMRM在旨在评估全模态理解和代理能力的基准上的性能，强调了它们在现实应用中的局限性。随后，我们介绍了原生大型多模态推理模型（N-LMRM）的概念，它通过两种基本能力代表了机器智能的范式转变：多模态代理推理和全模态理解和生成推理。最后，我们将讨论构建N-LMRM的开放挑战，并概述克服这些障碍的有前景的研究方向。

Dataset and Benchmark

在探索多模态推理模型的发展和优化过程中，已经提出了大量的任务和基准来进行经验能力评估和分析，以评估模型在各个方面的性能，例如视频理解和视觉推理。在本节中，我们根据能力将有助于促进多模式推理模型发展的现有数据集总结并分类为四种主要类型：（1）理解；（2）生成；（3）推理；（4）规划。然后，我们总结了这些基准或数据集的常用指标和评估方面。基准的设计具有特定的能力评估，我们将其分为四个主要类别，如图10所示，以及十一个子类别，如表9所示。

#国内有哪些机器人训练场？

对软硬件配置有什么要求？

近年来，国内机器人训练场建设蓬勃发展，今日xx智能之心为大家介绍几个具有代表性的训练场，一起看看吧~

一、国内主要机器人训练场概况

上海张江异构人形机器人训练场

上海张江异构人形机器人训练场（国家地方共建人形机器人创新中心）是全国首个大规模异构人形机器人训练基地，位于浦东张江模力社区，面积超5000平方米。该训练场首期部署了来自10余家企业的100余台异构人形机器人，包括全尺寸开源公版机“青龙”等国产机型，聚焦智能制造、民生服务和特种应用三大类场景。通过遥操作、动作捕捉等多元数据采集方式，单台机器人每日可采集500条以上轨迹数据，并打通了从数据采集到模型部署的全流程闭环。训练场首创“异构群智”训练模式，通过异构机器人协同训练生成规模化数据集，计划2025年底建成5000万条数据的xx智能语料库，并推动数据开源共享。作为国家级创新平台，该中心已发布首批人形机器人团体标准，联合华为、清华大学等构建xx智能操作系统，助力国产人形机器人技术突破和产业生态发展。7

视频来源：新华社 https://www.xinhuanet.com/tech/20250316/fa60bf24798342ad8c33251493d45c81/c.html

国家地方共建xx智能机器人创新中心

中心位于北京经济技术开发区，是国内首个聚焦xx智能机器人核心技术研发与产业化的国家级平台，由优必选、小米机器人等10家领军企业联合组建，2024年10月升级为“国地共建”创新中心。其核心成果包括全球首个纯电驱全尺寸人形机器人“天工”（最高时速12公里，可适应复杂地形）和xx智能服务机器人“天轶”。中心构建了“数据采集-模型训练-真机验证”闭环，计划建成百万量级高密度数据集，并牵头制定《人形机器人智能化分级》等多项行业标准。目前正联合清华、北大等高校攻关灵巧手、一体化关节等关键技术，并在京东、奥迪一汽等企业场景中试点应用。

视频来源：央视新闻 https://baike.baidu.com/item/国家地方共建xx智能机器人创新中心/64987322北京人形机器人数据训练中心（石景山首钢园）

该中心于2025年3月落地首钢园，是北京市首个专注人形机器人多模态数据采集的公共训练平台，由石景山区政府与睿尔曼机器人合作共建。部署了100台高自由度人形机器人、100套遥操作及动捕设备，搭建家庭康养、工业制造等10大实景场景，年产出超百万条真实数据。其特色是通过“穿戴设备操控机器人”的方式采集操作数据（如抓取瓶子成功率超90%），并构建“数据标注-模型迭代-场景反馈”闭环，目标降低企业研发成本30%。未来三年计划形成50亿元规模的数据服务市场，吸引30家上下游企业落户。

来源：https://wap.bjd.com.cn/news/2025/03/28/11112473.shtml

北建大科技园通用智能机器人训练测试平台

北建大科技园通用智能机器人训练测试平台是由华远集团与北京建筑大学科技园联合打造的xx智能机器人实训基地，位于北京西城区华远·企业中心内。该平台由机器人本体、数据采集系统、场景库、数据中心和算力中心构成，聚焦AI+建筑、智能家居、智能医疗、智慧教育等多元化场景，支持人形、四足+臂、轮式+臂等异构机器人的自主导航、越障巡检及行业技能训练。平台通过改造原企业演播厅，构建了高安全性、高空间适应性的训练环境，并采用光学动捕、VR遥操作等技术，实现高通量、低成本的机器人数据采集，年产出超百万条多模态训练数据，有效解决机器人工程化验证中的数据稀缺问题。作为北京市数字经济标杆城市建设的重要载体，该平台通过“需求牵引-场景验证-技术迭代”闭环生态，为企业提供定制化训练服务，推动西城区数据要素市场化改革。

以下视频来源于

北建大科技园

视频来源：工业机器人视频库 https://mp.weixin.qq.com/s/p1D_9gCjEb3fWITr9wZQBA

特斯拉上海超级工厂及研发中心

特斯拉上海超级工厂及研发中心（2021年启用）承担了部分Optimus人形机器人的研发测试任务，复用电动车产线的感知算法和电驱技术，并计划2025年试生产5000台Optimus，2026年扩产至5万台。其机器人训练数据主要来源于工厂实际生产场景，通过Optimus执行分拣电池、搬运零件、产线巡检等实操任务，积累真实环境下的运动控制与决策数据。工厂高度自动化的生产环境为机器人提供了丰富的训练场景，同时依托中国完善的供应链体系，为机器人核心部件的研发测试提供了有力支持。

图片来源：https://www.sohu.com/a/888884176_100153408

紫东太初（佛山）xx智能创新中心（顺德）

紫东太初（佛山）xx智能创新中心于2025年5月7日在顺德南方智谷揭牌成立，由中科紫东太初（中国科学院自动化研究所多模态大模型商业化载体）联合佛山市工信局、顺德区政府共建。该中心以紫东太初多模态大模型为核心，投资2亿元建设华南首个多模态大模型全品类机器人训练场，聚焦机器人本体、元器件及终端智能化研发，以紫东太初多模态大模型为核心打造自主可控的跨模态大模型通用人工智能平台。中心依托顺德雄厚的制造业基础（装备制造、家电两大超4000亿产业集群），组建50人专业团队，推动xx智能技术在家电、陶瓷、金属加工等传统产业的AI赋能，助力佛山打造全国领先的xx智能机器人产业集聚高地。

图注：佛山市xx智能机器人创新中心揭牌。

优必选多机器人协同实训场（浙江极氪智能工厂）

优必选多机器人协同实训场位于浙江极氪5G智慧工厂，是全球首个实现多台、多场景、多任务人形机器人协同作业的工业实训基地。该实训场部署了数十台优必选Walker S1人形机器人，分布在总装车间、SPS仪表区、质检区及车门装配区等复杂场景，成功完成协同分拣、大负载搬运及精密装配等任务。其核心技术为优必选创新的“群脑网络（BrainNet）”架构以及人形智能网联中枢 Internet of Humanoids (IoH)，通过云端“超级大脑”（基于多模态推理大模型）与端侧“智能小脑”（基于Transformer模型）协同，实现跨场域感知、多机运动规划及自适应控制。实训场还依托DeepSeek-R1深度推理技术，赋予机器人类人常识决策能力，推动智能制造从“半柔性”向“全柔性”进化。目前，该模式已与吉利、比亚迪等车企合作，为人形机器人规模化应用提供范本。

来源：https://m.thepaper.cn/newsDetail_forward_30291582

二、国内机器人训练场支持政策

国内机器人训练场支持政策已形成国家与地方联动的多层次体系。在国家层面，工信部等十七部门发布的《"机器人+"应用行动实施方案》重点推动制造业、农业等十大领域的机器人深度应用；《"十四五"机器人产业发展规划》提出增加高端产品供给，目标到2025年制造业机器人密度较2020年翻番；而《人形机器人创新发展指导意见》则专门针对人形机器人，明确2025年实现批量生产、2027年形成国际竞争力产业生态的目标。

地方层面，上海通过《人工智能"模塑申城"实施方案》构建智能算力集群等四大基础底座，浦东新区更推出三年行动计划，以张江机器人谷为载体建设"1+N"虚实融合训练场体系；广东佛山则发布智能机器人产业发展行动方案，投资2亿元建设多模态大模型训练场，重点突破xx智能技术。标准化方面，浦东率先发布《人形机器人分类分级应用指南》（L1-L4级）和《xx智能智能化发展阶段分级指南》（G1-G5级），为行业提供技术评估框架。这些政策共同推动机器人训练场在技术研发、场景落地和产业生态建设方面快速发展。

重点城市政策：

1. 上海：打造xx智能训练场标杆

政策文件：

《人工智能"模塑申城"实施方案》：建设智能算力集群、语料供给体系、虚实融合训练场等四大基础底座。

浦东新区"人形机器人产业三年行动计划"：以张江机器人谷为核心，建设"1+N"训练场体系（1个市级通用场+N个企业特色场）。

支持措施：

对国家级创新平台给予1000万元支持，市级中试平台最高补贴1000万元。

设立人形机器人产业子基金，投资孵化优质企业。

典型案例：张江异构人形机器人训练场（全国首个），计划2025年建成5000万条数据的语料库，单台机器人日采数据500+条。

2. 北京：科研资源驱动

政策亮点：

重点支持5G机器人场景应用，开放医疗、教育等标杆场景。

对机器人企业技改项目最高补贴1000万元。

训练场布局：依托中关村科技园，推动极智嘉、小米机器人等企业共建测试场，聚焦特种作业和医疗场景。

政策：《北京市促进机器人产业创新发展若干措施》

设立100亿元机器人产业基金，对关键技术攻关最高支持3000万元；推动京津冀协同，建设机器人产业协同示范园。

鼓励“首试首用”，对未定型创新产品在京津冀首次试用给予单台最高50万元奖励。

标准化与数据生态

发布《人形机器人分类分级应用指南》等标准，划分技术等级（L1-L4）和智能化阶段（G1-G5）

推动数据开源共享，如国地中心计划2025年开放5000万条xx智能语料库

3. 深圳：资本与供应链优势

专项政策：

2025年设立人形机器人专项资金，目标形成全球领先产业集群。

开放50+应用场景，推动全域AI示范，对中小企业算力费用补贴50%。

企业参与：优必选联合极氪工厂开展多机器人协同实训，探索工业场景落地。

4. 杭州：创新生态与场景激励

政策文件：

《加快智能机器人产业发展行动方案》：对示范应用场景最高奖励200万元。

扩大创新券使用范围，覆盖长三角26市高校及科研机构技术服务。

典型案例：

宇树科技、云深处等企业依托余杭AI小镇，开展机器狗等高动态训练。

紫东太初（佛山）创新中心投资2亿元建设多模态大模型训练场。

5. 广州：产业转型发力

政策方向：

南沙自贸区聚焦金融资源整合，但机器人产业规模落后于杭深。

黄埔区推动"AI+制造"转型，对机器人采购按金额30%补贴场景方。

6. 江苏/浙江：区域协同

浙江政策：

《人形机器人产业创新发展方案》：支持杭州搭建"公版"通用整机平台，宁波聚焦核心零部件。

衢州龙游县对产学研合作项目最高奖励500万元。

江苏政策：

无锡联合上海、香港成立灵巧智能研究院，主攻机器人"小脑"技术。

苏州吴中区对"机器人+AI"企业提供用地优先保障。

三、机器人训练场的软硬件配置要求

机器人训练场的软硬件配置是一个完整的系统化工程，主要包括五大核心模块：

（1）机器人本体：异构集群与性能要求

机器人训练场的本体需配置多品牌、多构型的异构集群，以覆盖不同应用场景的技术验证需求。例如，上海张江异构人形机器人训练场汇集了优必选Walker S、小米CyberOne、傅利叶GR-1等11家企业的全尺寸/类人形机器人，其中国地中心自研的“青龙”V2.5机器人已实现批量部署，具备43个自由度，峰值扭矩达396Nm，支持高速奔跑（10-11.88km/h）和精细化作业。性能上，机器人需满足持续1小时稳定运动、任务成功率超90%的工业级标准，并通过开源硬件设计（如“青龙”公版机）降低行业研发门槛。

（2）数据采集系统：多模态与高效采集

数据采集系统需支持遥操作外骨骼、动作捕捉、便携式末端和仿真合成4种方式，单台机器人每日可采集500+条轨迹数据。例如，上海训练场采用穹彻轻量化设备，实现跨构型机械臂的数据复用，打破传统采集方案中数据与硬件绑定的限制，提升数据利用率30%以上。此外，通过头戴式视觉系统采集毫米级手部动作，结合人体运动数据映射算法，加速灵巧操作技能的模型训练。

（3）场景库：虚实融合与多领域覆盖

场景库需构建10类以上虚实融合环境，涵盖智能制造（如汽车焊接、3C装配）、民生服务（医疗护理、家居整理）及特种应用（高危作业）等领域。上海训练场通过“异构群智”模式，搭建100+异构机器人的模拟产线，并采用数字孪生技术实现物理实体与仿真场景的联动，支持快速切换训练环境。例如，医疗训练场通过沉浸式虚拟环境模拟手术操作，解决复杂场景适应性问题。

（4）数据中心：规模化语料库与自动化处理

数据中心需实现海量数据的高效管理与标注，如上海训练场计划2025年建成5000万条xx智能语料库，目前已开源百万级真机数据集。通过华为、交大等合作的仿真平台，实现数据自动化标注、轨迹生成及并行合成，并利用AI清洗失败数据单元，提升模型训练效率。此外，数据生态建设通过《共建xx智能语料数据生态》倡议，推动行业共享。

（5）算力中心：国产化与云网融合

算力中心需依托国家“东数西算”工程布局，采用昇腾等国产芯片（国产化率85%+），构建分布式算力网络。例如，上海训练场联合华为鸿蒙、清华大学建立xx智能操作系统，通过云网融合架构支持大模型训练，仿真训练效率可达真实环境的180倍。国产智算中心（如中国移动呼和浩特中心）已实现千P级算力规模，为机器人训练提供低成本、高能效的算力支持。

总结

五大模块协同构成机器人训练场的完整技术闭环：异构机器人提供多样化本体，数据采集系统生成高质量样本，场景库覆盖全领域需求，数据中心实现数据资产化，算力中心支撑高效训练。这一配置体系正推动我国人形机器人技术快速迭代，加速产业化落地。

#DSDrive

港科最新：基于统一推理和规划的轻量端到端自动驾驶大语言模型~

近两年，端到端的技术方案，已经较为成熟，而恰好大语言模型的发展也十分迅速。二者的结合也正在如火如荼地被研究。本质上，LLMs有效地解决了传统E2E AD框架的局限性，即缺乏对驾驶任务的真正理解和可解释性。这是因为LLMs通过其认知处理能力和语言生成能力提供了有吸引力的解决方案。前者使驾驶任务能够进行细致的情境推理，而后者促进了自然的人机交互界面。

然而部署基于LLM的AD框架仍然具有挑战性。大规模语言模型的计算需求在实时决策中造成了巨大的瓶颈，这对关键规划功能的内存和处理延迟施加了巨大的限制。尽管缩小模型规模提供了基础，但当前的研究表明，LLMs的能力通常与模型规模相关，这意味着直接使用轻量架构可能会损害安全自动驾驶所需的基本认知功能。

知识蒸馏已被证明在调和模型规模和能力方面的差异方面是有效的。然而，它并没有解决LLMs提供的高级别文本推理与AVs所需的低级别轨迹规划之间的固有差异。尽管LLMs在语义推理方面表现出色，但它们并未针对AD中轨迹规划所必需的数值计算和空间推理任务进行优化。这种不匹配导致大多数现有的基于LLM的AD研究依赖于 open-loop 评测。将基于LLM的E2E AD框架转变为闭环规划对于实际AD部署是很重要的。

在本文中，作者提出了一个全新的轻量级E2E AD框架，以解决计算效率和推理与规划脱节的挑战。该框架利用轻量的LLMs实现与更大系统一样的推理和规划性能。作者的方法基于两个关键策略：首先，作者利用蒸馏方法增强轻量LLM作为AD系统的核心。这涉及到通过 chain-of-thought（CoT）提示过程将视觉大语言模型（VLM）的推理能力外部化。作者生成了明确捕获思考和回答推理的结构化数据集，从而将基础模型的推理技能转移到专用系统。作者提出了一种基于航点驱动的双头协调模块，以适当对齐推理和规划任务。该模块涉及训练数据集的共同设计，确保两个任务基于同质数据。它创新性地将规划结果作为推理过程的最终答案，从而为两个任务建立统一的优化目标。两个任务在E2E框架内联合训练，同时优化推理答案的质量和航点预测的准确性。通过将这些任务相互关联，作者的框架支持具有明确推理的闭环AD，从而增强了自主系统的可解释性和可靠性。作者的相关贡献总结如下：

提出了DSDrive，这是一种轻量级E2E AD框架，利用轻量LLM处理多模态输入以实现明确推理和闭环规划。具体来说，作者利用知识蒸馏使轻量LLM能够承担推理和规划任务，从而提高其整体性能。
提出了一个新颖的基于航点驱动的双头协调模块，该模块弥合了高级别推理和低级别轨迹规划之间的差距。通过将航点集成到明确推理过程中，作者为两个任务建立了统一目标，并促进它们共同朝着总体驾驶目标前进。
在CARLA中实现闭环仿真，以展示知识蒸馏和双头协调模块的有效性。所提出的DSDrive实现了与更大基准模型相当的驾驶性能，并且在几个关键指标上甚至超越了它们，特别是在计算效率方面。

论文题目: DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning

论文链接：https://arxiv.org/pdf/2505.05360

相关工作回顾

端到端自动驾驶

E2E AD框架的一个动机是开发一种统一的方法，将感知、决策和规划任务集成在一起，通过联合优化整个流程来实现最终的驾驶性能。STP3推进了空间-时间特征学习，以统一多个驾驶任务的场景理解。在此基础上，UniAD建立了一个集成框架，协同感知和预测模块以增强规划能力。架构创新继续重塑系统设计，旨在通过更丰富的技能推进E2E AD框架。DriveTransformer通过具有稀疏表示的并行处理架构实现统一的任务交互，提高了操作稳定性。受认知机制的启发，级联决策框架纳入了多阶段安全验证以改进行动细化。互补方法包括以规划为中心的协调系统和基于视觉的多智能体协作模型，通过跨车辆感知增强紧急响应。ReasonNet实现了层次化推理架构，以改进场景理解和交通参与者行为预测。研究界同时探索了推动E2E AD框架极限的替代范式。VAD研究了矢量化场景表示，以减少运动规划中的地图依赖性，而其后续版本VADv2引入了概率规划策略和环境令牌化，以增强不确定性处理能力。尽管有这些创新，E2E方法的一个基本限制是缺乏结构化推理机制，无法将复杂场景分解为逻辑决策路径。这一缺点可以从两个角度归因。首先，传统的深度学习网络不具备进行复杂推理或解释的内在能力。其次，系统学习全面理解所需的推理模式通常在训练数据中缺失。推理能力的获取不能依赖于仅仅扩大神经网络模型和数据的规模。因此，需要范式转变，即在模型架构和训练数据中整合结构化推理机制，以解决当前E2E管道在AD中的局限性。

自动驾驶中的大语言模型

将LLMs集成到E2E AD框架中在环境推理和决策方面可以获得一些进展。为了解决E2E AD的可解释性挑战，RAG-Driver采用了检索增强的多模态LLMs，以生成人类可理解的驾驶行为解释，同时保持精确的控制信号预测，在不熟悉的环境中展示了显著的零样本泛化能力。在规划优化方面，AlphaDrive结合了基于GRPO的强化学习和推理策略，以提高训练效率和多模态规划能力。PRIMEDrive-CoT通过结合贝叶斯图神经网络和CoT推理推进了安全关键决策，并采用视觉注意力机制以提高风险评估的透明度。GPT-Driver探索了使用ChatGPT-3.5进行自然语言命令解释的人机交互范式，用于轨迹规划场景。最近在将LLMs集成到AD系统中的进展产生了几个值得注意的框架。DriveLM开创了一种多模态融合架构，通过CoT提示将语言推理与传感器输入对齐。VLP采用视觉-语言预训练以增强场景理解。WiseAD引入了知识蒸馏，将LLMs的知识压缩到轻量级策略网络中。Sce2DriveX提出了一个场景感知的编码器-解码器框架，以提高在不同驾驶条件下的泛化能力。LMDrive开发了一种具有时空令牌化的E2E架构，用于轨迹预测，但其设计中缺乏明确的推理机制。如表I所示，尽管这些方法通过改进感知和推理中的多模态对齐在开环评估中取得了进展，但它们共同未能充分解决闭环驾驶场景的问题。闭环驾驶要求对齐推理和规划任务，并对计算资源提出了更严格的要求。这一限制强调了开发E2E AD系统的迫切需求，该系统能够协调轻量级LLM部署与强大的闭环规划能力。

方法论推理模型

作者的方法使用两种输入类型：图像和文本。图像输入表示为序列，其中为序列长度，、和分别表示高度、宽度和通道数。文本输入细分为导航指令和问题。

从高层次来看，VLM 在推理模型中的应用过程可定义为：

其中代表 VLM，通过处理视觉和文本输入生成答案。为了实现从 VLM 到驾驶模型的推理能力蒸馏，作者确保 VLM 处理驾驶图像序列并生成与驾驶模型输入结构对齐的多维度分析。

具体而言，作者采用最先进的开源 VLM Qwen2.5-VL-max 生成关于场景理解、关键物体识别和驾驶决策的结构化推理数据集。由于 Qwen2.5-VL-max 是通用 VLM，作者通过结构化思维链（CoT）策略优化其对自动驾驶的专项能力，具体考虑以下方面：

场景理解：通过分析天气、时间、道路类型和路况等元素把握驾驶环境。
关键物体描述：通过名称、位置、特征及其对自车操作的潜在风险详细描述关键物体。
战略驾驶计划制定：制定经过深思熟虑的驾驶计划以有效应对场景。
人类可理解的解释生成：为驾驶决策和行动生成可理解的解释。

目前，VLM 主要提供以高层推理为核心。然而，自动驾驶的规划任务通常涉及轨迹规划中的路径点预测和后续车辆控制。通用 VLM 在精确预测路径点方面存在显著挑战，主要因其空间定位能力较弱。因此，需要额外策略来弥合抽象推理与具体规划任务之间的鸿沟。作者创新性地利用真实路径点（ground-truth waypoints）将推理过程与规划任务连接，强调分步思考后生成最终答案。这种数据集设计通过显式表达推理步骤避免答案捷径。在作者的工作中，通过将真实路径点嵌入思维链过程，规划任务被无缝整合为推理过程的自然结果。

图 1 总结了利用推理模型构建训练数据集的流程。完整的 VLM 提示定义为，其中为系统提示，定义任务的用户-助手交互设置及输入输出结构；随后是任务特定提示，引导 VLM 从感知到预测再到决策的连贯推理。VLM 生成的答案与导航指令和真实路径点拼接，形成结构化的“思考-回答”推理过程，构成训练数据集。值得注意的是，作者的数据集构建强调外化 VLM 的隐含推理机制，并建立推理过程与规划结果的直接关联。

端到端驾驶模型

驾驶模型采用端到端方法，定义如下：

驾驶模型处理多模态输入（包括视觉数据和文本信息），输出预测路径点、预测答案和当前导航指令完成状态指示。图像输入和导航指令与推理模型保持一致，确保框架一致性。推理模型的提问包含一系列自动驾驶子任务问题，而驾驶模型的提问则是简单指令语句（如“思考并回答”）。

如图 2 所示，驾驶模型整合多个专用组件以实现综合推理与规划：

输入编码的视觉编码器和分词器；
对齐视觉特征与文本标记的 Q-Former；
LLM 主干；
具有推理与规划双头设计的多任务输出。

输入编码

图像和文本输入均被处理为 LLM 可用的标记。作者采用预训练视觉编码器，将多视角、多模态传感器数据转换为嵌入特征。图像序列通过视觉编码器提取视觉特征，其中为视觉标记数，为隐藏维度。同时，使用 LLaMA 分词器将导航指令和问题转换为文本标记，其中为文本序列长度，为语言模型嵌入的隐藏维度。为确保与图像序列的时间对齐，文本标记被重复次以对应每帧。

对齐视觉与文本模态

跨模态对齐的关键在于视觉特征与文本标记的有效融合。作者采用 BLIP-2 的 Q-Former 架构，通过可学习查询（为查询标记数）降维视觉标记并聚焦相关特征。随后对查询标记、文本标记和图像嵌入应用带注意力掩码的交叉注意力机制。Q-Former 的输出（最后隐藏状态）通过线性层投影至语言模型嵌入空间，确保与 LLM 主干的兼容性。

LLM 主干

作者采用 LLaMA-1B 作为 LLM 主干（对比 LMDrive 的 LLaMA-7B）。LLM 主干处理来自图像、导航指令和问题的集成嵌入。为实现多任务设计的推理与规划对齐，作者选择基于多模态上下文信息的隐藏状态解码输出，而非直接使用 LLM 输出。

多任务输出

基于 LLM 的隐藏状态，驾驶模型设计为多任务输出结构，同时执行以下功能：

通过路径点预测生成可转换为精确车辆操控的规划轨迹；
提供驾驶决策的逐步自然语言解释；
判断当前导航任务是否完成。

路径点预测
路径点预测器将隐藏状态投影为未来车辆位置预测：

其中为包含两个 MLP 和中间 ReLU 激活的简单前馈神经网络。

CoT 推理预测
CoT 推理预测器采用定制化的 Qwen2 风格解码层实现。推理预测器与路径点预测器共享规划目标，并共同接受真实路径点的监督。如算法 1 和算法 2 所示，作者在训练和推理时分别采用两种策略：训练时使用教师强制策略（第 III-C 节详述）；闭环仿真时采用自回归方法逐词生成推理答案。

备注 1：由于推理与规划在自动驾驶中紧密相关，作者创新性地开发了路径点驱动的双头协调模块。该模块将真实路径点作为推理过程的最终输出，确保推理与规划任务共享共同目标，并通过显式关联预测路径点增强端到端框架的可解释性。

终止状态预测
终止状态预测器使用两个 MLP 和中间 ReLU 激活预测终止位置概率：

推理蒸馏

在作者的框架中，大规模 VLM 被定义为推理模型，因其具备高级推理能力并可通过显式推理过程增强 AD 系统。而驾驶模型负责实际车辆规划，但因模型规模紧凑推理能力有限。本框架的关键在于将推理能力从推理模型（大规模 VLM）蒸馏至驾驶模型（轻量 LLM）。

为实现此目标，作者采用教师强制策略（算法 1）。该蒸馏过程将轻量驾驶模型暴露于与大规模推理模型相同的输入数据，并引导驾驶模型生成与推理模型高度匹配的推理答案。基于 LLM 主干生成的隐藏状态序列，提取最后若干关键帧的隐藏状态，并与真实答案的嵌入标记拼接，以促进教师强制训练。该组合序列随后通过答案预测器生成序列中各标记的预测。此训练过程旨在最小化驾驶模型预测答案与训练模板（包含 VLM 生成答案及真实数据）的差异，使驾驶模型内化大规模模型展示的推理策略。

训练过程仅涉及驾驶模型。通过计算预测 logits 与目标标记的交叉熵损失，优化答案预测器。教师强制策略通过直接条件化真实序列确保模型生成连贯精准的解释。

总损失函数由驾驶模型输出的三项损失定义：

路径点损失（）：预测路径点与真实路径点的损失
答案损失（）：预测答案与真实答案的交叉熵损失
终止状态损失（）：导航指令完成状态的交叉熵分类损失

最终训练目标通过以下损失函数实现：

其中、和为 [0,1] 范围内的权重系数，控制各损失项对联合损失的贡献比例。

实验与结果

作者假设通过聚焦关键推理模式，基于轻量 LLM 的端到端驾驶模型可通过蒸馏获得核心推理能力，从而在避免高计算开销的同时提升闭环驾驶性能。围绕此研究动机，实验设计从三个关键维度对方法进行全面评估：定量与定性性能、双头协调模块有效性及计算效率。

评价指标

采用以下闭环驾驶评价指标：

路线完成率 (RC)：完成路径距离的百分比，值越高表明任务完成度越好。
违规分数 (IS)：量化碰撞、车道偏离、交通信号违规等行为。初始值为 1.0，按事件严重性扣减，值越高表明驾驶越安全。
驾驶分数 (DS)：综合 RC 与 IS 的复合指标，值越高越好。
关键事件数：统计碰撞、红灯违规等事件数量，按场景数归一化。

基准对比

对比方法包括：

LMDrive (LLaVA-7B)：直接使用 LMDrive 官方模型（当前 LLM 闭环端到端 AD SOTA）。
LMDrive (LLaMA-1B)：LLaMA-1B 轻量版，训练策略与数据集同 LMDrive。
Vanilla (LLaMA-1B)：未微调的原始 LLaMA-1B 模型。

在 LangAuto 三组基准（Long/Short/Tiny）上的测试结果如表 II 所示。核心发现如下：

Vanilla (LLaMA-1B) 表现最差，验证轻量 LLM 直接用于复杂闭环任务的局限性。
LMDrive (LLaMA-1B) 仅小幅提升性能，未超越大规模模型。
DSDrive 通过 VLM 蒸馏显著增强推理能力，在 DS 与 RC 上接近甚至超越 LMDrive (LLaVA-7B)。IS 表现略低但可接受，主要短板为车道偏离率较高。

定性分析

Think-and-Answer 推理过程

作者通过 CARLA 模拟器中的代表性场景展示了推理过程，如图 3 所示。上半部分展示了每个场景的关键帧，提供了驾驶环境的视觉上下文。下半部分包括详细的推理内容。

场景 (a)：这是一个夜间城市环境，天气状况良好。在低光照条件下，DSDrive 成功识别了交通信号，并执行了停车操作。
场景 (b)：该场景要求车辆在 T 型路口右转，车辆需要在多个显示不同指示的交通信号中准确识别正确的信号，以便执行右转操作。DSDrive 成功区分了适当的交通灯，执行了右转操作，展示了其解析复杂视觉信息和遵守交通规则的能力。
场景 (c)：该场景描绘了一个郊区环境，左侧有迎面而来的车辆。DSDrive 成功识别了左侧驶来的黑色轿车。
场景 (d)：该场景发生在交通相对繁忙的高速公路上。尽管交通拥堵，DSDrive 成功识别出周围车辆均未直接影响其行驶路径，从而保持稳定行驶。

在上述场景中，DSDrive 展示了在识别交通信号、执行转弯以及在从城市街道到高速公路的各种环境中导航的强大性能。明确的思考和回答推理过程表明，DSDrive 成功从视觉大语言模型中学习了高级推理能力，并将其应用于端到端自动驾驶框架。这种在多样化场景中的一致性能强调了 DSDrive 在解释视觉线索和做出明智决策方面的有效性和可靠性。更重要的是，通过基于航点驱动的双头协调模块，DSDrive 内的 LLM 展示了根据动态交通状况准确预测航点的关键能力。这种能力对于自动驾驶系统最终规划阶段至关重要。

代表性场景

代表性场景被包含进来，以提供对 DSDrive 在闭环驾驶中的能力的见解，因为这是本研究的目标。交通灯的管理能力在图 4 中进行了讨论。首先，DSDrive 能够检测到红灯并在前方车辆的安全距离处停下。一旦交通灯变为绿色，DSDrive 就会无缝地从静止状态过渡到积极驾驶。随后，如图 5 所示，车辆根据导航指令执行左转。这一序列强调了 DSDrive 在复杂城市环境中解释和执行导航指令的能力，反映了其在推理和操作执行方面的有效整合。

推理能力

作者进一步评估了答案的质量，以提供对 DSDrive 推理能力的见解。作者比较了 DSDrive 和 Qwen2.5-VL-7B 生成的答案，在场景理解、目标检测、驾驶行为和航点预测方面进行了比较。尽管与 Qwen2.5-VL-7B 相比，DSDrive 的模型尺寸较小（1B），但在指定的自动驾驶推理能力方面并不逊色。在某些方面，它甚至优于 Qwen2.5-VL-7B。例如，在场景理解方面，DSDrive 准确识别出具有反光表面的湿滑道路状况，而 Qwen2.5-VL-7B 未能识别这一细节。在目标检测方面，DSDrive 注意到左侧的骑自行车者，并考虑了其对车辆路径的潜在影响。在驾驶行为方面，DSDrive 考虑了在安全的情况下继续行驶的进一步操作，而不仅仅是停在停车标志处，而 Qwen2.5-VL-7B 的答案在停在停车标志处就结束了。值得注意的是，DSDrive 能够通过基于文本的推理过程预测航点，与端到端自动驾驶框架中的航点预测器的目的相一致，而 Qwen2.5-VL-7B 并未明确调整以支持此功能。这一差异突显了作者通过训练数据集和模型架构的有意设计，在语义推理任务和数值轨迹规划任务之间实现的有效对齐。

双头协调

DSDrive 中的基于航点驱动的双头协调模块的创新之处在于两个方面。首先，航点被嵌入训练数据集中，用于在所提出的框架内蒸馏推理能力，为两个任务创建共同目标。其次，端到端驾驶模型构建了推理和规划的互连预测头。这两个密切相关任务因此相互补充，推理输出为规划结果提供解释，而规划头可以生成类似于推理头的轨迹预测，但在推理上更高效，便于部署时使用。

这一研究提出了以下问题：

（1）双头协调模块是否如预期般有效地对齐了推理和规划任务？
（2）这种设计是否增强了 DSDrive 作为自动驾驶代理在闭环驾驶场景中的性能？

针对第一个问题，图 8 通过直接可视化推理和规划头预测的航点对齐情况，提供了定性展示。

场景（a）描绘了交通流量适中的高速公路。推理和规划头预测的航点显示出相似的运动轨迹，使自动驾驶车辆能够跟随前方车辆、通过弯道并在交通流中平稳巡航。

场景（b）描绘了一个环岛场景，自动驾驶车辆展现出以下行为，正如航点预测所示：进入环岛、在环岛内正常行驶以及为穿越路径的骑自行车者让路。在这种让行情况下，推理和规划头预测的航点都显示出停车倾向，以确保与骑自行车者的安全交互。随后，当路径无障碍物时，自动驾驶车辆加速恢复到正常速度。

场景（c）描绘了一个典型的带有交叉口的城市驾驶场景。最初，预测的航点反映出自动驾驶车辆在接近红交通灯时的减速阶段。随后，当交通灯变为绿色时，航点表明自动驾驶车辆加速通过交叉口。之后，推理和规划头预测的航点对应于在交叉口执行左转的任务。最后，这些航点与后续的巡航阶段相一致。

针对第二个问题，作者进一步进行了消融研究，以评估双头协调模块设计对驾驶性能的影响。作者在 LangAuto 基准测试中进行了闭环模拟，涵盖微型、短途和长途路线，实验结果总结于表 III。Dual-task 指代作者的方法。作者对训练数据集进行了两种消融：CoT only 使用视觉大语言模型生成的答案，而不嵌入诸如导航指令或航点等真实数据。GT only 则仅用真实数据构建，但没有视觉大语言模型的输入。结果表明，作者的方法在驾驶分数（DS）、路线完成率（RC）和违规分数（IS）方面均优于两种消融方法，这支持了基于航点驱动的双头协调模块设计在促进端到端闭环自动驾驶方面的优越性。

计算效率

DSDrive 作为一种专为端到端自动驾驶系统设计的轻量大语言模型，其主要目标是在减少推理时间和内存消耗的同时优化计算效率，从而提高在实际应用中部署此类系统在计算资源有限的环境下的可行性。如表 IV 所示，作者对 DSDrive 与采用 LLaVA-7B 和 LLaMA-1B 的 LMDrive 进行了比较分析，以了解 DSDrive 在推理资源需求方面的表现。结果突显了 DSDrive 相比现有模型的计算效率。

在推理时间方面，DSDrive 的表现与采用 LLaMA-1B 的 LMDrive 模型相当，且略快于采用 LLaVA-7B 的模型。在内存使用方面，DSDrive 的峰值内存需求为 8082 MB。尽管与采用 LLaMA-1B 的 LMDrive（6682 MB）相比有所增加，但远低于采用 LLaVA-7B 的模型所需的 14263 MB。与采用 LLaMA-1B 的 LMDrive 相比，DSDrive 的内存使用量虽有适度增加，但鉴于 DSDrive 提供的增强能力和鲁棒性，这种增加是合理的，表明在内存效率与模型性能之间取得了平衡的权衡。这些结果的含义有两方面。首先，DSDrive 与 LMDrive 系列之间相当的推理时间表明，在 DSDrive 的架构中整合推理能力并不会显著降低端到端自动驾驶系统的处理速度。其次，与 LLaVA-7B 相比，DSDrive 的内存效率凸显了其在硬件约束是关键考量因素的环境中部署的适用性。重要的是，DSDrive 适度的内存需求使其能够在如 NVIDIA Orin 平台等先进嵌入式基础设施上部署，从而促进自动驾驶技术的更广泛应用。

结论

在本文中，作者提出了 DSDrive，这是一种端到端自动驾驶（AD）框架，利用轻量型大语言模型（LLM），通过知识蒸馏技术，将小模型的计算效率与大型模型的强大推理能力相结合。

此外，DSDrive 通过基于航点驱动的双头协调模块，成功弥合了高级别推理和低级别规划之间的差距。作者通过广泛的闭环模拟实验来评估 DSDrive 的性能。实验结果表明，尽管 DSDrive 的模型尺寸较小，但其驾驶性能与大型系统相当，甚至在某些关键指标上超越了它们。

#LangCoop

自动驾驶首次以“人类语言”的范式进行思考与交流~

LangCoop：让自动驾驶用“人话”交流

LangCoop: Collaborative Driving with Language

让自动驾驶车辆首次以“人类语言”的范式进行【思考】与【交流】！🚗💡💬

🌐 项目主页（含视频）https://xiangbogaobarry.github.io/LangCoop/)
📂 GitHubhttps://github.com/taco-group/LangCoop)
📄 论文地址：https://www.arxiv.org/pdf/2504.13406

🤖 动机：从“数据共享”走向“语言协作”

车连万物（V2X, Vehicle-to-Everything）是智能交通系统的未来核心，通过车与车（V2V）、车与路（V2I）、车与人（V2P）之间的协作，有望显著提升自动驾驶的安全性与效率。

然而，当前流行的协作范式（early collaboration, intermediate collaboration, late fusion）存在以下挑战：

📶 通讯负担重：原始特征或多模态数据的传输带宽开销巨大
🤖 模型异构性：不同车辆使用不同模型时，信息难以有效兼容
📉 信息表达力不足：融合后丢失了大量细节和上下文

随着大规模视觉语言模型（VLMs）的崛起，我们提出：

既然人类可以用自然语言交流复杂的感知和决策，为什么车辆不能？

LangCoop 利用大模型的视觉理解与推理能力，对周围环境进行感知，并生成语言描述，从而在异构体之间实现低带宽、高语义、强泛化的通讯。

🧠 LangCoop 的核心理念

LangCoop 在理论与实证上系统性验证了自然语言作为通信媒介的独特优势：

📶 低通信成本：语言具有极高的信息压缩比，每条消息 < 2KB
🌍 跨模型/跨主体通用性：自然语言是普适的“世界语”，可被人类和不同模型理解
🔍 保持上下文与关键推理信息：语言具备对抽象、高层语义的表达能力
🗺️ 表达非结构化知识：如“前方事故多发，请减速慢行”，难以用向量编码表述但可用语言直观表达

🔧 M3CoT：模块化语言链式推理架构

我们进一步提出了 Mixture Model Modular Chain-of-Thought (M³CoT) 架构。该模块充分挖掘不同VLM模型的特长，如：

Qwen：数字与符号推理能力强
GPT-4V：图像理解能力优秀
Deepseek-VL：语言联想与发散能力强

M³CoT 通过模块化任务分工（如场景理解、对象分析、意图规划等），实现多个异构 VLM 的协同推理，显著提升了感知-决策一体化能力。

🔬 实验亮点：语言也能开车！

在 CARLA 闭环仿真中，LangCoop 展现出超越传统协作范式的能力：

🏁 驾驶得分高达 48.8，路线完成率 90.3%
🔗 显著优于非协作基线
🛰️ 通信数据量 < 2KB，极度轻量
🧩 可适配异构主体，无需共享底层模型或向量空间
🚘 多个大VLM（未进行finetune）即可具备基本驾驶能力

🌟 未来展望：从实验室走向真实世界

LangCoop 为下一代通用型、可解释、可拓展的协同自动驾驶系统奠定了基础。未来，我们希望将其进一步拓展至更广泛的 V2X 场景：

🌐 与车联网（V2X）系统融合

支持语言格式的数据共享协议，实现人与车、车与路之间的无缝对话

🏙️ 车-基础设施协作（V2I）

自然语言可用于描述道路施工、红绿灯状态、突发状况等非结构化信息，提高系统反应力和人类理解性

🚶 车-人交互（V2P）

车辆可向行人或非智能交通参与者发出语言提示（如“请先过马路”），实现主动对话式安全机制

🤝 通用协作代理

借助语言，车辆可以与无人机、清障机器人、甚至交警指挥系统协作，共同完成复杂任务

🔄 跨模态知识迁移

未来可探索如何将语言与图像、BEV地图、3D点云等模态融合，使得语言通讯更结构化、具备可验证性

如你所见，我们不仅让车辆“听得懂人话”，也让它们说得出“车话”——LangCoop，正在重新定义自动驾驶的沟通边界。

#Real2Render2Real

UC伯克利最新！超灵活可扩展机器人数据~出发点与核心问题

机器人学习领域长期面临数据稀缺的挑战。当前主流的数据收集方式——人类遥操作（teleoperation）存在以下局限性：

成本高昂：依赖人工操作，单次演示耗时约1-2分钟
可扩展性差：最大规模的数据集（约10万条）仍比LLM/VLM训练数据小100,000倍
硬件依赖：需特定机器人实体，难以跨平台复用

传统解决方案如物理仿真存在固有缺陷：

动力学模型不精确（如能量不守恒）
复杂接触建模需人工调参
高保真资产创建耗时

核心科学问题：能否在不依赖动力学仿真或人类遥操作的情况下，通过计算方法规模化生成机器人视觉-动作数据？

方法创新：R2R2R技术框架1）整体流程

R2R2R通过三阶段流程实现数据生成：

Real-to-Sim转换：

输入：智能手机拍摄的多视角物体扫描+单段人类演示视频
输出：带纹理的3D网格资产+6-DoF物体运动轨迹

数据增强：

物体初始位姿随机化
运动轨迹插值生成新变体

并行渲染：

使用IsaacLab引擎生成光真实感的机器人执行视频
输出RGB图像-动作对（兼容VLA模型）

2）关键技术突破

(1) 3D高斯泼溅重建（3DGS）

采用GARField算法实现物体/部件级语义分割
支持刚体和铰接物体（如抽屉、水龙头）
通过SuGaR方法转换为兼容渲染引擎的网格

(2) 轨迹多样性生成

空间归一化：将原始轨迹转换到规范空间
球面线性插值（Slerp）：保持运动语义
采样启发式：避免目标位姿附近的无效初始化

(3) 无动力学假设的逆运动学

使用PyRoki求解器生成关节空间轨迹
关键假设：接触期间物体刚性跟随轨迹
避免模拟摩擦/变形等复杂物理现象

实验验证

1）实验设置

硬件平台：ABB YuMi双臂机器人（训练时未见过的形态）
对比基准：人类遥操作数据（50-150条）vs R2R2R生成数据（50-1000条）
评估任务：

单物体抓取（拾取玩具虎）
多物体交互（将杯子放在咖啡机上）
铰接物体操作（关闭水龙头/打开抽屉）
双手协调（双手抬起包裹）

2）核心发现

(1) 数据效率对比

单GPU速度：51条/分钟（人类遥操作仅1.7条/分钟）
时间成本：生成1000条数据仅需13-38分钟（人类收集150条需60-104分钟）

(2) 策略性能分析

低数据量时（<150条），真实数据更具样本效率
当R2R2R数据量达到1000条时，性能与人类数据相当（p>0.05，等效性检验）

技术优势与局限性

1）创新价值

免仿真：完全规避物理引擎的建模误差
硬件无关：仅需智能手机采集的2D视频
轨迹多样性：单次演示可生成数百变体
跨形态兼容：支持不同机器人URDF模型

2）当前局限

限制维度	具体表现	改进方向
物理交互建模	无法模拟滑动/形变	集成增量势接触模型（IPC）
环境感知	缺乏碰撞检测	结合快速运动规划
操作类型	仅支持抓取式操作	扩展非抓取动作（推动/倾倒）
抓取泛化性	仅兼容平行夹爪	支持多指灵巧手
跟踪鲁棒性	易受反光/遮挡干扰	置信度感知滤波