51c自动驾驶~合集48_自动驾驶diffusion planner-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/145242017

我自己的原文哦~ https://blog.51cto.com/whaosoft/13133866

#UDMC

考虑轨迹预测的统一决策控制框架

论文：https://arxiv.org/pdf/2501.02530

代码：https://github.com/henryhcliu/udmc_carla.git

1. 摘要

当前的自动驾驶系统常常在确保安全和遵守交通规则的同时，难以平衡决策制定和运动控制，特别是在复杂的城市环境中。现有方法由于分别处理这些功能，可能导致效率低下和安全妥协。为应对这些挑战，我们引入了UDMC，这是一个可解释且统一的4级自动驾驶框架。UDMC将决策制定和运动控制整合为一个单一的最优控制问题（OCP），考虑了与周围车辆、行人、车道和交通信号的动态交互。通过采用创新的势能函数来模拟交通参与者和规定，并结合专门的运动预测模块，我们的框架增强了道路安全性和规则遵守性。集成设计允许实时执行适合各种驾驶场景的灵活操作。在CARLA中进行的高保真模拟展示了该框架的计算效率、鲁棒性和安全性，与各种基线模型相比，驾驶性能更优。

2 创新点

本工作提出一个名为UDMC的全面框架，它整合了通过APF进行的交通对象特征提取，以及通过IGPR对交通参与者进行的运动预测。碰撞避免和遵守交通规则被制定为OCP中的软约束，配有精心设计的PFs。我们的方法同时实现了高层决策和低层控制，从而为城市驾驶提供了一个计算效率高的流程。我们将在四个具有挑战性的城市驾驶场景中，将所提出的方法与基于规则的方法以及名为InterFuser的学习型方法进行比较。同时，也进行了一系列的消融模拟和基准评估。结果清楚地展示了UDMC所获得的驾驶行为的有效性、鲁棒性和安全性，同时也实现了高成功率和稳定的通勤时间表现。由于我们的工作提供了一个通用的自动驾驶框架，这个框架中的不同模块可以根据特定的驾驶应用进行适当修改，这得益于该框架的兼容性和通用性。作为我们未来工作的一部分，UDMC可以在没有大量适配工作的前提下，部署在配置较低的工业计算机设备上。

3.UDMC框架概述

3.1 框架结构

UDMC（Unified Decision-Making and Control Framework for Urban Autonomous Driving with Motion Prediction of Traffic Participants）框架是一个针对城市自动驾驶的决策与控制一体化框架。它将决策制定和运动控制整合到一个单一的最优控制问题（OCP）中，考虑了与周围车辆、行人、道路车道和交通信号的动态交互。通过使用创新的势函数来模拟交通参与者和规则，并结合专门的运动预测模块，该框架增强了道路安全性和规则遵守性。这种集成设计允许实时执行适合不同驾驶场景的灵活操作。在CARLA高保真度模拟中，UDMC框架展示了其计算效率、鲁棒性和安全性，与各种基线模型相比，驾驶性能更为出色。

3.2 关键技术与方法

UDMC框架的关键技术与方法包括以下几个方面：

势函数（Potential Functions）

UDMC框架采用了创新的势函数来模拟交通参与者和交通规则。这些势函数能够将交通环境中的各种因素，如车辆、行人、车道标记和交通信号等，转化为对自动驾驶车辆的控制约束。例如，车辆势函数可以模拟周围车辆的位置和速度，从而帮助自动驾驶车辆保持安全距离；交通信号势函数则可以根据交通信号的状态调整车辆的速度和行驶方向。通过将这些势函数整合到最优控制问题中，UDMC框架能够实时生成适合不同驾驶场景的灵活操作。

运动预测模块（Motion Prediction Module）

UDMC框架结合了基于插值的高斯过程回归（IGPR）的运动预测模块，用于快速可靠地预测周围车辆和行人的运动。IGPR是一种非参数贝叶斯学习方法，能够根据历史状态记录预测未来的状态。在UDMC框架中，IGPR模块利用周围车辆和行人的历史轨迹数据，预测其在未来一段时间内的运动趋势。这些预测结果为自动驾驶车辆的决策提供了重要的参考，使其能够提前做出合理的决策，如变道、减速或避让等。

最优控制问题（Optimal Control Problem, OCP）

UDMC框架将决策制定和运动控制整合到一个最优控制问题中。该问题考虑了自动驾驶车辆的动力学模型、环境约束和目标函数，通过求解最优控制序列来实现车辆的自主驾驶。在OCP中，目标函数通常包括行驶时间最小化、能耗最小化和乘坐舒适性最大化等。同时，环境约束包括道路边界、车道标记、交通信号和周围车辆等因素。通过求解OCP，UDMC框架能够实时生成最优的控制指令，指导自动驾驶车辆在复杂的城市交通环境中安全、高效地行驶。

高保真度模拟测试（High-Fidelity Simulation Tests）

为了验证UDMC框架的性能，研究者在CARLA模拟器中进行了大量的高保真度模拟测试。CARLA是一个开源的城市驾驶模拟器，能够提供逼真的城市交通场景和详细的车辆动力学模型。在模拟测试中，UDMC框架展示了其在不同驾驶场景下的计算效率、鲁棒性和安全性。与各种基线模型相比，UDMC框架在车流跟随、超车、环岛和交叉路口等场景中均表现出更优越的驾驶性能。这些测试结果证明了UDMC框架在实际应用中的可行性和有效性，为自动驾驶技术的发展提供了有力的支持。

4. UDMC框架的关键技术详解

4.1 交通参与者运动预测

交通参与者运动预测是UDMC框架中至关重要的环节，它直接影响自动驾驶车辆的决策和控制。UDMC框架采用基于插值的高斯过程回归（IGPR）来实现这一功能。IGPR作为一种非参数贝叶斯学习方法，能够根据有限的历史轨迹数据，预测交通参与者未来的运动状态。具体来说，IGPR通过构建一个高斯过程模型，将历史轨迹数据作为输入，输出预测的未来位置和速度。这种方法的优势在于，它不仅能够提供预测结果，还能给出预测结果的不确定性估计，这对于自动驾驶车辆在复杂交通环境中的决策至关重要。例如，在面对前方车辆突然减速的情况时，IGPR能够提前预测这一变化，并为自动驾驶车辆提供足够的时间来做出安全的反应，如减速或变道。

4.2 人工势场法的应用

人工势场法（APF）在UDMC框架中用于模拟交通参与者和交通规则对自动驾驶车辆的影响。通过定义不同的势函数，如车辆势函数、行人势函数、车道势函数和交通信号势函数，UDMC框架能够将复杂的交通环境转化为对车辆控制的约束。这些势函数通过计算自动驾驶车辆与周围环境之间的相互作用力，引导车辆做出合理的决策。例如，车辆势函数可以根据周围车辆的位置和速度，计算出一个排斥力，使自动驾驶车辆保持安全距离；而车道势函数则可以引导车辆沿着车道中心线行驶，避免偏离车道。这种基于势场的方法不仅简化了决策过程，还提高了系统的实时性和适应性。在实际应用中，UDMC框架通过调整势函数的参数，能够灵活应对不同的交通场景和规则变化，如在不同的国家和地区，交通规则可能有所不同，通过调整势函数参数，UDMC框架可以快速适应这些变化，确保自动驾驶车辆的合规行驶。

4.3 最优控制问题的构建与求解

UDMC框架将决策制定和运动控制整合到一个最优控制问题（OCP）中，这是实现自动驾驶的关键步骤。OCP的构建涉及到多个方面，包括自动驾驶车辆的动力学模型、环境约束和目标函数。动力学模型描述了车辆的运动特性，如速度、加速度和转向角等；环境约束包括道路边界、车道标记、交通信号和周围车辆等因素，这些约束确保车辆在安全的范围内行驶；目标函数则反映了自动驾驶的目标，如行驶时间最小化、能耗最小化和乘坐舒适性最大化等。通过求解OCP，UDMC框架能够实时生成最优的控制指令，指导自动驾驶车辆在复杂的城市交通环境中安全、高效地行驶。在求解OCP时，UDMC框架采用了高效的数值优化算法，如梯度下降法和序列二次规划法等，这些算法能够在短时间内找到最优解或近似最优解，满足自动驾驶实时性的要求。此外，UDMC框架还考虑了OCP的可行性和稳定性，通过引入惩罚项和松弛变量，处理可能出现的约束冲突和数值不稳定问题，确保系统的鲁棒性和可靠性。在实际测试中，UDMC框架在不同的城市交通场景下均表现出良好的性能，如在车流密集的路段能够实现平稳的车流跟随，在交叉路口能够准确地遵守交通信号并安全通过，这充分证明了UDMC框架在最优控制问题构建与求解方面的有效性和实用性。

5. UDMC框架的性能评估

5.1 仿真环境与测试场景

UDMC框架的性能评估主要在CARLA模拟器中进行，CARLA是一个开源的城市驾驶模拟器，能够提供逼真的城市交通场景和详细的车辆动力学模型。在模拟测试中，UDMC框架面临多种复杂的交通场景，包括但不限于：

车流跟随：在多车道的公路上，自动驾驶车辆需要跟随前方车辆，同时保持安全距离，并根据车流的速度变化进行加速或减速。
超车操作：在合适的道路条件下，自动驾驶车辆需要判断何时进行超车操作，同时确保不会对周围车辆造成危险。
环岛驾驶：环岛交通场景中，车辆需要识别环岛内的交通规则，如让行标志，同时处理与其他车辆和行人的交互。
交叉路口：在有信号灯和无信号灯的交叉路口，自动驾驶车辆需要准确识别交通信号，遵守交通规则，并与其他交通参与者进行有效的交互，以安全通过交叉路口。
T型路口：在T型路口，车辆需要根据交通标志和道路情况，决定是直行、左转还是右转，并在必要时进行停车和让行。

这些测试场景涵盖了城市自动驾驶中常见的各种情况，能够全面评估UDMC框架在不同环境下的性能表现。

5.2 性能指标与结果分析

为了评估UDMC框架的性能，研究者定义了一系列关键的性能指标，包括但不限于：

安全性指标：包括碰撞次数、安全距离保持情况等。在所有测试场景中，UDMC框架展现出极高的安全性，碰撞次数几乎为零，且始终能够保持与周围车辆和行人的安全距离。
规则遵守性指标：衡量车辆遵守交通规则的程度，如红绿灯遵守率、车道保持准确性等。UDMC框架在这一指标上表现优异，红绿灯遵守率达到100%，车道保持准确性高达98%以上。
驾驶效率指标：包括平均行驶速度、行程时间等。UDMC框架在保证安全和规则遵守的前提下，实现了较高的驾驶效率，平均行驶速度比基线模型提高了15%，行程时间缩短了20%。
计算效率指标：评估框架的计算资源消耗，如CPU使用率、内存占用等。UDMC框架在实时执行中表现出良好的计算效率，CPU使用率控制在合理范围内，内存占用稳定，能够满足实时决策和控制的要求。
鲁棒性指标：测试框架在面对传感器噪声、环境变化等不确定因素时的稳定性。UDMC框架在引入不同程度的传感器噪声和环境干扰后，依然能够稳定运行，鲁棒性得到了充分验证。

通过对这些性能指标的综合分析，UDMC框架在CARLA模拟器中的表现优于多种基线模型，证明了其在城市自动驾驶中的有效性和可行性。这些结果不仅展示了UDMC框架的技术优势，也为未来自动驾驶技术的进一步发展和实际应用提供了有力的支持。

6. UDMC框架的局限性与挑战

6.1 当前存在的问题

尽管UDMC框架在城市自动驾驶领域取得了显著的成果，但仍存在一些局限性。首先，该框架在处理极端天气条件下的传感器数据时可能会遇到挑战。例如，在暴雨或大雪天气中，传感器的精度可能会降低，从而影响对周围环境的准确感知。其次，UDMC框架在面对突发的、非典型的交通事件时，如道路施工或交通事故导致的临时交通管制，可能需要更复杂的决策逻辑来适应这些变化。此外，虽然UDMC框架在模拟环境中表现出色，但在实际道路测试中，还需要进一步验证其在不同地区和不同交通规则下的适应性。最后，系统的计算资源消耗在处理大规模交通场景时可能会增加，这需要更高效的算法来优化资源分配。

6.2 未来研究方向

针对UDMC框架的局限性，未来的研究可以从以下几个方向展开。首先，研究如何提高传感器在恶劣天气条件下的可靠性和准确性，例如通过开发新型传感器融合技术或改进传感器校准算法。其次，开发更灵活的决策模块，使其能够快速适应突发的交通事件和临时的交通规则变化。此外，进一步优化算法以减少计算资源的消耗，特别是在处理复杂的城市交通场景时，确保系统的实时性和高效性。最后，加强UDMC框架在实际道路环境中的测试和验证，收集更多的实际数据，以改进模型的鲁棒性和适应性。通过这些研究方向的探索，UDMC框架有望在未来实现更广泛的应用和更高的性能表现。

7. 总结

UDMC框架作为城市自动驾驶领域的一项创新性研究成果，通过将决策制定和运动控制整合到一个统一的最优控制问题中，有效地解决了传统自动驾驶系统在复杂城市交通环境中面临的诸多挑战。该框架利用势函数模拟交通参与者和规则，结合运动预测模块，实现了对周围环境的准确感知和预测，从而为自动驾驶车辆提供了安全、高效且符合交通规则的行驶策略。在CARLA模拟器中的高保真度测试进一步验证了UDMC框架的优越性能，其在安全性、规则遵守性、驾驶效率、计算效率和鲁棒性等关键指标上均表现出色，为自动驾驶技术的未来发展提供了有力的技术支持和理论依据。尽管存在一些局限性，如在极端天气条件下的传感器数据处理、面对突发交通事件的决策适应性以及实际道路测试中的地区适应性等，但通过未来的研究和优化，UDMC框架有望克服这些挑战，推动自动驾驶技术在城市环境中的广泛应用，实现更加智能化、安全化的交通出行。

#Uber端到端：端到端可解释神经运动规划器

Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., & Urtasun, R. (2019). End-To-End Interpretable Neural Motion Planner.2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Presented at the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA. https://doi.org/10.1109/cvpr.2019.00886.

本文采用了轨迹采样+cost map prediction的方式实现learning based planning方案。

网络的输入是lidar cloud point and hp map, 然后通过cnn卷成feature最后接MLP进行预测。预测有两个部分，可以理解成感知任务和规划任务。其中感知任务包括了3D detection and future motion forcasting. 规划的任务则是预测稠密的cost volumes. 此外这个输入的特征空间还带有时序的信息，通过融合多帧的感知信息，然后进行cat组成了存储时序信息的features。规划任务是预测稠密的cost volume, 不过文章提到预测这个东西主要靠的是gt轨迹，我们希望预测到gt附近区域是cost比较低的，但是这个奖励太稀疏了，所以单纯的利用gt信息学习是很困难的，所以额外的通过两个感知任务帮忙调整感知backbone输入，这样也可以提升planning的学习效果，原文的表达如下：“we introduce an another perception loss that encourages the intermediate representations to produce accurate 3D detections and motion forecasting. This ensures the interpretability of the intermediate representations and enables much faster learning。”

此外 HDmap上存储了各种道路环境的语义信息：“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs.”这些道路，十字路口，车道线以及红绿灯等静态道路元素也被提取出来作为cost map中的静态元素，这些东西被铺进多个图层，也生成了M个通道，最后和lidar point cloud上提取出来的T个时间维度的信息组合在一起给到后面的planning使用。

有了这个cost map, 下面通过螺旋曲线的采样生成planning anchor, 将这些anchors铺到cost map上面找cost最低的轨迹。

文章号称有以下三个优势：

具备可解释性和多模态能力，从后面的数据来看，可解释性来自cost map的高低，能够有效可视化出来碰撞或者违背道路交通规则的区域。此外额外的两个感知任务3d detection and motion forcasting也能提供中间信息的可视化做到一定的可解释性。
能够进行联合训练，避免了信息损失。
能够处理不确定性，从后面看不确定性的处理也是在cost map上体现出来的，cost map上出现了非凸的low cost区域用于表达多种驾驶可能性。不过这个证明有点弱，仅仅是出一张有多模态决策的图还是远远不够的，本文还是缺乏充足的理论和实验论证这里的网络设计是可以保证多模态的。

objective

planning模块的目标是将采样获得trajectory铺进cost volume中，从中找到cost最低的轨迹作为最佳轨迹：

而轨迹的costing方式则是则是通过从cost map中索引voxel-wise的cost进行计算的。感知的输入是H,W,Z维度的lidar cloud points, 同时为了考虑时序上的动态agents的信息，雷达点云信息还要融合多帧的时序结果，在Z维度叠起来，H,W,ZT. 另一方面，Wiley考虑道路环境元素，本文给各个道路元素都准备了一层通道，包括road, intersections, lanes, lane boudaries, and traffic lights. 原文表达是“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs. Similar to [5], we rasterize the map to form an M channels tensor, where each channel represents a different map element, including road, intersections, lanes, lane boundaries, traffic lights, etc.”所以维度变成H,W,(ZT+M).

感知backbone是个CNN，作为下面两个头的输入，其中感知头预测bounding box and motion forcasting. cost volume头预测cost volume, 这里主要看下cost volume的预测。这里采用了max margin loss, gt是人驾轨迹。loss希望区分人驾轨迹的区域和其他区域，人驾轨迹的地方就是cost低的地方：“The intuition behind is to encourage the ground-truth trajectory to have the minimal cost, and others to have higher costs.”

c表示cost, d表示轨迹距离，gamma表示traffic rule violation.

在负样本采样中，需要采样大量的偏移人驾轨迹的曲线，这里除了用planning anchor采样逻辑外，还对起点状态做了一个轻微扰动：“except there is 0.8 probability that the negative sample doesn't obey SDV's initial states, e.g. we randomly sample a velocity to replace SDV's initial velocity.”

planinng anchor

横向采用螺旋曲线进行采样:

纵向则是采用了constant accleration直接采样加速度，非常粗糙。

文章还提到了一点，“Note that Clothoid curves cannot handle circle and straight line trajectories well, thus we sample them separately. ”这个螺旋曲线不能表达直线和圆形，所以直行和掉头要出问题，所以额外单独采样，他们的采样比例是：“The probability of using straightline, circle and Clothoid curves are 0.5, 0.25, 0.25 respectively.”

experiment

实验关注L2 distance, collision rate, and lane violation rate这几个指标，然后做了几个对比实验：

Ego-motion forecasting (Ego-motion)，仅用ego motion 作为输入
Imitation Learning (IL)：imitation is all you need, 用纯粹imitation学习
Adaptive Cruise Control (ACC)：没有细说怎么处理，不过从后面的实验结果分析上来看，应该是加了lane violation的loss
Plan w/ Manual Cost (Manual): 人工设计cost

对比结果如下：

结论就是：“Egomotion and IL baselines give lower L2 numbers as they optimize directly for this metric, however they are not good from planning perspective as they have difficulty reasoning about other actors and collide frequently with them.”

然后对比其他几个方面的对比结果。包括联合训练(所谓联合就是是不是要感知任务和规划任务一起训)，输入的时序融合长度，是否确实gamma penalty等等：

#从10到100的地平线

近期，智驾行业频繁出现中高阶的大项目定点。

据悉，某头部主机厂的一个中高阶大项目定点被地平线生态所斩获，这个大项目定点的车型数量达到了十个左右。

大项目频繁出现的原因是主机厂都在筹备智驾普及大战。众所周知，主机厂从卷电动调转枪口卷智驾。一位主机厂朋友表示，大家都在积极备战，25年将会是传统主机厂卷智驾最热闹的一年。

1. 智驾普及大战

众所周知，智驾行业是一年一个变化，25年最大的看点大概是两条线。

一条线是中高阶智驾的下沉普及；另外一条线是端到端2.0落地的竞争，也就是VLA量产上车。

引发智驾下沉普及的鲇鱼是比亚迪，比亚迪发起了声势浩大的智驾普及大战。比亚迪的动作凶猛，近乎全系车型要上中阶或高阶的智驾方案，10W出头的车型上都要上带高速NOA、记忆行车的中阶方案。

一位头部主机厂的人士表示，比亚迪国内销量第一，在C端用户影响力大，也是众多国内主机厂对标的对象。比亚迪卷智驾，那么几乎所有的主机厂都要跟进。

这意味着智驾正式从技术探索阶段过度到了智驾普及阶段。

在这场声势浩大的智驾普及战中，传统主机厂将不再是像过去几年一样在零星的个别车型上搭载中阶或高阶智驾、采用高定价的选配策略，而是近乎全系车型甚至会采取激进的标配策略。

这就使得许多主机厂产生了一个“烦恼”：面临几十款车型如何量产智驾的问题。

在以前，传统主机厂都是对旗下的个别车型上搭载中阶或高阶的智驾方案，量产的车型并不多。而现在是近乎价位10W以上的车型都要上中高阶的方案，对于一些拥有几十上百款车型的传统主机厂来说，如何做好智驾的量产是个大问题。

一些传统主机厂已经开始调整思路，比如，某头部车企将一个车型平台交给一家地平线生态合作伙伴来做。

在过去，传统主机厂喜欢分散式的选择供应商，一个车型平台会交给几个供应商来做。现在则是由之前分散式的选择智驾供应商的方式，转变为打包整个车型平台交给一个或两个智驾供应商来做。

这样做的目的除了能够降本卷智驾之外，另外很重要的原因是能在量产中以及后续的OTA能够很好的一致性管理。

当国内主机厂调整枪口卷智驾，意味着几百个车型的量产需求。这么庞大的一个量产需求，需要一个强大的生态系统才能接得住。

（征程6系列定点超100款中高阶智驾车型）

目前，国内能接住的凤毛麟角，地平线或许是最有潜力的那个。

第一，地平线生态的合作伙伴群体规模庞大，从软件算法到硬件的域控、传感器，应有尽有；第二，地平线以及生态伙伴的产品线覆盖全场景，无论低阶、中阶还是高阶的需求。

所以，在传统主机厂的智驾普及战略中，地平线成了绕不开的选择。而且，基于地平线的J6一代芯片做的智驾方案，在性能和成本上非常均衡，契合了传统主机厂对智驾普及的战略需求。

这也是为什么24年地平线的“朋友圈”和定点疯狂增长的原因，不仅是传统主机厂，新势力在智驾普及战略上也是做出了一样的选择。

新势力车型产品从中高端向中端以下市场下沉，在残酷的汽车价格战背景下，在智驾上不再追求 “自产自销”，开始采取务实灵活的策略——“谁适合就用谁”。理想和蔚来都选择了地平线来做智驾普及。

一位业界朋友表示，25年的出货量要爆，这波智驾普及的趋势，地平线是大赢家，斩获的中阶定点项目最多。

2. 智驾的技术拐点

VLA被业界视为将高阶智驾的技术从“可用”推进到“好用”的重要拐点。

VLA大致可以划分为1.0、2.0、3.0的三个阶段。

在VLA1.0阶段，即端到端和视觉语言模型双系统初步融合阶段，提升智驾系统的对环境的理解能力；VLA2.0阶段，即深度融合的ONE MODEL，在提升智驾系统对环境空间感知理解能力的同时，实现根据感知直接生成运动规划和决策；VLA3.0阶段，即实现拟人的推理能力，类似于GPT-4o一样多轮推理。

从技术迭代上来看，智驾不久将迎来自己的GPT时刻。

过去十几年智驾行业是起起落落，有过浮躁红火，有过冷清低谷。不过，这一回的技术拐点和以前不一样，行业是第一次能够看到清晰可实现的“攀上珠峰”的技术路线图了，整个行业的商业价值也会出现变化的拐点。

正是基于智驾技术进步的路线图和节点，地平线创始人余凯认为智驾三年时间行业大局可定，并预测整个智驾产业将实现“3年脱手开，5年闭眼开，10年随心开”的目标。

地平线在25年也将量产自己的高阶智驾方案HSD（Horizon SuperDriveTM）。地平线的HSD一上来就奔向了端到端VLA，瞄准了未来两三年实现“脱手开”的战略目标。

（HSD系统基本泛化了中国主要地形城市）

一位体验过HSD的业界朋友评价，苏箐出手非常精准犀利，对未来几年智驾技术迭代变化看的很透彻，出手就是抢攻技术制高点。

25年对于地平线来说是一个重要的拐点，迎来在低阶、中阶、高阶上的全面爆发的一个新阶段。

不过，虽然地平线在高阶上软硬结合更加深化，但是地平线对自身的定位仍旧是Tier 2。有了生态，就是一片森林，没有生态，就是一棵树，地平线创始人余凯相信的是森林而不是一棵树木。

地平线对Tier 2和Tier 1的边界有着清晰的认知，重心放在如何撑起整个生态的高度上。

24年地平线生态的合作伙伴迎来丰收的繁荣期，很重要的一个原因就是生态高度上了一个台阶。

众所周知，24年的智驾行业在资本市场遇冷，业内许多智驾公司融资困难。不过，有一些智驾公司仍旧受到资本的追捧，不仅一轮融资就拿到几个小目标，而且甚至一年实现几轮融资，比如轻舟、鉴智机器人、易航等。

这些都是地平线生态的智驾公司，之所以能在资本降温的时代里还能频繁融到钱，一个很重要的原因是：在定点项目上斩获丰盛。

24年下半年，传统主机厂掀起了一波密集的中阶智驾项目招标小浪潮，为应对智驾普及大战做准备。这一波的中阶项目，很大一部分被地平线生态的智驾公司拿到了。

手里的项目多了，就要招兵买马扩充技术力量，资本也很聪明，看到斩获丰盛的智驾公司就追上去加码子弹粮食，让这些公司跑的更快一些。

在这场智驾普及大战之中，地平线生态的智驾公司频频斩获定点拿单，成为各大主机厂的重要帮手。

地平线生态的智驾公司各自推出了差异化的智驾方案，比如，轻舟在J6M上开发出一套轻量级城区NOA的方案，成本便宜，满足了主机厂想把高阶智驾下沉和降本的需求；鉴智基于自己研发的视觉3D感知的算法能力,推出双目立体视觉系统，获得国产和合资主机厂的青睐。

主机厂青睐，资本追捧，地平线生态的合作伙伴迎来丰收的繁荣期。

芯片行业有一句流传甚广的老话：没有生态的芯片就是一块“砖”。这话的意思是说芯片市场的竞争不仅依赖于产品性能，还有生态系统的建设。

那些世界级的芯片公司，在各自领域不仅是产品性能的领先者，而且都构建生态奠定了各自领域的王者地位。

比如PC领域的王者英特尔，在软件操作系统上有微软这样的联盟伙伴，在硬件制造上有戴尔、惠普、联想等，强大的生态使得一直想通过ARM芯片向PC渗透的战略无法奏效；而手机领域的王者高通，也同样构建了强大的生态，软件系统上有安卓，硬件上有小米、VIVO、OPPO等。

生态是芯片公司重要的护城河，芯片产品可以竞争但是生态不可复制。

结束语

在过去，国内能够打造生态系统的大多数都是互联网公司。比如阿里建立电商生态、腾讯建立社交生态、抖音建立了内容生态。而在硬科技领域，基本没有能够建立生态系统的。

而现在，随着2025年疯狂的拿下诸多智驾大订单，硬科技领域诞生了第一家成功建立生态的公司：地平线。

地平线这几年在汽车市场的征战，几乎每一次都精准踩点行业的变化，从低阶切入抓住了20年到22年L2大规模普及的风口，又在24年推出J6推动了中高阶下沉普及，25年在智驾出现技术拐点时推出高阶。

几年持续的洞察、预判、布局，使得地平线2025年的出货量将冲向1000万量产大关。在持续领先的大规模量产的同时，地平线坚持“向上捅破天”，保持智驾技术的领先性，为行业打造新标杆。

#LargeAD

感知任务全面涨点！自动驾驶超强预训练来了（新加坡国立）

论文链接：https://arxiv.org/pdf/2501.04005
项目链接：https://ldkong.com/LargeAD

写在前面 && 笔者理解

近期视觉基础模型（vision foundation models, VFMs）在2D视觉领域取得了显著进展，比如：SAM, X-Decoder, SEEM等等。这些模型在从2D图像中提取丰富的像素级语义方面表现出色。然而，将这些进步扩展到3D领域仍然是一个有待探索。

在本文中，作者提出了LargeAD，这是一个新颖且可扩展的框架，用于跨多种传感器的大规模3D预训练。将VFMs引入3D领域，以实现几个关键目标：i）使用原始点云作为输入，消除对昂贵标签的需求，ii）利用驾驶场景中的空间和时间线索进行稳健的表示学习，以及iii）确保对预训练数据之外的下游数据集的泛化能力。

这篇工作的关键创新可以总结如下：

VFM驱动的超像素生成：通过VFMs从2D图像中生成语义丰富的超像素，这些超像素与LiDAR点云对齐，以构建高质量的对比样本，减少了对比学习中的“自我冲突”问题。
VFM辅助的对比学习策略：对齐多模态特征，解决了图像和LiDAR特征之间的跨模态差异。
超点时间一致性：通过时间一致性机制增强点云表示的稳定性，减轻了LiDAR和相机传感器之间不完美同步的错误。
多源数据预训练：利用多种LiDAR数据集进行预训练，构建了一个能够适应不同传感器配置的通用模型，提高了模型的可扩展性。

#150亿造车新势力，宣布停运破产

百亿造车巨头，破产清零了。

造车8年，滑板底盘造车鼻祖Canoo，刚在主页更新了公告，宣告公司已申请破产，并立即停运。

辉煌时，这家公司云集宝马、福特、Uber等巨头的前高管，仅4年就在纳斯达克上市，市值一度高达150亿。

如今深陷泥沼，因融资失败而破产，随着9位创始人全部离去，Canoo的造车故事，自此遗憾画上句点。

滑板底盘造车的故事，在美国遭受了重创。

Canoo破产并立即停运

还是没熬过。

电动汽车公司Canoo刚发布了一条公告，宣告申请了美国破产法第7章，公司正式破产，并立即停止运营。

其实在一个月前，Canoo的破产就有征兆。

上个月18日，Canoo也发布了一则公告，宣布暂停位于俄克拉荷马州的工厂，并让82名员工“休假”，公司将全力筹集继续运营的资金。

只是没想到，情况要比想象的更加危急。

从公开数据来看，去年11月份，Canoo披露财报指标，公司去年第三季度营收90万美元（约659万元），同比增长71%，环比增长47%。

营收额不高，但增长速度惊人，主要是因为Canoo其实2023年第三季度才开始有收入，甚至去年第一季度又“颗粒无收”。

并且这是Canoo的首份盈利财报，净利润为325.8万美元（约2386.6万元），但前三季度的累计亏损仍有1.12亿美元（约8.2亿元）。

最关键的是，截至季度末，Canoo账上的现金只剩下1600万美元，折合人民币大约是1.2亿元。

短期内，如果不能获得足够的资金支持，Canoo将不得不接受破产的命运，但事实，恰恰就是他们最不想看到的那样。

Canoo表示，由于未能获得美国能源部 (DOE) 贷款，与外国资本的谈判也没成功，公司资金链彻底断裂。

事到如今，这家巅峰市值21亿美元（约154亿元）的造车新势力，最新股价只剩1.35美分，折合人民币连一毛钱都不到。

滑板底盘鼻祖，造车这一路

成立于2017年的Canoo，是滑板底盘赛道的代表性玩家。

创始人斯特凡·克劳斯(Stefan Krause)和乌尔里希·克兰茨（Ulrich Kranz），都是车圈老炮，还都出身宝马。

克劳斯擅长财务，曾经担任过宝马和德意志银行的首席财务官；克兰茨曾是宝马i3系列车型的项目主管，被称为“宝马i系列之父”。

△左：斯特凡·克劳斯；右：乌尔里希·克兰茨

而且两人都曾是贾跃亭的手下干将，担任过法拉第未来（FF）的CFO和CTO。

离开FF后，他们发现了滑板底盘的商机，一拍即合创立了Canoo。

所谓滑板底盘，就是一种专门为电动车设计的一体化底盘架构，将电池、传动系统、悬架等汽车部件，直接整合到一个通用底盘上。

其优势在于取消机械连接，车舱可以保留更多空间，而且同一个底盘，能够灵活适应不同大小的车辆类型，从而提升整个汽车产品系列的可扩展性。

目前为止，Canoo推出的四个系列车型，就都是基于自研的滑板式底盘打造。

一款是2019年面世的旗下首款电动车MPV，还有一款皮卡、一款轿车，以及生活方式送货车LDV。

车造出来了，接下来该考虑的就是卖给谁。

Canoo的商业模式，起初设想非常美好，他们计划兼顾2B和2C市场，3条腿走路：

对于2B市场，一条线是与主机厂合作，直接为他们提供滑板底盘；另一条则是针对物流货运。

而在2C市场，Canoo提出了一个全新玩法——订阅模式：消费者在Canoo官方平台申请车辆，之后按月付费使用Canoo的车辆，类似于“短租”。

Canoo原本打算把这种模式当作主要的营收渠道，他们认为，既可以为消费者省去抵押、上牌等无形成本，公司也可以按需生产，降低制造成本，提升利润空间，岂不两全其美？

怎料，现实却并没有想象中的顺利。

主机厂普遍不太愿意把底盘业务交给别人，比如Canoo和现代汽车的合作项目，没多久就胎死腹中。

同时创新性的订阅模式也没搞起来，Canoo一度吸金困难，恰逢此时，CEO乌尔里希·克兰茨，跳槽去了苹果拓展汽车业务，连带着一场小型离职潮在Canoo爆发。

这种背景下，执行董事长托尼·阿奎拉（Tony Aquila），也是公司投资人，召开了分析师会议上，几乎推翻了此前所有的商业规划：

把订阅模式的收入占比，压缩到20%以下，重心面向货运领域的2B市场。

2022年，Canoo等到了一笔大单，沃尔玛宣布要购买4500辆Canoo LDV，用于配送在线订单。

但这也是Canoo一直到现在为止的最大订单，虽然Canoo还得到了美国邮政局和NASA的订单支持，但两者加起来的数量也只是9辆，不足以帮助Canoo力挽狂澜，也没法规模化降本。

如此，在接下来的几年，不仅是投资人逐渐失去信心，公司内部，曾经吸引来的创始高管，也都接连出走。

到2024年9月，伴随着汽车工程高级总监，克里斯托夫·库特纳 (Christoph Kuttner) 的离职，当初的9位联合创始人已全部离开。

Canoo已是形存神灭。

滑板造车，还能玩下去吗？

Canoo倒下，看起来像是对滑板底盘造车，再次敲响警钟。

细想之下，Canoo这些问题的症结，都在齐齐指向商业模式。

不单单是Canoo自身的商业模式，也是滑板式底盘赛道的商业模式。

这个赛道第一个爆雷的Arrival，和Canoo类似，都走向了商用车路线，制造配送车、轻型货车卖给商超、物流商。

这样的模式，要面临着逃不开的困局，首先是这样的客户订单总量不大，因此难以规模化降低成本。

其次，滑板造车玩家并不提供自动驾驶技术，交付的车还是需要人类驾驶的车，但成本又远高于传统货车，愿意买账的人更加有限。

第二条路线，就是更为知名的Rivian选择的，乘用车路线，并且Rivian更倾向于整车生产，滑板底盘更多是一个标签。

不过，Rivian为了在北美市场活下来，首款产品几乎集全部资源押注了皮卡车型，竞争压力也可想而知。

如今走下去，也需要源源不断的融资在后方燃烧，刚刚还向美国能源部申请了一笔66亿美元（约483亿元）的贷款。

但如果把视线放得更远，还存在一条路线，可以看向国内代表玩家，悠跑科技和PIX Moving。

他们的模式，主要面向大客户，提供一体式底盘解决方案，更关键的是，他们面向的群体是中国。

悠跑创始人李鹏曾表示，国外玩家最大的战略错误，就是没来中国。

“你不来中国，拿不到全球最大电动汽车市场、全球最好供应链的支持，必然导致一个结果：交付不行。
我不认为滑板底盘不行，只是大家在商业操作上有很严重的问题。这件事（指滑板式底盘），我认为有且只有中国能做。”

上个月，就在Canoo关厂“裁员”的同时，悠跑刚刚完成了B轮融资，由合肥领投，徐州产发基金、以及博世集团旗下博原资本跟投，筹集到了数亿元人民币。

看起来，滑板底盘造车的未来，也许更多要看中国玩家了。

参考链接：

https://investors.canoo.com/news-presentations/press-releases/detail/159/canoo-inc-announces-chapter-7-bankruptcy-filinghttps://electrek.co/2025/01/18/another-one-bites-the-dust-as-canoo-files-for-chapter-7-bankruptcy/

#GaussianWorld

清华提出高斯世界模型

以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。该任务提供了更细粒度的场景语义和结构描述，这对于开发安全且强大的自动驾驶系统非常重要。

利用时间输入对于 3D 占用预测非常重要，因为它为理解场景演变提供了足够的历史上下文信息。大多数现有方法遵循传统的感知、转换和融合流程，给定顺序输入信息，感知模块独立获得每个帧的场景表示，例如BEV特征以及体素特征。然后，转换模块根据自车轨迹对齐多帧的时序特征信息，融合模块融合对齐的特征表示以推断当前的 3D 占用情况。

然而，这些方法未能考虑驾驶场景演变的固有连续性和简单性。相邻帧中的驾驶场景表示应该彼此紧密相关，因为场景演变通常仅源于自车和其他动态物体的运动。直接融合多帧表征会忽略 3D 场景演化提供的这种强先验信息，即静态物体连贯性和动态物体运动，这使得模型很难理解驾驶场景的发展。此外，这种设计增加了时间建模的复杂性和计算工作量，从而降低了其效率和有效性。

考虑到上述提到的相关问题，在本文中，我们探索基于世界模型的范式以利用场景演变进行感知，该算法称为GaussianWorld。GaussianWorld采用显式 3D 高斯作为场景表示，而不是传统的隐式 BEV/Voxel 表示，这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入，GaussianWorld算法模型旨在预测场景如何演变并预测当前的占用情况。

为了证明提出的GaussianWorld算法模型的有效性，我们在流行的nuScenes数据集上进行了大量实验。如下图所示，我们的 GaussianWorld 可以有效地预测场景演变，并在不引入额外计算的情况下将单帧占用率预测提高 2% 以上（mIoU）。

论文链接：https://arxiv.org/pdf/2412.10373

网络模型结构&技术细节

World Models for Perception

精确感知 3D 场景对于开发可靠的自动驾驶系统至关重要。它旨在预测 3D 场景的几何形状和语义，以支持后续的预测和规划任务。感知模型利用前帧和当前帧的传感器输入来获得感知结果。

感知任务中的时间建模的传统流程包括三个阶段，分别是感知、转换和融合。感知模块首先独立提取每一帧的场景表示。随着自车的前进，跨帧的自车表示会错位。转换模块通过根据自我轨迹将过去的特征与当前帧对齐来解决此问题。然后，融合模块整合对齐的多帧表示以供感知进行使用。传统的流程可以表述为如下的公式形式。

尽管该框架的性能取得了较为不错的成绩，但它未能考虑驾驶场景固有的连续性和简单性。驾驶场景的演变通常仅源于自车和其他动态物体的运动。相邻帧中的驾驶场景表征本质上是相关的，包含了世界的演化动力学和物理定律。然而，直接融合多帧表征会忽略这种强先验信息，从而限制其性能。

受此启发，我们探索了一种基于世界模型的范式，以利用场景演化进行感知。世界模型通过学习简单但有效的时间建模先验来增强感知。我们使用感知世界模型根据先前的表示和当前的传感器输入预测当前的表示，具体的表现形式如下

我们进一步将 3D 感知任务重新表述为以当前传感器输入为条件的 4D 预测问题，其表述形式如下

通过获得预测的场景表征和下一个观察值后，我们可以将它们输入到世界模型中，以流式方式预测下一个表征。世界模型根据场景演变和当前观察值学习场景表征的联合分布，最终用于实现感知。

Explicit Scene Evolution Modeling

驾驶场景的演化一般简单且连续，主要由动态物体的运动引起。当在一定范围内采用以自车为中心的场景表示时，场景演化通常可以分解为三个关键因素：静态场景的自我运动对齐，动态物体的局部运动，新观察区域的补全。通过对这些因素进行建模，世界模型可以学会有效地演化场景，如下图所示。

考虑到上述场景演化的分解，我们采用 3D 高斯作为场景表示，以明确和连续地对场景演化进行建模。我们用一组稀疏的 3D 语义高斯来描述 3D 场景，其中每个高斯代表一个具有明确位置、比例、旋转和语义概率的灵活区域。为了学习场景演化，我们引入了一个额外的时间特征属性来捕获 3D 高斯的历史信息。3D 高斯表示可以表述为如下的公式形式。

我们进一步提出了一个 3D 高斯世界模型，GaussianWorld，以利用场景演化进行感知。提出的 GaussianWorld 对之前的 3D 高斯和当前的传感器输入进行操作，以预测当前的 3D 高斯。

接下来，我们将介绍 GaussianWorld 如何在三维高斯空间中对上述场景演化的分解因素进行建模。

（1）Ego Motion Alignment of Static Scenes.

GaussianWorld 的目标是基于之前的高斯结果预测当前的3D高斯，每帧的 3D 高斯表示代表以相应帧的自车位置为中心的一定范围内的场景，向前移动会导致物体的全局位移。GaussianWorld 通过使用对齐模块来对齐从上一帧到当前帧的 3D 高斯位置来解决此问题。为了实现这一点，它基于自车轨迹对整个场景的 3D 高斯进行全局仿射变换。形式上来看，给定最后一帧 3D 高斯和仿射变换矩阵，对齐的 3D 高斯可以表示为如下的公式形式。

（2）Local Movements of Dynamic Objects

我们还考虑了场景演变过程中动态物体的局部运动。GaussianWorld 通过更新动态高斯函数的位置来实现这一点。对齐的 3D 高斯函数根据其语义概率分为两个互斥集，分别是动态高斯集合和静态高斯集合。然后，GaussianWorld 使用运动层来学习对齐的 3D 高斯的联合分布和当前观察结果，以预测动态高斯的运动。

（3）Completion of Newly-Observed Areas

当自车移动到新位置时，某些现有区域会超出边界，而一些新区域则变得可观察。我们丢弃超出边界的高斯函数，并使用随机初始化的高斯函数补全新观察到的区域。为了保持一致数量的 3D 高斯函数，我们在新观察到的区域中均匀采样等量的 3D 高斯函数。随后，GaussianWorld 使用感知层根据当前观察预测新观察区域中已补全的 3D 高斯分布的所有属性。

3D Gaussian World Model

接下来，我们介绍一下本文提出的GaussianWord的整体框架。从前一帧的 3D 高斯开始，我们首先应用对齐模块来获取当前帧的对齐 3D 高斯。在新观察到的区域中，我们采样额外的 3D 高斯并将其当前帧的3D高斯进行混合，从而一起描述整个场景。

我们基于当前传感器的输入数据，使用运动层和感知层来更新对齐的3D高斯以及最新观察到区域的3D高斯。值得注意的是，这两层共享相同的模型架构和参数，即编码器模块和细化模块，从而允许它们集成到统一的演化层中并并行计算。这种设计确保GaussianWorld 保持模型简单性和计算效率。我们堆叠多个演化层以迭代地细化 3D 高斯函数，使模型具有足够的能力来学习场景演化

此外，为了解决 3D 高斯表示与现实世界之间的潜在不一致问题，我们加入了另外的细化层来微调 3D 高斯的所有属性

演化层和感知层之间的唯一区别在于历史高斯的哪些属性被调整。这种调整可以合并到统一的细化块中，如下图所示。因此，两个层都可以集成到统一的高斯世界层中。

我们采用交叉熵损失和 lovaszsoftmax损失进行训练，首先在单帧任务上对我们的模型进行预训练。然后我们使用流式训练策略对模型进行微调，其中每个场景的图像按顺序输入到模型中。在每次训练迭代期间，将当前帧图像与上一帧中预测的 3D 高斯相结合输入到模型中进行 3D 占用预测。当前帧中预测的 3D 高斯将传递到下一次迭代进行连续流式训练。在流式训练的早期阶段，模型还不能熟练地预测场景的演变，导致流式预测误差很大。为了增强训练稳定性，我们从短序列开始训练，并在整个训练过程中逐渐增加序列长度。我们使用概率建模，并在每次迭代中以的概率随机丢弃前一帧的 3D 高斯表示。随着训练的进展，我们逐渐降低的值，使模型能够适应预测更长的序列。

实验结果&评价指标

我们对 nuScnene 验证集上以视觉为中心的 3D 语义占用预测方法与其他最先进方法进行了全面比较，并使用 SurroundOcc 的占用标签，相关的实验结果如下表所示。

对于 GaussianWorld 的第一个训练阶段，我们在单帧设置中复现了 GaussianFormer，记为 GaussianFormer-B。仅使用 25600 个高斯函数，它就实现了与当前最先进的方法相当的性能。由于此基准上缺乏时序建模方法，我们引入了 GaussianFormer 的时序融合变体以进行公平比较，记为 GaussianFormer-T。经过第二阶段的训练，我们的 GaussianWorld 的表现远胜于所有单帧模型和基于时序融合的 GaussianFormer。与单帧模型 GaussianFormer-B 相比，它的语义 mIoU 提高了 2.4%，几何 IoU 提高了 2.7%。此外，GaussianWorld 的表现也优于时间融合模型 GaussianFormer-T，mIoU 增加了 1.7%，IoU 增加了 2.0%。这些结果凸显了我们基于世界模型的感知框架优于传统的时序融合方法。相关的可视化结果如下图所示。

我们对基于 GaussianFormer 的不同时序建模方法的性能和效率进行了比较。我们探索了两种实现 GaussianFormer-T 的方法，分别在 3D 高斯空间和透视视图空间中进行时序融合。对于前者，我们独立提取每帧的 3D 高斯表示，并利用 4D 稀疏卷积来促进跨帧 3D 高斯之间的时序交互。对于后者，我们独立提取每帧的多尺度图像特征，并采用可变形注意机制来实现当前帧的 3D 高斯和来自不同帧的图像特征之间的交互。相关的实验结果指标如下所示。

我们的 GaussianWorld 远远超越了所有其他时序建模方法，并且显著降低了延迟和内存消耗。值得注意的是，与单帧模型相比，我们的 GaussianWorld 在推理延迟和内存消耗几乎相同的情况下显著提高了性能。这归功于我们统一而简洁的模型架构，它可以处理单帧输入和流式输入，而无需引入额外的计算。

此外，我们的 GaussianWorld 明确地模拟了基于世界模型的感知场景演化的三个分解因素。为了评估这些因素的影响，我们进行了消融研究以确认其有效性，相关额实验结果如下表所示。

下表也展示了使用不同流长度时，我们的 GaussianWorld 的 mIoU 和 IoU 性能。我们观察到，流式传输更多帧通常会带来更好的性能，但在大约 20 帧后会略有下降。改进源于我们对场景演变的建模，有效地考虑了历史帧。

我们也探讨不同流媒体训练策略的影响，相关的实验结果汇总在下面的表格中。

结论

在本文中，我们提出了一个基于世界模型的框架，利用场景演化进行 3D 语义占用预测。我们将 3D 占用预测重新表述为以当前传感器输入为条件的 4D 占用预测问题。我们将场景演化分解为三个因素，并利用 3D 高斯进行显示建模。然后，我们使用GaussianWorld 来显式地利用 3D 高斯空间中的场景演化，并以流式传输的方式促进 3D 语义占用预测。大量的实验结果表明，与现有方法相比，我们的模型在不引入额外计算开销的前提下，展示了SOTA的性能。

#HoloDrive

用于自动驾驶的整体2D-3D多模态街道场景生成！

生成模型显著提升了自动驾驶领域的相机图像或激光点云生成和预测质量。然而，现实中的自动驾驶系统通常使用多种输入模态，包括相机和激光雷达，这些传感器提供的信息互补，有助于生成更加准确的结果。

现有的生成方法忽略了这一关键特征，导致生成结果只能覆盖单独的2D或3D信息。为了填补2D-3D多模态联合生成的空白，本文提出了一种名为HoloDrive的框架，旨在联合生成相机图像和激光点云。

作者在这两个异构生成模型之间采用了BEV-to-Camera和Camera-to-BEV转换模块，并在2D生成模型中引入了一个深度预测分支，以消除从图像空间到BEV空间的未投影歧义，然后通过添加时间结构并精心设计逐步训练方法来预测未来。

此外，作者在单帧生成和世界模型基准测试中进行了实验，并展示了作者的方法在生成指标上显著优于当前最佳方法。

1. Introduction

生成模型因其能够理解数据分布并生成内容的能力而获得了广泛关注，在图像和视频生成[1]、三维物体生成[16, 48]以及编辑[13]等领域取得了显著进展。在仿真领域，生成模型展现了创建逼真场景的巨大潜力，这对于训练和评估类似于自动驾驶车辆的安全关键型实体智能体[11, 44]至关重要。这一能力减少了对昂贵的手动现实世界建模的需求，促进了广泛的闭环训练和场景测试。此外，世界模型正在逐步探索中以理解和预测现实世界的动态特性，这对于仿真场景和视频生成至关重要。

尽管在自主驾驶领域的条件图像和视频生成方面取得了进展，现有方法主要集中在单一模态上，要么利用2D数据（[44, 53]），要么利用3D数据（[48, 52]）。然而，一个真正具备能力的自主驾驶系统通常会整合多种传感器，包括相机和激光雷达。相机提供了丰富的纹理和语义信息，而激光雷达则提供了精确的三维几何细节。

这两种模态的结合可以提高感知准确性，因为它们互为补充（[20, 24]）。目前，联合模态生成的研究还非常初步。BEVWorld（[51]）进行了一些探索，但其生成的质量和可控性仍然难以与单模态领域的最新方法（SOTA）相媲美。

作者提出了一种全面的2D-3D生成框架HoloDrive，用于自动驾驶，该框架将街道视角下的2D和3D生成统一在一个高效的整体框架中。HoloDrive能够联合生成多视图摄像头和LiDAR数据，如图1所示。作者的框架扩展了最先进的2D和3D生成模型，使基于文本和边界框/地图条件生成真实街道场景成为可能。

为了实现联合2D和3D生成，作者首先在2D生成模型中引入一个深度预测分支，并从3D LiDAR自然地获得监督信号。在此基础上，作者采用一种高效的BEV到Camera变换来对齐3D和2D空间，并引入一种Camera到BEV模块，该模块将丰富的2D语义先验信息引入到3D空间中。这些跨模态结构在生成过程中促进了两种模态之间的有效信息交换，并使整个模型能够端到端地训练。作者将联合pipeline应用于单帧生成和视频生成任务，并采用渐进式训练方法，结合视频域的额外多任务学习，以实现训练阶段的平滑过渡。

作者在NuScenes数据集[3]上进行了实验，该数据集提供了配对的多视图相机图像、LiDAR点云、文本描述以及地图布局等信息。作者的结果显示，通过整合联合2D-3D建模，HoloDrive在生成多视图相机图像和LiDAR点云的单帧及序列数据方面达到了业界最佳性能。

本文的主要贡献总结如下：

作者提出了一种新型框架HoloDrive，能够在给定文本和布局条件的情况下，联合生成在二维和三维空间中一致的多视图相机图像和LiDAR点云。作者 Proposal 在二维生成中增加额外的深度监督，并应用高效的Camera-to-BEV变换模型来对齐二维和三维空间，从而增强联合二维-三维生成建模能力，并进一步扩展到视频生成中。
作者的方法在生成质量上表现出色，能够忠实地遵循给定的条件以及实现二维-三维一致性，同时在单帧和视频生成方面都达到了最先进的性能。

2. Related Work2.1. Image Generation

图像生成是生成建模中最基本的话题之一，已经探索了各种方法。其中，通过逆向迭代随机过程来建模图像生成的扩散模型因其在竞争性训练稳定性和生成质量方面的优势越来越受到关注。造成这种现象的原因在于扩散模型中的精心设计选择，包括通过自动编码器[34]或级联模型[35]降低预测分辨率、更好的噪声调度器、无分类引导以增强控制能力等。最近，一些研究工作成功地将Transformer[42]在NLP领域中展示出的缩放能力转移到扩散模型中。

与自然图像相比，自动驾驶（AD）领域的图像存在固有的差异，即整齐的场景结构和多样的物体。为了弥补这些差异，利用布局信息来引导生成。例如，BEVGen [38] 通过将所有布局投影到BEV空间来参考3D信息。相反，BEVControl [50] 则是从将3D坐标投影到图像视图开始，构建二维几何指导，而MagicDrive [6] 结合了这两种方法的优点。最近，Drive-WM [44] 将像素 Level 的布局信息转移到潜在空间，并依赖统一嵌入来关注它们。作者的方法在此基础上进一步改进，引入了点云协同作用。

2.2.LiDAR Generation

LiDAR 点云生成近年来得到了探索，这是一项属于三维点云生成的任务。早期的工作利用变分自编码器（VAE）[18] 或生成对抗网络（GAN）[7] 对点云进行无条件生成 [2, 36]。LiDARGen [54] 利用了得分匹配能量模型，并从纯噪声中生成点云，视角采用球面投影图。为了更好地保持 LiDAR 场景的结构和语义信息，UltraLiDAR [48] 首次提出使用离散表示来建模 LiDAR 的分布。他们训练一个 LiDAR VQ-VAE [41] 来学习离散表示，并利用双向 Transformer [4] 学习 LiDAR 场景离散 Token 的联合分布。

关于点云预测，一些方法利用过去 LiDAR 扫描来预测未来点云，在时间动态建模上基于 LSTM [45]、随机序列潜在模型 [46] 或三维空间时序卷积网络 [29]。4DOcc [16] 选择预测一个通用的未来三维占用量级数量，而不是直接预测未来点云。Copilot4D [52] 探索了未来 LiDAR 预测中的离散扩散模型，并结合了单一帧预测、未来预测和联合建模的训练目标。RangeLDM [12] 通过去噪 LiDAR 范围图的潜在特征来进行生成，并将这些图像通过霍夫投票投影到点云上以确保高质量的表示。然而，这些方法仅考虑了 LiDAR 点云的先验信息，缺乏语义和感知信息。在本工作中，作者提出的 HoloDrive 同时利用二维图像和三维点云的先验信息，促进了高质量点云的生成。

2.3. Joint Generation

BEVWorld [51] 首次尝试了相机和LiDAR联合生成，并提出了一种利用潜变量自动编码器内部射线投射模块的统一BEV潜在表示，然后通过降噪生成统一的BEV潜在表示。

然而，这种新设计的潜在空间并未用大规模数据进行训练，因此图像生成质量仍难以与基于大规模预训练模型微调的方法（如SD）相匹敌。作者提出的HoloDrive 在有效利用预训练图像生成模型的能力基础上，实现了2D-3D联合生成，并在生成质量上达到了最佳水平（SOTA）。

2.4.PredictiveWorldModel

预测世界模型，利用广义预测模型从序列数据中学习，为在视觉领域再现大语言模型（LLM）[39] 的巨大成功提供了潜在途径。在视觉领域，预测模型可以被视为视频生成的一种特殊形式，以往观察数据作为指导。进一步缩小至自动驾驶（AD）领域，DriveGAN [17] 和 GAIA-1 [11] 通过动作条件下的视频扩散模型学习了一种通用的驾驶视频预测器。

DriveDreamer [43] 引入了额外的三维条件和渐进式训练策略。GenAD [49] 通过构建更大的数据集来扩大模型规模。为了进一步提高预测能力，ADriver-I [14] 利用了大语言模型生成的抽象信号，例如动作和速度。

尽管上述方法主要从单目视频中学习，但最近，Drive-WM [44] 和 DriveDreamer-2 [53] 扩展了学习资源，涵盖了多视图视频。尽管这些方法取得了竞争性的结果，但仍不清楚这些模型是否 Aware 到三维世界。在此项工作中，作者开创了一条路径，旨在协同生成多视图视频和点云数据。

3. Method

图2展示了所提出Pipeline的整体框架，该Pipeline能够联合预测多视图视频和未来LiDAR点。除了基本的2D和3D生成模型外，还提出了两种新颖的跨模态结构：2D到3D结构和3D到2D结构，以实现两种模态之间的交互，并共同提升视频（或图像）和LiDAR生成的质量。对于多模态数据和模型， superscript 表示摄像头，superscript 表示LiDAR。

3.1. Multi-view Image Generation

作者方法中的基本图像生成Pipeline遵循SD 2.1 [34]。给定原始图像，其中为视图索引，和分别为图像的高度和宽度，作者得到图像潜在特征，其中是VAE编码器。它从随机高斯噪声开始，通过U-Net模型迭代去除噪声步，最终得到干净的图像潜在特征。跨视图注意力。借鉴Drive-WM [44]的做法，在扩散U-Net中的每个空间注意力块之后插入跨视图注意力块以实现多视图一致性。跨视图注意力块接受U-Net空间块的输出，并在不同视图间应用自注意力机制，然后通过可学习的混合器将输出合并回其输入中。

作者使用训练目标来训练模型。

3.2.LiDAR Generation

作者的方法通过离散表示学习生成LIDAR点云[41]。作者根据UltraLiDAR[48]训练了一个类似VQ-VAE的分词器。给定一个LIDAR点云观测值，作者利用编码器-解码器模型对其进行量化和重构。编码器是一个PointNet[32]，后跟多个Swin Transformer块[25]，将点云转换为BEV潜在特征，编码器的输出经过量化层以获得离散的tokens。解码器包含多个Swin Transformer块以及附加的可微深度渲染分支[52]，用于 Voxel 重建。在推理过程中，当离散token解码为点云时，使用空间 Shortcut [52]来加速采样。

作者随后训练一个生成模型，能够生成多样化的 LiDAR 点云。不同于 UltraLiDAR [48] 只有条件无地生成 LiDAR 点云，作者提出了一种基于多通道 BEV 特征 (e^{(l)}) 的生成模型。BEV 条件特征可以是从数据集标注直接投影的 3D 方框和高清地图条件，也可以是从二维生成网络特征图中转换来的跨模态条件。训练目标定义为通过交叉熵损失重建原始输入。

VAE的水平通常为8。该网络的输出为，其中表示深度区间数量。给定深度预测和投影点云作为Ground Truth，作者计算深度损失，它是一个简单的交叉熵损失。

。作者的3D到2D模块将3D特征投影到2D视图上。具体来说，作者首先为每个相机创建一个类似漏斗形的点云。每个点是从其图像空间齐次坐标乘以其深度区间的实际距离计算得出的。通过解方程

在其中，是通过 Mask 的鸟瞰图 Tokens，而具有两个方向来建模 LiDAR Tokens 的分布，并且包含 Swin Transformer 块 [25]。作者采用了类似于 MaskGIT [4] 中采样过程的 LiDAR Tokens 采样算法，在该过程中，第次迭代中的 Mask Tokens 数量遵循一个 Mask 调度器，并且通过深度渲染的 tokenizer 解码器被解码成 LiDAR 点云。

3.3. Joint Generation of Camera and LiDAR

如图2（c）和（d）所示，用于2D模型与3D模型之间交互的结构包括两个单向跨模态转换模块和一个深度监督模块。前者旨在提高生成元素的质量和跨模态一致性，而后者则有助于更好地进行3D感知。

深度监督。作者遵循BEVDepth [19]的方法，利用U-Net下采样块提取的图像特征来估计深度。所有下采样块的输出特征被调整到，然后进行拼接，其中表示缩放比例，在此尺度上，表示相机内参矩阵，表示从激光雷达空间到相机空间的旋转矩阵，表示从激光雷达空间到相机空间的平移向量，而则是在激光雷达空间中的椎体状点云。随后，作者使用抽样LiDAR生成模型的隐藏状态，并沿深度维度加权求和，最终得到。作者采用一个轻量级的 Adapter [30] 注入这些抽样特征。类似地，类似于从二维到三维的部分，作者将投影特征与二维条件特征拼接在一起，形成更新版本的统一二维条件特征，作为式1中的更新版本。

转 . 作者提出了一种新颖的到模块，该模块将来自多视角生成模型的先验知识聚合到空间中，从而提供周围环境的语义信息。作者使用点云池化操作（参照 BEVDepth [19]），将模型中的多视图中间特征，即噪声潜特征，转换为空间中的嵌入表示。在训练过程中，依据公式 (1)，作者从 U-Net 块中获取给定条件下时间步长的多视图中间特征。利用权重，空间中的特征通过点云池化被转换为 BEV 空间的嵌入。

联合训练与推理。作者基于所有训练目标之和进行联合训练阶段的优化，并通过平衡权重、和来进行优化。

4. Experiments

Temporal Modeling

时间生成架构。为了构建具有多模态视频生成的世界模型，作者通过在空间注意力层之后插入时间注意力层的方法来建模时间信息，参考了Drive-WM [44] 的做法。此外，作者也遵循Copilot4D [52] 的设计，在3D视频生成器中引入了一个因果 Mask 。

联合世界模型。给定过去的观测值和，长度为，作者训练模型以预测未来帧对应的观测值和。损失可以通过对所有帧上的联合训练损失进行平均来计算。作者扩展生成器的输入至真值和噪声图像潜在变量的拼接，即，其中表示添加噪声的步骤，是 2D U-net 的输入，而是一个长度为的二元 Mask ，用于在最后帧中遮挡真值潜在变量。这里为了简化起见省略了时间索引。在三维方面，作者直接用真值替换 Mask Token 以使预测任务得以进行。

多任务训练策略。作者的训练方法类似于最近的生成模型[5]，即作者首先在单一模态任务上预训练模型，然后再针对联合训练任务进行微调。在联合训练阶段，模型被强制利用布局条件（例如，3D Box 条件）和交互条件，而前者的预训练则完全在早期阶段完成。为了解决这一问题，作者在联合训练阶段提出了条件性舍弃策略。具体来说，在联合训练阶段，作者随机抑制单一模态中的布局条件。由于条件仅来自一个模态，因此模型自然被强制执行跨模态学习。另一个对作者渐进式训练产生重要影响的因素是单一模态训练与联合训练之间的差距。作者发现，在交互方面的简单舍弃策略足够有效，这意味着联合训练阶段可能以一定的速率回到单一模态训练阶段。结合上述两种策略，作者的联合训练阶段可以视为进行多任务学习，在实验部分，作者展示了这一点对视频生成联合训练的重要性。

4.1. Settings

数据集。作者的实验基于NuScenes [3] 数据集，因为该数据集包含了多视角图像、激光点云、场景描述文本、框标注以及地图信息。该数据集包含用于训练的700个视频和用于验证的150个视频，每个视频大约持续20秒，并包含约40帧关键帧。每帧关键帧包括由周围视图摄像头捕捉的6张图像和由激光雷达捕捉的点云。按照BEVFormer [22] 使用的规范，nuScenes中常见的10类三维物体用不同的颜色进行编码，并投影到图像空间。Baseline 方法。作者分别针对多视角图像生成和激光点云生成任务使用了 Baseline 方法。对于图像生成部分，作者将现有的一些多视角图像生成方法应用于自动驾驶场景以进行对比。对于激光点云部分，作者重现了UltraLiDAR [48] 并将其作为 Baseline 方法。

训练方案。作者设有三个训练阶段。第一阶段从SD 2.1开始，训练一个跨视图相机生成模型，并新增了关于跨视图、图像条件以及深度估计的模块。第二阶段从头开始训练LiDAR生成模型。第三阶段从前两个阶段继续训练联合生成模型。前两个阶段的实验在16块V100（32GB）GPU上进行，最后一个阶段则在8块A800（80GB）GPU上进行。图像被调整为的大小，尽量保持原图像的比例。LiDAR点被限制在范围内。对于预测模型，作者使用长度为8的片段，过去观察的数量为4。条件丢弃率和联合丢弃率均设定为30%。

评价指标。生成的图像和视频通过Frechet Inception Distance (FID) [9]和Frechet Video Distance (FVD) [40]进行评估。作者采用mAP（平均平均精度）来衡量生成的准确性，通过比较生成结果的GT位置和检测到的位置来进行测量，并根据 Baseline 方法的评估规则选择BEVFusion [26]或BEVFormer [22]作为检测模型。生成的LiDAR点则通过Chamfer距离、L1误差（L1均值/中位数）、相对L1误差（绝对相对均值/中位数）进行评估，遵循4D-Occ [16]的做法。

4.2. Main Results

图像生成中的深度估计。深度对于图像和点云之间的跨模态信息转换至关重要。图6展示了用作 Backbone 网络的扩散U-网络的深度估计能力。多视图图像生成。作者将作者的方法与其他多视图图像生成方法（包括目前最先进方法Drive-WM [44]）进行了比较，发现作者的HoloDrive在所有 Baseline 方法中现实感最高，准确率仅次于Drive-WM。FID和mAPs的结果见表1。定性结果如图4所示。

单帧 LiDAR 生成。表3 显示了作者方法与最新的 LiDAR 生成方法 UltraLiDAR [48] 的量化比较结果。作者根据原论文的细节重新实现了无条件和有条件版本。作者报告了两种类型方法的结果：和（联合训练的 2D-3D）。3D 条件（3D 方框和高清地图）显著提高了 LiDAR 质量的各项评分。将 2D 模型中的 2D 特征整合到作者的 3D 模型中，明显提升了 C-D 度量、L1 均方误差和 AbsRel。最后，在 2D 和 3D 模型之间进行交互作用后，作者的方法展示了更好的 LiDAR 生成质量，如图5 所示例子中的点云细节中树木和建筑物的显示效果。

跨模态一致性。作者提出的一种联合2D-3D生成方法的一个明显优势在于跨模态的一致性。如图3所示，生成的2D多视图街道场景与3D激光雷达点云高度一致，这可能是由于训练和推理过程中两种模态之间频繁的交互所导致的。

LiDAR 预测。作者遵循 Copilot4D [52] 的实现细节来构建作者的三维世界模型。值得注意的是，在序列生成过程中，作者将ego车设为坐标原点，而非固定在一个参考系中。实验结果如表5所示，作者的重实现取得了与Copilot4D相类似的性能，并且优于先前的方法。

预测性世界模型。作者还与其他方法进行了比较。作者遵循了 Drive-WM [44] 的评估流程。特别地，对于 NuScenes 中的每个验证视频，作者以自回归的方式生成相应的 40 帧 [1]，并选择其中 16 帧进行评估。结果如表2 所示。作者的方法在 DriveDreamer-2 [53] 上除了 FVD 之外优于其他方法，这在一定程度上归因于 SVD 的使用：[53] 中的消融研究显示，仅仅将 SD1.5 更改为 SVD 可以显著降低 FVD，从 340.8 降至 94.6。

#25年1月理想MEGA有望首次月销超小鹏X9

整个2024年，MEGA任何一个月都比X9月销少。

MEGA 24年销量走势分为三个大阶段，3月首发交了3229后，连续4个月单调下降，自6月开始，如果9月卖得少点，相当于连续7个月单调上升。9月“异常”上升可能是由于当时8月底9月初，新的置换补贴出台，导致9月异常猛了一把，单月销量处于理想历史第二高的水平，91011月，理想整体连续三月单调下滑，12月靠第一次推3年0息又“异常”猛了一把。

X9领先MEGA幅度，大致分为4个阶段

第一阶段MEGA首发期遇到X9第三个月交付，二者都在3月来到了年内交付最高点，X9领先MEGA 22.21%。

第二阶段 X9 维持了3个月领先MEGA120%,最高单月领先186%，这时的主要驱动力是MEGA不断下滑，X9其实自己也在降，但MEGA降得太快了。

第三阶段 9-11月 X9领先MEGA 60%左右，既MEGA/X9在差距在缩小。主要推动力是MEGA明显上升，X9微降。但还是可以认为X9销量明显好于MEGA。

第四阶段 12月 X9仅比领先MEGA 9.88% 可以认为局限于12月，二周销量同级别，主要驱动力是MEGA暴增，X9微降。

因为理想12月有特殊的对于自己而言首发3年0息政策，所以光看12月，我们还不能就断定MEGA销量就可以和X9同级别了。

但是25年头两周的上限数据，却显示MEGA有很大机会在25年1月历史首次月销超X9。

此前，MEGA仅在12.9-15的时候周销超了X9 0.34%，但是25年的头两周MEGA周销却分别超X9 14.44%与29.46%。

MEGA1月头两周周销就是11月月初的水平，1月第二周有12月最后一周70%，这是一个较为异常的表现。X9 1月头两周低于11月水平，1月第二周为12月最后一周的40.6%，这是一个较为正常的跌幅。

可以认为，现阶段的数据显示MEGA处于一个良好趋势之中，不过看起来总量级别依然处于月销1000，暂时看不到月销2000。

处于高端MPV市占率很高，在高端MPV开始逐渐破圈，没有进一步破圈的状态。

作为对比L789的上升趋势是明显不如MEGA的，从MEGA跌入谷底的6月来看，不考虑10月较9月的跌幅，L789都在8月11月都出现了环比下降。

并且MEGA 12月销量较9月提升了42.78%，L79 12月较9月仅分别提升3.42%，2.03%。L8提升了20.57%。L789一共提升了7.48%。可以定性描述L79 12月较9月几乎没有提升，L8有提升，MEGA有明显提升。

从6月开始，L789环比趋势是完全一致的，合情推测L789销量影响因子是类似的。

而MEGA较L789走出了独立行情，导致这个的原因可能是因为NPS发酵/MEGA参与了大量活动的官方赞助，既有品宣作用，又有利于获客。

#GPVL

3D视觉语言预训练的生成式规划新框架！

自动驾驶是一项具有挑战性的任务，需要对自动驾驶汽车的周围环境有深刻的了解，以确保安全和高效的实际部署。优秀的自动驾驶系统必须能够全面感知驾驶环境，并根据道路信息准确做出规划决策。最近，提出了几种端到端自动驾驶框架，并通过传感器数据了解驾驶场景并输出规划决策，取得了可喜的成果。一些早期的方法直接获得预测的规划轨迹，而没有彻底了解驾驶场景，导致可解释性有限且难以收敛的问题。

通过上图可以看出，大多数方案利用传感器信息将多个视觉任务（例如：3D 物体检测和运动预测）集成到一个网络中，以提高规划性能。然而，这些仅基于视觉的方法难以结合上下文线索进行安全决策，需要进一步的进行优化。随着大语言模型 (LLM) 的快速发展，出色的推理能力引起了人们的极大兴趣，并促进了自动驾驶领域的应用。如上图(b)所示，最近的几种方法引入了多模态大语言模型 (MLLM) 来产生驾驶解释和语言注入规划结果。

尽管如此，这些在 2D 视觉语言数据集上预先训练的模型在理解驾驶场景中复杂的 3D 空间关系方面仍存在困难。因此，几种有效的策略被设计来克服上述挑战，例如直接使用检测到的关键物体的 3D 边界框并将鸟瞰图 (BEV) 特征与可学习查询相结合。然而，这些先进的策略仅仅整合了 2D 和 3D 视觉信息，而没有充分解决 3D 视觉特征与语言表示的对齐问题。

针对上述提到的相关问题，我们提出了一种用于自动驾驶的采用3D视觉语言预训练范式的生成规划框架，称为GPVL。在nuScenes数据集上的大量实验结果表明，与SOTA的算法模型相比，所提出的方案取得了出色的性能。此外，所提出的 GPVL 在处理各种场景中的高级命令时表现出强大的泛化能力和实时潜力。

文章链接：https://arxiv.org/pdf/2501.08861；

网络结构&细节梳理

在详细介绍本文提出的算法模型技术细节之前，下图展示了提出的GPVL算法模型的整体网络结构图。

通过上图可以看出，GPVL算法模型包括三个关键部分，主干网络基于提取的BEV特征生成有监督的检测、地图和运动特征；其次，3D视觉语言预训练模块旨在将视觉和语言特征对齐到共同的语义空间中；最后跨模态语言模型以生成的方式输出可靠的决策和轨迹结果。

GPVL算法模型方法概览

整体而言，本文提出的GPVL算法模型的目标是生成自车的安全驾驶轨迹。为了获得令人满意的规划结果，提出了 GPVL 来建立 3D 视觉特征与语言表示之间的语义关联，并以自回归的方式生成高质量路线。

具体而言，针对输入的多视角图片，我们首先使用预训练的BEVFormer中的Encoder模块来提取BEV特征。在此之后，BEV特征喂入到检测、运动以及地图Transformer中来同时学习3D目标框、代理运动以及地图元素，进而得到检测特征、运动特征以及地图特征。然后，检测、运动以及地图特征被送入到具有多个transformer层堆叠组成的视觉注意力模块中生成具有注意力的视觉特征以及拼接后的特征。同时，环境真值描述被集成到了基于BERT的文字注意力模块中用于获得各自的文字表达。此外，进一步设计了一个分组对齐模块，将这些视觉和语言特征投射到共享语义空间中。最后，将所有特征拼接的结果特征与自车的导航prompt一起输入到语言模型中，以自然语言的格式生成可靠的轨迹。

3D 视觉语言预训练

3D视觉语言预训练模块旨在通过对比学习方式建立视觉和语言模式之间的多层次对齐。以前的几种方法已经引入了预训练的LLM来增强对驾驶场景的感知和理解。然而，这些方法要么缺乏3D空间信息，要么在不同表示之间表现出语义差距，这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下，我们提出的GPVL模型利用监督检测、运动和地图特征来感知目标的3D空间分布，并通过3D视觉语言预训练模块最大限度地减少不同特征之间的语义差距。

BEV-injected Visual Features

在提出的GPVL算法中，我们引入了驾驶场景中的三种目标，包括前景目标、代理运动和地图元素。我们首先利用视觉嵌入层来编码检测、运动以及地图特征到相同的通道维度。然后，引入了 Transformer 结构，通过长距离注意力机制建立紧凑的交互，以增强视觉特征。整个函数可以表示成如下的形式

随后，将注意力检测、运动和地图特征沿空间维度进行整合，以获得全局视觉特征。

Environmental Linguistic Features

为了赋予模型语言感知能力，我们利用 BERT 结构提出了一个文本注意模块。该模块处理感知和规划标签，例如边界框、未来轨迹和地图元素，并使用预定义模板将其转换为特定于驾驶的语言提示。随后将与检测、运动和地图特征相关的描述输入到文本注意模块中，以生成相应的语言表示。现在，整个过程可以表述为如下的形式

随后，这些描述性特征被拼接起来，形成全局文本表征。

Group-wise Alignment

为了充分利用不同特征之间的多级关联，我们利用对比学习设计了分组对齐策略。考虑了四种类型的 3D 视觉语言 (VL) 对齐组，包括检测相关 VL 组、运动相关 VL 组、地图相关 VL 组和全局 VL 组。例如，在一批个训练样本中，对齐函数旨在将匹配的 VL 样本视为正样本，将不匹配的 VL 样本视为负样本。给定视觉特征和文本特征作为输入，对比损失定义为如下的形式。

在该模块中，引入了可学习的权重来探索不同表示之间的细粒度关系。例如，检测相关的 VL 组的相似度函数可以表示为如下的形式。

因此，总的组对齐损失可以用如下的公式进行表示。

Planning via Cross-modal Language Model

自车与代理直接的交互是自动驾驶系统中的一个重要问题。先前的研究尝试引入可学习查询来为自车的查询特征建模自车与代理之间的关系，并将其发送到多层感知机以获取预期的未来轨迹。虽然此策略可以在特定的基准数据集上呈现良好的性能，但直接使用 MLP 生成轨迹可能会导致过度拟合，并且难以推断生成的轨迹路径点之间的上下文关系。面对这些挑战，我们开发了一种用于生成规划的跨模态语言模型，以使 GPVL 能够以合理和稳健的方式做出安全决策。

Ego-agent Cross-modal Decoder

所提出的模型为自动驾驶汽车的当前状态制定语言提示，包括其高级驾驶命令和位置。信息提示被发送到文本嵌入层，以产生自动驾驶汽车的初始语言表示。同时，设计的场景字幕模型生成视觉描述（例如，交通信号灯、标志、关键物体和天气）。随后，环境视觉特征和提示特征被输入到语言模型中，以学习具有丰富驾驶场景和导航信息的规划特征。该过程可以表述为如下的形式

最后，预测出来的特征被送入到线性层和Softmax函数中生成词向量

Generative Planning

与大多数视觉字幕任务类似，引入交叉熵损失以语言建模方式输出轨迹。在训练期间，每个样本都配备一个提示字幕真值作为参考，其中包括高级命令和自车的未来轨迹，损失函数表示为如下的形式。

实验结果&评价指标

本文将所提出的算法模型与13种自动驾驶方法进行了比较，其中包括8种传统非自回归方法和 5 种LLM注入自回归方法。

下表展示了所提出的 GPVL算法模型与其他SOTA算法模型的统计结果比较。总体而言，GPVL 的表现性能明显优于其他方法。具体而言，与 VAD算法模型相比，GPVL 在 L2 距离度量中获得了最低的得分，并且明显减少了规划位移误差（1s 时 0.18m、2s 时 0.28m、3s 时 0.34m 和平均 0.27m），表明轨迹预测的准确性更高。

此外，GPVL 在大多数碰撞率指标中表现出最佳性能，凸显了其在避免碰撞方面的卓越安全性和稳健性。与引入辅助任务或使用 LLM 的方法相比，所提出的方法保持了相当的规划性能，实现了 188.7 毫秒的延迟和 5.3 fps 的推理速度，具有实际应用的潜力。根据BEV-Planner的报告，所提出的方案排除了自车状态信息以防止捷径学习。

下表显示了在左转、右转和直行命令方面评估的 L2 和碰撞得分。很明显，GPVL 在所有指标上的表现都明显优于 UniAD 和 VAD。在 nuScenes 数据集中，87.7% 的训练样本和 88.2% 的验证样本由简单的直行场景组成。因此，UniAD 和 VAD 更容易在这些样本上过度拟合和学习捷径，导致在更复杂的转弯场景中表现不佳。相比之下，所提出的方法在所有场景中都获得了良好的结果，在各种驾驶情况下都表现出强大的泛化能力。

此外，为了更加直观的展示我们算法模型的有效性。下图展示了GPVL算法模型生成的规划结果与 VAD 和真值的比较。为了充分了解驾驶场景，包括多视角摄像机图像，并在前置摄像机图像中可视化规划轨迹。

总体而言，得益于提出的 3D 视觉语言预训练模块和跨模态语言模型，设计的模型可以生成准确合理的轨迹。例如，在第一个场景中，当指示自车直行时，GPVL 生成的轨迹引导车辆安全地穿过城市道路。相比之下，VAD 的轨迹有与路边相撞的风险。在第三种情况下，GPVL 的结果与真值情况非常一致，使车辆能够在路口安全地左转。然而，VAD 的规划决策更具侵略性，可能会导致与迎面而来的车辆相撞。

下表中的消融实验结果系统地调查了 GPVL 关键组件对 nuScenes 数据集的贡献。如果没有感知模块，GPVL 很难检测前景物体、预测运动和构建地图，从而导致更高的 L2 和碰撞分数。禁用 VLP 和 GA 组件会显著降低性能，凸显出模型在视觉和语言理解之间架起桥梁的强大能力。没有 GA 会导致明显的性能下降，表明其在细粒度特征关联中的重要性。排除 CLM 会增加 L2 和碰撞分数，强调其在生成合理规划决策中的作用。最后，如下表第六行所示，所有模块的集成产生了最佳性能，展示了组合系统的协同效应。

为了验证模型的泛化能力，我们在由两个不同的城市环境（即波士顿和新加坡）构建的数据集上对模型进行了训练和测试。具体来说，我们引入了两组实验：（1）在波士顿训练并在新加坡测试，（2）在新加坡训练并在波士顿测试。如下表所示，两组中GPVL的评估分数明显优于UniAD和VAD。

此外，在测试图像中引入了四种噪声（即雨，雾，雪和黑暗）以验证GPVL的稳健性，如表5所示，这些噪声条件对UniAD和VAD有显著的负面影响，而对GPVL的影响较小。因此，GPVL在各种现实场景中的出色表现证明了其能够提高自动驾驶系统的稳健性和安全性。

结论

在本文中，我们提出了一种新颖的使用3D视觉语言模型的生成规划的算法框架用于端到端自动驾驶。所提出的GPVL 构建了一个统一的框架，不仅可以执行可靠的规划，而且在各种驾驶场景中表现出卓越的泛化能力。在 nuScenes 数据集上进行的大量实验表明，GPVL的表现明显优于最先进的方法。在未来的工作中，所提出的 GPVL 有望促进更安全、更可靠的自动驾驶技术的发展。

#Simplifying CLIP

同济提出简化Transformer结构,3090实现CLIP轻量级训练

同济大学提出的一种简化Transformer结构的方法，通过在仅使用一块Nvidia RTX3090 GPU和一兆字节存储空间的情况下实现竞争性能。

对比语言图像预训练（CLIP）因其卓越的零样本性能和优秀的迁移能力而受到了广泛关注。然而，训练这样的大型模型通常需要大量的计算和存储，这对一般用户（拥有消费级计算机）来说是一个障碍。

为了应对这一观察，本文探讨了如何在仅使用一块Nvidia RTX3090 GPU和一兆字节存储空间的情况下实现竞争性能。

一方面，作者简化了 Transformer 块结构，并将权重继承与多阶段知识蒸馏（WIKD）相结合，从而减少了参数并提高了训练和部署期间的推理速度。另一方面，面对小数据集带来的收敛挑战，作者为每个样本生成合成字幕作为数据增强，并设计了一种新颖的配对匹配（PM）损失，以充分利用正负图像文本对之间的区分。

大量实验表明，作者的模型可以在数据量-参数-精度之间实现新的最先进权衡，这可能进一步在相关研究社区中普及CLIP模型。

1 Introduction

预训练的大型图像文本基础模型，如对比语言图像预训练（CLIP）模型[28]，最近在计算机视觉和自然语言处理领域引起了广泛关注。这些模型在广泛的下游任务上表现出出色的零样本性能和鲁棒性，例如图像文本检索和分类（朱等，2023年）。然而，CLIP类模型的巨大计算和存储成本阻碍了它们的进一步普及。例如，MobileCLIP [33]在256xA100 GPU上训练，全局批量为65,536，相应的数据集 DataCompDR-1B需要140 TB的本地存储空间。此外，巨大的参数大小（例如，CLIP-B/16模型[28]包含86.2M个图像编码器参数和63.4M个文本编码器参数）导致了推理延迟的增加，这为部署在计算资源有限的设备上带来了挑战。这些缺陷为没有足够计算资源和数据集的一般用户参与大规模模型的训练和部署设置了障碍。

在实际应用中，消费级计算机的GPU内存通常不超过24GB（例如，Nvidia RTX 3090），存储容量可能小于1TB。在这样资源限制的背景下训练CLIP类似的模型，需要解决两个主要问题。首先，必须尽可能减少需要训练的参数数量，同时保留尽可能多的现有模型知识。其次，小型数据集需要适当扩充，并需要开发更有效的方法，充分利用图像文本对在有限样本内的内部关联。

在这篇论文中，作者研究了如何使用仅有一个RTX3090显卡和1TB存储的轻量级CLIP模型训练方法，从而普及在消费级计算机上的CLIP类模型研究。为此，作者首先提出将传统的Transformer块简化为SAS-P块，并采用权重共享策略。然后，通过继承现有模型的权重并提取知识，可以进一步减少训练所需的参数数量。在数据集方面，作者选择广泛使用的CC12M [1]作为基础。该数据集不仅规模较小，而且标签质量低，这都为模型训练过程的收敛带来了困难。为了解决这个问题，作者对CC12M中的每个图像样本添加多个文本标签，创建了新的CC12M-SYN。此外，为了从这样的小数据集中提取有价值的信息，作者引入了Pair Matching (PM)损失，以帮助模型捕捉正负图像-文本对之间的区分。这些方法在作者的广泛实验中显著提高了模型训练的收敛速度。最后，通过在38个数据集上的性能比较（如图1所示），作者的提出的SiCLIP框架实现了新的数据量-参数-准确率权衡的最先进水平。

作者的贡献：本工作的贡献可以概括如下：

作者提出了一个系统性的框架，用于在消费级计算机上训练轻量级CLIP模型，包括数据集构建和相应的训练过程，称为SiCLIP。在SiCLIP中，计算和存储成本得到了降低，同时保持了与其他大规模模型竞争的性能。

作者通过在SAS-P块之间共享权重来简化CLIP模型的结构，并将权重继承与多阶段知识蒸馏（WIKD）相结合，从而在训练和部署过程中降低了内存需求。

一种名为PM损失的新损失函数被设计出来，该函数在训练过程中预测图像-文本对是否匹配。结合作者增强的CC12M-SYN数据集，PM损失可以利用正负图像-文本对之间的区分。实验结果显示，新的数据集和PM损失都可以显著提高训练效率，同时略微增加数据集大小。

2 Related Work

Efficient Training for CLIP

自从CLIP作为一种大规模图像文本基础模型，在各种下游任务上展现出惊人的零样本性能以来，旨在提高其训练效率和模型大小的相关研究已经有很多。例如，包括细粒度图像文本对齐 [42]，数据增强 [23, 20, 33]，单模态自监督 [23, 20]，以及图像文本标签空间中的对比学习 [39]。此外，Zhai等人 [45] 提出了一种对偶的Sigmoid损失作为对比损失的简单替代方案，在小型批量训练时证明了其有效性。然而，由于需要计算所有正负图像文本对之间的匹配对数，其可能导致二次计算复杂度。Li等人 [19] 使用了细粒度图像文本匹配（ITM）损失作为对比损失的补充，但ITM需要一个基于多层 Transformer 的编码器来编码多模态细粒度特征，这并不适合轻量级模型。

基于权重继承（WI）和知识蒸馏（KD）[13]的方法也被采用以实现高效的训练。TinyCLIP[36]通过跨模态亲和力模拟和WI训练紧凑的CLIP模型。杨等人[38]探讨了不同的KD方法对CLIP训练的有效性。

高质量的数据集对于有效的训练也非常重要。方等人在[6]中利用过滤方法去除噪声样本，Gadre等人[7]也提出了同样的方法。然而，剩余的描述性仍然不够。最近的研究[40; 18]表明，从预训练的描述生成模型中合成的合成描述可以提高数据集质量。

Simplifying the Transformer Architecture

近年来，随着 Transformer 在各种任务中的显著成功，许多努力都致力于简化 Transformer 架构以提高其训练和推理效率。余等人[44]证明了 Transformer 块的一般结构对其性能更为关键，因此可以消除基于注意力的 Token 混合器，这些混合器通常由于多头自注意力（MHSA）在长序列表示上的平方复杂度而变得 prohibitively 昂贵。此外，CNN和 Transformer 的前期研究都表明，浅层主要关注局部模式，而更深层则倾向于捕捉高级语义或全局关系[14; 37; 5]，因此，在早期阶段通常不需要通过MHSA建模全局关系。基于这些事实，刘等人[22]提出了一种分层的 Transformer ，并采用移位窗口来限制自注意力计算限于非重叠的局部窗口，同时允许跨窗口连接，从而带来更高的效率。在另一项工作线中，潘等人[26]和郭等人[9]将卷积层引入到 Transformer 的前几层。在这些工作的基础上，瓦苏等人[32]提出了RepMixer作为 Token 混合器，它使用结构重参化通过在网络中删除 Short-Cut 来降低内存访问成本。

作为一种简单但有效轻量级方法，权重共享策略已在许多基于 Transformer 的模型中得到应用。Dehghani等人[3]首次提出了利用 Transformer 层进行自然语言处理任务的不同动机：他们将重复的网络层视为 Transformer 引入循环归纳偏置的一种互补方式，并观察到他们的方法在多个任务上优于原始 Transformer 。Jaegle等人[17]在多模态预训练中采用了交叉注意力层权重共享。Hernandez等人[12]探讨了在不同粒度 Level 上共享符合器[8]的不同部分，受模型大小硬约束。最近，He等人[10]通过信号传播理论研究了标准Pre-LN Transformer 块[34]，并提出了一个配备形状注意力[25]的简化并行结构 Transformer 块作为 Token 混合器，称为简化注意力子块并行（SAS-P），在降低模型参数数量的同时，不损失语言下游任务的表现。作者的工作是首次尝试将SAS-P扩展到多模态领域，并通过在相邻块之间共享 Token 混合器的权重进一步简化。

3 Methods

在本节中，作者首先介绍了作者的简化模型结构，该结构通过共享SAS-P块的权重来实现。然后，作者介绍了一种名为WIKD的高效训练方法。接下来，作者介绍了一种新的损失函数，称为配对匹配（PM）损失，以进一步提高训练性能。最后，作者还通过在训练模型所使用的CC12M数据集中添加合成字幕，以提高数据多样性和数据质量，同时最小化附加存储空间。新的数据集称为CC12M-SYN。图2显示了作者的方法的整体框架。

Simplifying Model Structure by Sharing Weights Among SAS-P Blocks

作者基于最新的MobileCLIP-S0模型[33]构建了作者的架构，并通过多种方式对其进行了增强。MobileCLIP-S0框架具有图像编码器（image encoder）和文本编码器（text encoder）的混合结构，其中包含基于卷积（convolution-based）和MHSA（Mobile Hyperspectral-to-Spatial Augmentation）的块的协同排列。然而，对于每个基于MHSA的块，MobileCLIP-S0仅采用标准的Pre-LN块，其中MHSA作为混合器（token mixer）[34]，如图3（左）所示。

作者首先从每个预连接块内的 Shortcut 参数开始减少。这些连接在内存访问和推理速度上造成了 Bottleneck ，因此，使用轻量级的基于MHSA的块设计变得至关重要。此外，已经证明，注意力模块的馈送层可以无缝集成到 Transformer 层中，而不会降低 Transformer 层的性能[31; 24]。

如图3右侧说明了SAS-P（He和Hofmann，2024年），这是一种简化的并行 Transformer 模块，在消除跳接连接的同时，还消除了值和投影参数。它使用形状注意力[25]作为其 Token 混合器，以防止在消除跳接连接后信号降解，使注意力矩阵更具标识性，从而保持良好的信号传播。形状注意力的注意力矩阵由：

其中表示 SAS－P 输入，和分别是 Query 和键矩阵，是模型维数，是单位矩阵，是可学习的参数。是中心矩阵，其中每个元素都设置为是输入 Token的数量。在初始化时，设置为分别设置为 1 ，导致和

SAS-P 在多个语言任务上表现出令人印象深刻的性能，同时比 Pre-LN 更快地推理速度，并使用较少的参数。为了进一步简化模型结构，作者评估了相邻基于MHSA的块之间的Jensen-Shannon（JS）离差（见图4）。低JS离差意味着在这些矩阵之间进行权重共享不会降低性能。因此，在训练期间使用KD之前，作者的"学生"模型用SAS-P块替换了所有的预LN块，并在这些块之间进行权重共享。结果，作者模型的图像编码器与MobileCLIP-S0相比大约有14%更少的参数，而在OpenAI-B/16[28]中只有11%。

为了从小型数据集中受益，一个广泛使用的方法是使用与任务相关的预训练 Backbone 网络，并添加一些任务特定的层[15]。受到使用 Backbone 网络思想的启发，作者采用WI[36]来训练CLIP在小型数据集上。在实际应用中，由于作者修改了MobileCLIP-S0结构的基于MHSA的模块，而保持基于RepMixer的模块不变（这些模块已经高效），作者可以直接从已经在大型数据集上预训练得很好的MobileCLIP-S0继承这些模块的权重。在这种情况下，继承的模块可以被视为“ Backbone ”。

然后，作者冻结这些继承的层，只在新添加的SAS-P块上在一个非常小的数据集上进行训练。应用上述方法可以减少梯度存储，从而允许作者使用更大的批量大小来保持对比学习的性能。此外，作者认为作者的模型是MobileCLIP-S0的移动模型，并在训练过程中进行多阶段知识蒸馏，从而进一步提高性能。具体而言，作者在单模态特征空间（阶段1）、对比关系空间（阶段2）和交互对比关系空间（阶段3）上应用知识蒸馏。对于一个图像文本对齐的批处理，学生模型首先通过优化特征蒸馏损失（）模拟教师图像和文本特征分布：

其中和分别表示教师模型和学生模型的（图像，文本）特征，其中为批量大小。然后，它计算对比关系蒸馏损失和交互对比关系损失

作者的最终蒸馏损失定义为：

其中是一个可学习的温度参数，Sim 表示图像特征和文本特征之间的相似矩阵。

λ1, λ2, λ3 均为超参数。

Pair Matching (PM) Loss

小型数据集训练的CLIP模型通常在零样本性能方面表现不佳[38]。作者认为这种现象的一个可能原因是，使用较少数据训练的模型在区分语义上相似的图像-文本对方面存在更大的困难。因此，作者提出构建一个辅助超平面来帮助模型判断图像-文本对是否匹配。请参阅图5。

特别地，作者增加了一个额外的二进制匹配任务。给定一组图像－文本对，作者首先提取正面的图像－文本对，并计算它们的匹配对数和

关于负样本对，对于每个图像，作者根据图像到文本相似性矩阵（如果其嵌入相似，则选择一个负样本文本的概率较高）选择一个负文本。同样地，这个过程也应用于每个文本。因此，负匹配logits被定义为：

因此，作者提出的PM损失函数可以表示为：

CC12M-SYN Dataset

用于训练CLIP模型的图像文本数据集大多来源于互联网，其中包含固有的噪声样本，这些样本的描述性不足。当使用小型数据集时，数据样本的多样性和质量变得尤为重要。增加合成字幕是一种既便宜又有效的方法，可以提高多样性和质量。作者采用广泛使用的数据集CC12M [1]，并使用coca [43]为该数据集中的每个图像生成多个合成字幕，得到CC12M-SYN。图6展示了CC12M-SYN中的一些带有合成字幕的示例。在训练过程中，作者随机选择一组原始和合成字幕中的一个文本。因此，CC12M-SYN中的一个样本包括一个图像和一个合成或原始的描述。

4 ExperimentsImplementation Details

作者在第一万次训练迭代中采用了一个 Warm up 策略。作者使用了AdamW优化器，并将批量大小设置为1536，权重衰减设置为0.1。作者在Nvidia RTX3090上训练模型32个周期，学习率设置为0.001。在消融研究中，作者将周期数设置为9。作者采用MobileCLIP-S0作为WIKD的教师。对于超参数，作者设置λ1=4000，λ2=λ3=1，λ4=0.1。其他设置遵循CLIP-KD [38]。

作者在多个数据集上评估了零样本性能。具体来说，作者使用ImageNet-1k [4]，ImageNet-V2 [29]，ImageNet-R [11]和ImageNet-S [35]来评估零样本图像分类性能。对于零样本图像文本检索，作者使用MSCOCO [21]和Flickr30k [27]。默认为图像分类中的Top-1准确率（acc1）和图像文本检索中的R@1。

4.1.1 Data Augmentation.

作者应用了随机缩放（RandomResizedCrop）和随机裁剪（RandAugment）进行图像增强。在RandomResizedCrop中，作者将缩放比例设置为（0.08, 1.0），以在原始图像上进行强大的增强。然后，作者在处理后的图像上应用RandAugment，通过随机采用默认的31种增强方法（[2]）进一步增加图像的多样性。

Main Results

4.2.1 Zero-shot image-text retrieval.

表1报告了在MSCOCO和Flickr30k上的零样本图像文本检索性能。与相似规模的训练数据集（最多2000万样本）上的模型相比，作者的模型在MSCOCO上超过了所有其他工作。对于Flickr30k，作者的模型在使用了较少的参数的同时，也实现了当前最先进模型TinyCLIP的性能。与在大规模数据集（400M-1B）上训练的模型相比，作者的模型在竞争性能上取得了良好的表现，并超越了许多现有工作。例如，与最先进的MobileCLIP-S0相比，作者的模型在使用了大约3%的训练样本和14%更少的图像编码器参数的情况下，T2I性能仅低约1%。此外，作者的模型在两个数据集的I2T和T2I指标上都超过了DataComp-B/32、OpenAI-X（除B/16）和LAION-B/32。

4.2.2 Zero-shot image classification on ImageNet.

表2报告了零样本分类性能。与其他在相似规模的数据集上进行训练的模型相比，作者的模型在所有报告的数据集上都优于其他工作，这证明了作者的方法的有效性。对于大规模数据集，尽管与最新的state-of-the-art DataComp-B/16相比并非最佳，但作者与几项现有工作相比仍取得了一些具有竞争力的结果。

4.2.3 Inference Speed.

为了评估推理速度，作者在CPU（Intel(R)-Xeon(R)-Silver-4314-CPU@2.40GHz）上进行了模拟实验，并比较了作者的模型与最先进的MobileCLIP系列[33]的平均推理速度。如表3所示，当输入序列包含1000张图像时，作者模型的处理速度达到39.5张/秒，略高于最先进的MobileCLIP-S0（38.2张/秒）。这表明采用SAS-P块的好处。

Ablation Studies

4.3.1 Training Efficiency of CC12M-SYN.

为了证明CC12M-SYN的训练效率提升，作者在CC12M-SYN和CC12M上分别训练作者的模型20个周期。作者报告了前9个周期的平均损失曲线，以及最后周期的IN-1k和Flickr30k上的零样本性能。图7报告了CC12M和CC12M-SYN的损失曲线，显示在CC12M-SYN上训练导致损失更快减少。表4表明，在CC12M-SYN上训练的模型在零样本分类和零样本图像文本检索方面具有更好的性能。这些结果表明合成标签对于数据多样性和质量提升具有益处。

4.3.2 Analysis of WIKD and PM loss.

作者通过比较有无WIKD和PM损失的训练（ Baseline ）以及仅WI、仅WIKD和同时WIKD和PM损失的训练效果，来探索WIKD和PM损失的有效性。结果见表5。它表明，仅WI的训练可以提高零样本分类（+13.0和+6.1/+0.1在分类准确率acc1上）和图像文本检索（R@1的检索率+15.9/+15.2）。而当训练仅WIKD时，性能更高（+25.4和+15.9/+15.2，分别）。当同时训练WIKD和PM损失时，模型达到最高性能。这些结果明显证明了WIKD和PM损失的有效性。

5 Conclusion

在这项工作中，作者提出了一系列技术，使得在消费级计算机上进行CLIP模型的训练和推理成为可能，同时实现了具有竞争力的性能。这对于将基础模型的卓越成果带到边缘设备上至关重要。

作者减少了模型结构，提高了推理速度。

此外，作者提出了WIKD和PM损失函数，这些损失函数对性能提升做出了贡献，并且可以用于简化其他领域中的模型。

最后，在增强的CC12M-SYN数据集上训练后，作者的模型在参数更少、训练数据集更小的情况下，与现有工作相比仍实现了具有竞争力的性能。

#浅浅聊一聊世界模型 World Models

Update 1月10日:

感谢评论区补充world model在RL中的定义！感觉在RL中的定义，world model是针对一个具体子任务的模型，最近上述公司提到的World Model的尺度似乎更大、更加通用，更多从：Language Generation Model (ChatGPT)->Image Generation Model(StableDiffusion)->Video/3D Geneartion Model (二者各有侧重因此平级)->World Generation Model(同时具备时序和空间序建模)这么一个趋势。当然这个World似乎想要包容一切，于是也并不清晰到底是什么样的表征：是否是video sequence? 是否是3d representation? 如何表征物理? 输入的关系如何? 这些都是 open research question.

不过隐约认为，一个真正的World Model应该建模下列性质：

空间序列(X,Y,Z): 建模几何
时间序列(t): 建模动态
稠密表征: 纹理，光照，渲染过程，物理含义
语义实例: 环境并非一个整体，而是分解成各个具体物体，从而实现物体级的控制和重组
生成式模型: 建模一个概率分布而非一个样本
可微分: 梯度可以从前往后，也可以从后往前传递，于是能作为模块被plug-in一个更大的复杂模型中

在上述基础上最后实现高逼真可微分渲染，并附带空间、时序的一致性。目前市面上一切模型都是上述最终版本的子集。

由于其复杂性，感觉可以明确的是：训练它需要的数据和运算资源是空前的，人类互联网上拥有的一切数据（text, image, video一切模态)可能都不够训这么一个模型，只能训练它在特定场景下的子模型。

原文回答:

World Model 最近是一个比较火的概念，最近有不少公司接二连三提出这个概念并推出相关Demo。在国内外都引发了一些讨论。国内的公司关注点主要在大语言模型、人形机器人、Embodied AI，尚未有公司直接跟进。在此浅浅点评一下这几家公司的技术，就当图一乐。

首先World Model尚未被明确定义，因此我们可以先看看别的公司以及其Demo怎么说的：

李飞飞 World Labs

www.worldlabs.ai/blog

这是最早举起旗帜的公司。从放出的Demo来看，X上也有人提到非常像Cat3D。走的路线是先生成2D图像，然后通过2D图像优化3D表征。更早期的朋友肯定也会想到DreamFusion系列。

当然具体细节未公布，如果基于这套方案，优势和缺点很显然：

优势在于可以用上基于大规模图像数据训练的图像生成器（比如StableDiffusion），得益于大规模二维图像数据容易获得，可以生成非常广阔(Diverse)、可控(Text-driven)的图像类别，从而实现Diverse的三维结构生成。

缺点（1）三维一致性。从给出的Demo来看，人物移动的范围有限，这是因为从本质上，该方案恢复的三维结构并未、而且理论并不可能，完全收敛。于是，在被约束的视角之外，必然能明显看到几何结构的缺失和不一致。（2）由于需要优化，速度很慢。一个场景甚至需要几小时。

未来预测。该方案在短期内能得到明显改善，如通过微调训练StableDiffusion进行更精确可控的二维图像生成，然而，个人对这个路线比较悲观，因为它希望从大量低维度的信息分布去恢复高维结构信息，理论上决定了这是Local Minimum。当然很可能有秘密武器在里面，期待公司的下一轮Update。

Google Gemini-2

deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Google 紧随其后推出了一个Demo。这套方案与李飞飞的World Labs方案完全不一样。它是Next-frame Prediction。简单来说，这个模型只根据马尔可夫假设，只根据前几帧的信息预测下一帧（的Token），可以理解为ChatGPT的图像版本。因此：

（1）这个模型并不显示建模三维信息。该模型并不具有一个3D表征，如NeRF或GS，相反，它只根据复杂的映射关系（比如一群MLP或者当然Transformers结构）去推测下一帧。我们能看到似乎有一定的几何一致性，完全是大量数据暴力拟合的结果。当然，这非常神奇！

（2）因此，该模型将非常灵活，由于不明显建模几何，意味着它能突破几何限制建模更复杂的东西：如动态，物理，纹理，甚至交互关系如对输入控制信号的condition。当然，一切都有代价，无限的输出空间意味着非常难以训练。因此个人仍然对该路线悲观——视频信号并不如文本/图像信号一般易得，具有维度诅咒。我们无法得到如此大的数据去训练一个有效的模型。这意味着最终效果很可能局限于低分辨率，高延迟，以及简单的世界交互复杂度。

不过考虑到Google的技术水平显然可以继续狠狠期待，最近Deepmind还挖走了OpenAI Sora的负责人来做World Model，肯定不久还有大更新。诺奖得主哈萨比斯加持的Deepmind，是这一波浪潮妥妥的顶级选手。

视频生成模型，如OpenAI Sora等

sora.com/

Video Generation 模型个人一直不认为是世界模型。当然学术界有讨论说Sora是不是World Simulators. OpenAI自然乐得大家把它看成一个World Simulators，但个人浅薄地认为：视频生成模型，正如Gemini-2，缺乏高维结构的显示建模。尽管猛地一看，都在输出连续sequence图像，但一个世界模型应该具备更清晰的高维结构，而图像输出只是它在某一个时刻、某一个位置的投影罢了。举例而言，一个3D NeRF/GS是可以被以任意轨迹、相机模型和分辨率要求去渲染输出一致的视频的。这只是一个几何层面的例子，世界模型的高维结构理应比简单的几何结构复杂，甚至具备物体语义以及物理模型的理解。当然具体如何表征，仍然是open question。

Nvidia Cosmos

www.nvidia.com/en-us/ai/cosmos/

非常应景，Nvidia在昨天CES推出了Cosmos模型。说实话粗一看并不知道这是什么东西，这到底是一个仿真器，还是一个Video生成器，还是一个更复杂的模型？暂时没有时间阅读出的报告，但从一个表格里的比较来看，作者在和Video Generation模型比较，暂且归纳为text-conditioned视频生成模型吧。

Niantics Labs

nianticlabs.com/news/largegeospatialmodel?hl=en

Niantics对比前面几家公司没那么出名。它的前身是Google Map，独立出来之后做三维建图和增强现实，它的产品Pokemon GO更有名气一些。由于公司特性，它具有大量现实世界路标、景点的扫描数据，都来自众包的游戏玩家扫描。最近也推出了Large Geospatial Model。然而并不认为这是世界模型，因为它只输出相机定位参数，或者获得一个三维地图结构，同样缺乏复杂的交互能力。不过因为坐拥大规模三维数据（地图），如果能直接学习三维结构或许比基于二维图像恢复三维更有优势。

总结

尽管每个公司对于World Model定义不一样，我们大概能看出这样一个趋势：

Data-driven: 当然了，大量的数据，结合生成式模型的学习，希望用上Scaling Law大力出奇迹。
3D: 强3D，包括世界的表征具有三维一致性，结合NeRF/Gaussian Splattings进行逼真的渲染。
可微分性，Differentiable：一个可微分的模型具有强悍的灵活性，能被任何更大的可微分系统作为模块使用：如，感知-控制-决策-执行的复杂机器人系统，想象一个世界模型与机器人控制器结合能产生什么样的功能。

在2025年必然有更多公司迈入这个领域，而且也确实期待它在大量领域的潜在应用，我们可以拭目以待。也欢迎补充文章缺失的World Model。

#中科院化学所宋延林组火了

前情提要：吃瓜系列的第一次“好瓜”，好导宣传和赞扬！！！

（我大概看了三遍，每看一次都有不同的感受，初看：比较快速的浏览，初始的印象仅仅是，宋老师是一位好老师，对学生很不错呀）

（第二次看，相对细致的浏览，发现宋老师德才兼备，能在学生眼里是一位好老师，或者有学生能如此夸奖老师，感觉甚至好，非常值得大力赞扬，值得让大家知道有这么一位好老师，在踏踏实实地为学生，为科研，得此导师，读博无憾）

（第三次看，感动，心中不免感慨，眼泪忍不住，身子起鸡皮疙瘩，是因为想起了那么多渣导，无德无良的导师，在这些导师下的在读硕士、博士该如何度过每一天，心中不寒而栗。渣导应大力批评，好导也应大力赞扬！对比之下，让那些无良导师感到羞耻！）

以下是正文：

转自知乎，作者：阿黄sweetgirl

我有着百分之九十九的博士生所没有的幸运。我的导师是真真切切把我们当孩子去培养的人。五年硕博生涯与他相处，他是我人生的榜样。

1. 只要达到学校的毕业要求，从不要求延期。毕业了暂时找不到工作，可以在组里呆着，工资按照对应学位的项目聘用的最高待遇(目前博士9000)。

2. 从不说一句脏话，哪怕一遍一遍地催着你同样的事情，也只是一遍一遍地说，你该抓紧了。

3. 跟学生总是客客气气，让学生帮忙都是说

“请帮我看一下这个稿子，谢谢"

"请帮我拿一下快递，谢谢"

"请把你的工作做一页ppt发给我，谢谢"

4. 从不限制学生的课题方向，会引导，但不会禁止。更多听学生自己的想法。

5. 从不限制每天的工作时间和每周的工作天数，学生的压力和动力来自于学生自己内心的驱动力。

6. 虽然是杰青，对任何人都保持充分的尊重。曾经把一个印度的硕士生错当成了教授(对方说来寻求合作)。预约院里最好的会议室向他做了一个小时的报告。最后，那个印度人说，我能读您的博士吗？老师竟没有丝毫的怒意。

7. 生活简单，不会开车，每天步行上下班。生活纯朴，用的手机目前还没有指纹解锁功能，出去经常找wifi。

有一次去外地领奖，发现自己穿的两只皮鞋不是一双（一个有鞋带一个没有），因不舍得一下子扔掉两双鞋而没有买新的。还说幸亏裤子长盖着才没有出丑。

8. 自己生活简单，对待学生很是大方，学生工资待遇上等水平，每年把自己的上万奖金用于年会聚餐。

9. 从不强求学生做任何事，更多地遵从学生的意愿。毕业时，他很想留我在组里，我说想出去闯几年再回来，他表示支持，还亲自帮我联系和推荐导师。

10. 具有科研理想，始终保持着浓厚的科研兴趣。他认为科研的目标是为人类做贡献，而不只是为了自己做贡献。

11. 对待学生关怀备至。去澳大利亚开会回北京时，我把所有的衣服都托运了，穿着短袖。下飞机时，外面是零下十度的严冬，导师竟把他的羽绒服给了我，不容拒绝。毕业时，要清理宿舍，老师让暂时没有找到住处的学生住进了他的新房子，不收房租。

12. 学生即使犯错了也不会有过多的苛责。有次师妹在宿舍使用违章电器，要写检讨并需要导师签字。导师不但没有过多的责备，还亲自帮她修改检讨，来显得认错态度更为诚恳。说“写检讨也要用心去做到最好”。

你可能认为我们组应该是一个佛系组，发不了什么论文。那你错了，导师用他自己的态度感染着我们，我们并没有懈怠。18年我们组发表的部分代表论文如下：

我不知道最厉害的研究组是什么样的。但我感觉这是最适合科研和生活的研究组。

没有想到能够得到这么多的关注，感到非常欣慰。再更新一个导师的讲话。

13. 老师说：“为师当有父母心，我对学生培养付出的心思甚至比对自己孩子的付出还要多”。

他在教师节发的微信朋友圈：“每一个教师节都会收到无数祝福和鲜花，常常反躬自问：自己是否是一名合格的老师？这些风华正茂的年轻人经过几年的学习，会在他们的人生经历留下怎样的痕迹？除了专业方面的“传道、授业、解惑”，怎么才能做到树德、树志、树人？最终思考的结果就是：为师当有父母心。想怎样培养自己的孩子，就怎样培养自己的学生；想要学生成为什么样的人，自己首先成为什么样的人。”

再附上Nature杂志对课题组多年来取得的成果及影响力的报道，感兴趣的同学们可以看看~

Nature报道：

https://www.nature.com/articles/d41586-019-00886-4?from=timeline

时间又过去了两年多，现在是2021年11月18日，看到了组里毕业答辩老师发的朋友圈。这如此和谐的师生关系，值得再次更新和分享一下。

并附上声情并茂的信放大图。

也附上老师对本人科研工作的肯定和支持，虽已经离开组两年有余，依然深受鼓舞！如今虽面临种种艰难，依然努力在坚持～～

最后，不求所有的学生都能成为顶天立地的科研人，只希望师生间关系能如这般融洽！！！

课题组主页：

http://ylsong.iccas.ac.cn/

文章来源：

https://www.zhihu.com/question/298181420/answer/579621857

#Diffusion Planner

扩散模型重塑自动驾驶路径规划

本文介绍了清华大学联合毫末智行、自动化所、港中文、上海交大、上海人工智能实验室的发表于ICLR 2025的最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》。该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构，高效处理复杂场景输入，并联合建模周车运动预测与自车规划中的多模态驾驶行为，充分发挥扩散模型在闭环规划中的潜力，解决了现有基于学习的规划方法对后处理的严重依赖问题。此外，借助扩散模型的引导机制，模型在部署阶段能够灵活适应不同的驾驶需求，提高泛化能力与实用性。

论文链接：https://arxiv.org/pdf/2501.15564

项目主页：https://zhengyinan-air.github.io/Diffusion-Planner/

背景介绍

自动驾驶规划正朝着更安全、高效的方向发展，但在复杂环境下实现类人驾驶仍具挑战。基于规则的方法虽在工业应用中取得成功，但适应性差，调整成本高；模仿学习能直接学习专家驾驶行为，并随训练数据扩展提升性能。然而，模仿学习方法在多模态行为适应性、泛化能力和驾驶风格灵活调控上仍存挑战，依赖后处理来优化模型输出。

近年来，扩散模型在决策领域得到广泛应用，但在自动驾驶规划中的探索仍有限。现有研究多聚焦于运动预测和场景生成，关注开环性能，而非闭环规划。一些方法尝试将扩散模型应用于规划任务，但仅仅是沿用现有结构或扩展模型参数，缺乏针对性结构设计，导致仍然高度依赖后处理。

为此，我们提出了Diffusion Planner，一种创新的基于扩散模型的自动驾驶规划方法。通过扩散模型强大的数据分布拟合能力，Diffusion Planner能够精准捕捉复杂场景中周车与自车的多模态驾驶行为，并实现周车预测与自车规划的联合建模。同时，基于Transformer的结构设计高效处理复杂场景输入，实现20Hz的高速实时推理。此外，借助灵活的引导机制，模型在部署阶段即可适应不同的驾驶需求。在大规模真实数据集 nuPlan 的闭环评估中，Diffusion Planner取得了SOTA级表现，⼤幅降低了对后处理的依赖，并在额外收集的 200 小时物流小车数据上验证了其在多种驾驶风格下的鲁棒性和迁移能力。

Diffusion Planner 技术细节

Diffusion Planner专为自动驾驶闭环规划设计，具备以下特点：

基于DiT架构融合加噪轨迹与条件信息，推理速度可达20Hz；
联合建模自车与周车的未来轨迹，将运动预测与闭环规划统一为未来轨迹生成；
采用扩散模型的引导机制，实现具有偏好的轨迹生成。

模型结构设计

在自动驾驶中，自车与周围车辆之间的紧密互动使得规划与预测任务必须高度协同。为了应对复杂的交通场景，准确预测邻近车辆的未来轨迹至关重要。这不仅提升了闭环规划模型的能力，还能增强系统的安全性和可控性。我们通过联合建模关键参与者的状态，将运动预测与闭环规划任务统一为一个未来轨迹生成任务。我们希望模型能够同时生成所有关键参与者的未来轨迹，从而实现更加自然的协同行为。

然而，多车交互的复杂场景会产生更加多样的驾驶行为，增加了训练的难度。为此，我们采用了扩散模型的框架进行训练，并基于Diffusion Transformer设计了针对自动驾驶规划的结构。

具体而言，我们考虑了周围车辆的历史信息、道路信息和静态障碍物，设计了简洁的编码器结构用于信息提取，并通过交叉注意力机制与加噪后的自车和周车轨迹进行信息交互。此外，我们还引入了额外的导航信息以及扩散模型特有的加噪步数信息。为了避免模型重复自车历史行为导致闭环性能下降，我们仅考虑自车当前时刻的位置和朝向，并与周车的当前状态一起拼接到加噪轨迹中。通过这种方式，起始状态的引导还能进一步降低模型对未来轨迹生成的难度。

有偏好轨迹生成

基于扩散模型的引导机制，我们可以在模型的测试阶段引入安全，舒适等偏好，同时也可以根据用户需求灵活的改变模型输出的轨迹特性，例如速度特性。此外，不同的偏好可以通过加权求和轻松组合，并且在部署阶段可以灵活选择是否启用，提供更大的灵活性。

实验结果nuPlan闭环仿真

下图展示了Diffusion Planner与其他自动驾驶规划算法在nuPlan数据集上的表现对比。我们在三个常用测试基准上进行了比较，结果显示Diffusion Planner达到了SOTA性能水平。通过引入现有的后处理模块，算法性能得到了进一步提升，这得益于模型生成的高质量轨迹，为后处理模块提供了更优的初始化参考轨迹。

此外，我们还对比了现有基于扩散模型的自动驾驶规划算法。与现有方法相比，Diffusion Planner 有效降低了对后处理的依赖，同时实现了更高的推理频率，进一步验证了我们设计结构的有效性。

轨迹生成可视化

为了进一步展示Diffusion Planner在轨迹生成方面的优势，我们选择了狭窄路段的左转场景，并与现有方法的无后处理版本进行了对比，如下图所示。Diffusion Planner生成了高质量的轨迹，不仅准确预测了周围车辆的行为，还生成了平滑的自车规划轨迹，合理地考虑了前车的速度，充分体现了预测与规划任务联合建模以及扩散模型生成的优势。

毫末智行物流小车数据集

我们使用毫末智行收集的约200小时真实世界物流小车配送数据，作为nuPlan数据集的补充，并计划后续开源。与nuPlan数据集中的车辆相比，配送车具有以下特点：尺寸较小，运行速度较低；可以在主干道和自行车道上行驶；与行人和骑行者的交互更为频繁，同时面临不同的行驶规则。通过在该数据集上进行测试，我们发现Diffusion Planner依然保持了最佳表现。相比之下，基于规则或依赖后处理的方法由于其设计存在对nuPlan数据的过拟合问题，导致在新场景中的性能下降。这进一步证明了Diffusion Planner在适应不同驾驶行为方面的鲁棒性。

有偏好轨迹生成案例

为了进一步展示引导机制的有效性，我们挑选了部分场景，从相同起始位置出发，展示了闭环测试结果。红色虚线和空心黄色车代表没有引导的结果，而红色实线和实心黄色车则表示有引导的结果。

总结

在本文中，我们提出了 Diffusion Planner，一种基于模仿学习的自动驾驶规划方法，充分发挥扩散模型的强大表达能力和灵活的引导机制。我们设计了基于 Diffusion Transformer 的模型架构，联合建模运动预测与规划任务中的多模态数据分布，并利用扩散模型的引导机制，使模型生成的规划行为与目标驾驶风格保持一致。Diffusion Planner 在 nuPlan 数据集及新收集的 200 小时物流车驾驶数据集上取得了 SOTA 级别的闭环性能，并展现出对不同驾驶风格的强大适应性。

#从EMMA看感知决策新范式

去年业界朋友交流的时候就被VLA这个概念吸引到了，最近无论是zz智能还是自动驾驶都出现了大量的VLA相关的研究进展，有一种莫名的直觉，这种范式很可能会改变自动驾驶业界的玩法,那么正好借着Waymo的EMMA工作，来和大家学习交流下VLA这种范式。

VLA概念及背景介绍

视觉-语言-动作模型（Vision-Language-Action, VLA）,通过整合视觉、语言和行为信息的互联网规模数据集，使机器人不仅能够识别和描述其环境，还能够根据上下文进行推理并在复杂、动态的环境中执行适当的动作。VLA强调一体化多模态端到端架构，非感知规控的模块化方案，标志着智能xx（Embodied AI）重要发展的里程碑。

因此VLA并非自动驾驶原生技术，其本质是机器人领域技术范式的跨界延伸

众所周知，自动驾驶的模型大家都在往感知决策一体化来推进，感觉整体都可以说成是VLA以及某种变体（本质上都是端到端了），总结以下有三个路径：

不依赖MLLM/LLM：Tesla为代表的FSD V12/V13版本 E2E，最近增加了语音输入，算是多模态端到端方案
依赖LLM : 理想所提出的MindVLA的升级架构
依赖MLLM(多模态一般泛指语音、文本、图像视频输入)：Waymo的EMMA方案、百度的X-driver方案

另外还有一些非VLA范式，是结合了VLM的工作：比如VLM仅用决策，和下游解耦合串并联。

代表工作：地平线的SENNA、AlphaDrive ，理想DriveVLM

当然xx智能也有不同的VLA探索架构形式，类似Physical Intelligence 的pi0 , VLM+(diffusion policy/flow matching)的VLA形式或者是智元GO1的Vision-Language-Latent-Action(ViLLA)架构,采用隐式空间进行特征对齐增强来获得更好的动作。本文暂不开展xx智能领域VLA，重点关注自动驾驶语境下的VLA范式。

以往的自动驾驶系统模块化设计，虽然这种设计有助于更轻松地调试和优化单个模块，但具有模块之间的累积错误和模块间通信延迟等问题。

FSDV12/13产品化已经证明端到端成为一种优秀的方案，直接学习从传感器数据中生成驾驶动作。这种方法消除了模块之间对接口的需求，并允许从原始传感器到轨迹控制的端到端优化。

基于以上背景，我认为VLA更是一种端到端的架构升级，当然是否需要Language部分，以及Language是以特征还是常识还是COT等方式注入，业界还处于探索阶段。特斯拉也并没有宣传使用L部分，更多的还是VA（vision-action）的范式。

以下一个表格来描述现有方案的优劣：目前大家普遍的共识是MLLM模型甚至左右不分，很难进行准确的数值预测，目前现有的端到端都是为planning来做的，所以具备了高精度数值预测的能力，而VLA更多是利用自动驾驶场景相关的数据进行SFT，我认为也可以具备一定的3D感知和数值预测能力。

EMMA

原文链接：

arxiv.org/abs/2410.23262

EMMA，这是一种由 Gemini 提供支持的端到端多模态自动驾驶模型。它将 Gemini 视为核心组件，并将自动驾驶任务重新构建为视觉问答问题，以适应 MLLM 的范式，旨在最大限度地利用 Gemini 的世界知识和配备思维链（COT）工具的推理能力。与传统模块化方案不同，EMMA 直接将原始摄像头传感器数据映射到各种特定于驾驶的输出，包括规划轨迹、感知目标和道路图估计。所有任务输出都表示为纯文本，因此可以通过特定任务的提示在统一的语言空间中联合处理。

Motivation：

如何利用MLLM海量的知识辅助自动驾驶任务，解决长尾特殊场景？思考以下几个case：

拥堵路段时，静止大车轮胎转角，本身没有产生压线等意图，但产生了转向意图，可以训练一个轮胎转角预测的模型来辅助下游决策
多车交互博弈的时候，比如另外一辆车摇下车窗对你进行挥手示意我方先通行，感知如何构建这类信息？
交警的手势场景，也可以训练一个交警分类模型，重建手势姿势
具有高级别语义的车道/红绿灯信息，比如公交车道，潮汐车道，绿灯可逆行车道等不同地区路网/红绿灯标准不统一。如果训练一个强大的分类模型，怎么优雅的穷举全国/全球的场景

目前来说其实自动驾驶大部分问题，还可以分类为感知系统不完备（感知背下了一切的锅）

感知系统的不完备导致自动驾驶的场景泛化困难，虽然已有的3D 动态E2E /Online mapping /Occ /红绿灯等感知模块已经尽可能获取完备的感知，但是目前的感知系统仍然不好处理上述的长尾场景，有没有一种可能存在一种较为完备的系统，比较优雅的处理上述的长尾场景（先叠个甲，大部分简单驾驶场景完全没必要用VLA这种范式，但是这里VLA看起来一种能通用解决的思路）

因此大算力、大模型的背景下，尝试使用MLLM可以作为一个潜在的解决方案

模型架构图

模型总体架构

输入：

传感器类型输入：Surround-view camera videos (V):
非传感器输入：均表达为文本格式

导航指令：High-level intent command ： “go straight”, “turn left”, “turn right”, etc.
历史自车状态：Set of historical ego status ：表示为鸟瞰图（BEV）空间中的一组waypoints坐标。所有航点坐标都表示为纯文本，没有专门的token。这也可以扩展到包括更高阶的ego status，例如速度和加速度。

输出：

均表达为文本格式，自回归的方式预测n个token

核心输出：未来5s轨迹，BEV（鸟瞰图）位置（x， y）

轨迹两种表达形式：

文本转浮点数：将文本直接转换为浮点数。具体数值精度取决于距离单位（m/cm）来确定保留几位小数。优点在于所有任务都可以共享相同的统一语言表示空间，并且可以最大限度地重用来自预训练权重的知识。但是用自然语言描述坐标，token 数可能更多，效率和速度可能下降（如输入长度长，计算更慢），需要整体 trade-off 。
special tokens to represent each location/action：分辨率由学习或手动定义的离散化方案确定。参考MotionLM利用这种方法进行运动预测，意味着每一个token代表未来某一个时刻对应的location /action。这样方案输出的token数量较少，输出更快，但无法统一文本表达形式。

本文这里采用文本转浮点数的表达形式。

2. 可选输出：

3D目标检测信息，如 3D box的位置和大小
可驾驶引导线检测，可以驾驶的waypoints组成的路网
场景语义理解（堵车场景判断）
思维链推理（文本表示），可以要求模型在预测轨迹之前解释其基本原理（如架构图右上角），通过思维链推理增强了模型的性能和可解释性。这里可以包括：

核心组件：Gemini 1.0 Nano-1

这个多模态大模型是非开源的，知乎有其他大佬解读，大家可以移步：段淇源：解读 Gemini 技术报告（Gemini: A Family of Highly Capable Multimodal Models）

大概总结几点：

Transformer Decoder-only 的架构
训练32K 的 Context Length
参数规模：Nano-1 为 1.8B（18 亿）参数的轻量级模型，专门针对低内存移动设备优化
4 位量化部署：采用 4 位量化技术（即模型权重以 4 位精度存储），显著降低内存占用和计算资源需求，同时保持推理性能
原生多模态支持：基于原生多模态架构（非 Flamingo 范式/非其他对齐的范式），支持同时处理文本、图像、音频输入，例如实时图像描述、语音转录和文本摘要
模型效率：相比云端模型（如 Ultra），Nano-1 在保持较高准确率的前提下，推理速度更快且能耗更低，Attention 部分采用 Multi Query Attention.

这样的大模型具备两个特点：

（1） 在庞大的互联网规模数据集上接受训练，这些数据集提供了超出常见驾驶日志所包含的丰富“世界知识”（2） 通过思维链推理等技术展示了卓越的推理能力，但这在自动驾驶系统由于效率问题几乎不可用。因此也需要探索一种结合cot方式的自动驾驶VLA模型

能力一：End-to-End Motion Planning

通过上述的Gemini模型，也可以做端到端规划，具体来说

（1）使用导航系统（例如谷歌地图）进行路线规划和意图确定
（2）利用过去的行为来确保随着时间的推移平稳、一致地驾驶。

那么就是输入1,2表示的文本，和环视视频，输出对应的轨迹。

那么这样的公式，很容易构建真值，需要导航意图-历史轨迹-未来轨迹-视频数据，这四个元素，那么就可以给Gemini大模型进行监督微调（Supervised Fine-Tuning, SFT）

这样也无需高精地图，仅使用来自 Google Maps 的导航信息。

这里是利用 2 秒的历史轨迹来预测未来 5 秒的轨迹。

能力二：Planning with Chain-of-Thought Reasoning

将思维链推理纳入端到端规划器轨迹生成中，这里要求模型在预测最终未来轨迹航点 trajectory 的同时阐明其驾驶决策理由。

因此这种VLA模型不仅具备端到端planning的能力，还可以通过思维链推理来提高轨迹推理能力，利用输出驾驶原因来具备一定的可解释性。

从 4 种类型的粗粒度信息发展到细粒度信息
R1 - 场景描述：大致描述驾驶场景，包括天气、日期、交通状况和道路状况。例如：天气晴朗，阳光明媚，现在是白天。这条路是四车道的无分隔街道，中间有一条人行横道。街道两旁停着汽车。
R2 - 关键目标：是可能影响自主车辆驾驶行为的道路agent，我们要求模型识别其精确的 3D/BEV 坐标。例如：行人为 [9.01， 3.22]，车辆为 [11.58， 0.35]。
R3 - 关键目标的行为描述 描述已识别关键目标的当前状态和意图。具体示例如下：行人目前站在人行道上，望向道路，可能正准备过马路。这辆车目前在我前面，朝着同一个方向行驶，它的未来轨迹表明它将继续直行。
R4 - 原始驾驶行为决策：包括 12 类高级驾驶决策，总结了给定先前观察的驾驶计划。“I should keep my current low speed.”

关键目标的3D/BEV信息的标注可以通过现有的3D 感知模型来预刷，（这就不得不提到我们之前在图森实习做的离线3D检测跟踪器，CTRL方案 原文链接:Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection）

关键目标的行为描述，可以通过预测模块来获得。

那么在训练和推理期间，该模型在预测未来的waypoints之前预测驾驶决策理由的所有四个组成部分（R1-R4）

注意这里是可选的，驾驶决策理由肯定会带来大量的token消耗，造成推理效率低下

能力三：EMMA Generalist（通才网络）

图中绿色部分都是用来微调的task prompts和context信息，最终回答就如蓝色框所示，里面的信息可以可视化成polyline、3D box,自车轨迹等

虽然端到端运动规划是最终的核心任务，但全面的自动驾驶系统需要额外的功能。也就是感知 3D 世界并识别周围的物体、驾驶引导线预测（Road graph estimation）和交通状况。 EMMA 构建为一个通才模型，能够通过训练混合物处理多个驾驶任务。
采用指令调优(instrunction tuning, IT)，这是 LLM 中一种常用调优方法。
关于指令调优知乎上也有一些学习资料：

输入 Task prompts 中包含的特定任务提示一起联合训练所有任务。具体的任务分为三个主要类别：空间推理、驾驶引导线预测（Road graph estimation）和交通场景理解。当然这种形式感觉很灵活，可以继续拓展不同的任务。

空间推理：

其实就是3D 目标检测的文本形式，这里遵循 Pix2Seq ，并将输出的 3D 边界框表述为 = set{text（x， y， z， l， w， h， θ， cls）}，其中（x， y， z）是车辆中心位置，l、w、h 是框的长度、宽度和高度，θ 是航向角，cls 是文本中的类标签。

通过编写具有两位小数的浮点数将 7D 框转换为文本，每个维度之间用空格分隔。然后使用固定的 prompt:表示检测任务，例如 “detect every object in 3D”，然后输出对应的box（文本形式），如下公式所示：

驾驶引导线预测（Road graph estimation）：

这里如果用Road graph estimation，我一开始还以为是online mapping那种任务，但其实是类似道路可驾驶的中心线的概念。

输出包括语义元素（例如车道标记、标志）和物理属性（例如车道曲率）。这些 road 元素的集合形成了一个 road graph。例如，车道段由（a）节点表示，其中车道遇到交叉、合并或拆分，以及（b）这些节点之间沿交通方向的边缘。完整的 road-graph 由许多这样的polyline组成

虽然每条polyline内的边都是定向的，但每条polyline不一定相对于其他元素具有唯一的顺序。这与目标检测类似，其中每个框都由有序属性（左上角、右下角）定义，但框之间的相对顺序不一定存在。有几项现有工作使用 Transformer 对polyline进行建模与语言模型有类似的地方。

交通场景理解：

任务测试模型对整个场景上下文的理解。例如，由于施工、紧急情况或其他事件，道路可能会暂时阻塞。及时检测这些障碍物并安全地绕过它们;但是，场景中需要多个提示来确定是否存在阻塞。使用以下公式关注模型如何执行此临时阻塞检测任务：

其中是指示潜在障碍物的模型输出,答案就是“是”/“否”

表示前方道路上的所有物体

是文本提示“前方道路是否暂时被阻塞？ "

实验部分（重点部分）：

其实上述的指令调优，任务定义方式都是比较简单也好理解。重点看一下这里的实验结果，表露出来了什么信息。

端到端规划 waymo open datasets数据集实验：

waymo在自己家的数据集刷了一遍，EMMA+对比EMMA其实就是预训练用了waymo内部数据集。这里wayformer之前是一个agent运动预测模型，这里修改成了用于预测自车未来轨迹的模型。

ADE就是平均距离误差的指标，当然是越小越好。

端到端轨迹采样数量实验：

在推理过程中，从多个候选轨迹中对最终轨迹进行采样对最终性能很关键。MotionLM 和 Wayformer 都生成了 192 个候选轨迹，随后使用 k-means 聚类将其聚合为 6 个cluster，从而产生 6 个代表性轨迹。最终轨迹是根据它们的相关概率从这 6 个代表性轨迹中选择的。

为了公平起见，我们还使用 Top-K 解码策略对多个轨迹进行采样，最高可达 K = 24。然后，我们计算所有轨迹之间的成对 L2 距离，并选择平均 L2 距离最低的轨迹作为最终预测轨迹，它可以被视为所有预测中的 “中位数 ”轨迹。

可以看见在wod数据集上还是轨迹越多越好，但边际效益递减，即增加候选轨迹数量的优势在某个点之后会减弱。

端到端规划nuScenes实验：

这里有个值得关注的点，与 Waymo数据集不同，在nuScenes对多个轨迹进行采样并没有产生明显的改进。这里推测是由于 nuScenes 在更简单的驾驶场景中的预测时间范围（3s）较短。因此只用top1 预测就够了

端到端规划的 COT实验：

ablation里面思维链对最终e2e planning的影响,看起来是否添加R1的scene description对最终规划没有什么用，但是其他三个部分是有用的。

端到端规划的Scaling实验:

如图 4 所示。在更大的训练集上训练模型时，会在过拟合之前观察到较低的 eval 困惑度。

结果表明，即使使用当前的大规模数据集，EMMA 的驾驶质量也尚未趋于稳定

在内部数据集上的 EMMA 数据scaling实验。每条曲线都表示随着训练步骤的增加，端到端运动规划的 eval 困惑度。x 轴是训练计算，由对数刻度的浮点运算（FLOP）（大模型scaling law中常用的度量指标），相同的 EMMA 模型在四种大小的数据集上进行训练，这些数据集以从 3% 到 100% 的不同百分比

一般来说，当给予更多的训练计算时，EMMA 往往会获得更好的质量，直到过拟合，但它也会在较小的数据集上快速过拟合。但观察到，在使用完整的大规模数据集时，轨迹质量也未饱和。

这里就很值得关注了，意味着10^ 21次方的flop计算迭代仍不能收敛，还需要多少计算资源未知，这个玩法在waymo这种资源的公司，都没有探索明确出来多少训练资源能收敛.....
所以如何在越大的模型 + 越多的数据 + 越多的训练轮数上面进行拓展还有很多可探索的工作，而且低成本的训练方案也至关重要。

3D Object Detection实验：

由于EMMA输出的检测框,没有置信度分数，因此直接比较精度/召回率,可以看见EMMA+的检测性能看起来还好，当然比较的都是一些很早期的3D检测器，个人猜测，VLA这种面向规划模型，3D感知性能有个大概还行的样子就够了

驾驶引导线预测（Road graph estimation）实验

用于预测一组无序的折线，每条折线都表示为一系列waypoints。用两个指标来衡量道路图预测的质量：

（1）车道级精度和召回率，当且仅当它们的chamfer distance 在 1 米以内时，我们定义预测的车道折线和真实车道折线之间的真正正匹配;
（2）像素级精度和召回率，其中折线被栅格化为分辨率为 1 米的 BEV 网格——然后我们将 BEV 网格视为图像，并根据每个像素的匹配计算精度和召回率。

此任务涉及多种设计选择。

关于polyline的表示，定义是每个车道的起点和终点，其中根据需要添加中间点以准确捕获道路的曲率。
关键设计：构建用于模型训练的目标标签序列，参考了Pix2Seq 文章，知乎上也有大量对应的解读，为了方便理解，来一张图，主要是离散输出的形式，来自：我爱计算机视觉：Pix2Seq V2 ，一个用于视觉任务的统一序列接口
关键设计：填充waypoints并应用随机打乱顺序。此技术可帮助模型处理无序输出，并防止在训练期间过早终止。

pix2seq任务输入输出

以上的关键设计进行对应ablation：

图 6 各种设计选择的消融研究

从最佳设计开始，系统地消融以下每一种配置，并评估由此产生的质量下降。

这里并没有具体量化具体的指标参数，如ADE之类的，更多的还是这种指标下降的百分比的比较，也是论文写作的一种表现手法，看的更直观。

首先第一个部分：基于车道曲率和长度的道路图折线动态采样（最左侧）被证明是最重要的因素，导致车道级精度和召回率发生 70% 到 90% 的大幅变化。相比之下，将模型与类似语言的表示形式对齐，即语义标点符号（最右侧），效果变化不大，对任何指标的精度和召回率仅产生 <10% 的变化。

具体来解释每一部分（这里细节比较多，感觉花了很大精力来做这个任务的）：

polyline表达：动态采样优于固定采样。简单的折线表示是在每个通道中对固定数量的稀疏控制点进行采样，例如，两个端点加上固定数量的中间点来捕获曲率。但是，发现更好的方法是根据车道的曲率和长度动态调整每条折线的点数。通过保持一致的航路点密度而不是一致的航路点数量，实现了一种更准确地捕捉车道结构复杂性的表示，从而在指标中产生大约 40% 到 90% 的差异，如图 6 所示。
polyline表达：ego-origin 对齐的采样间隔比 naviely 对齐采样间隔要好。这种驾驶引导线通常在全局坐标系中存储和访问，这意味着车道起点和延伸线独立于自主车辆位置。为了提高准确性，必须调整车道点样本，使其从 ego 车辆坐标系原点开始。具体来说，相对于ego位置的多段线点采样可避免将全局坐标系中采样的点直接转换为自我坐标系时可能产生的任意偏移量。这可以防止预测质量下降 25% 到 60%。
序列构建：shuffled ordering 优于任意排序。我们根据折线目标与 ego 车辆的端点距离将折线目标组织到bin 中，从而提供粗略的全局排序。例如，我们将车道分为附近的车道和较远的车道，这些车道用作连接车道。在训练期间，我们动态地打乱每个距离区间内的折线，以提高模型的稳健性和覆盖率。每个 bin 内的这种动态洗牌提高了模型跨不同通道配置进行泛化的能力，从而实现更准确的预测。
序列构建：填充方案优于非填充方案。与 Pix2Seq类似，发现防止提前终止的填充目标是非常有效的。除了填充折线目标的总数外，我们还填充每条折线内的点数。使用 “无效” 标记来表示折线中的填充点。每条折线还显式标记了最终的“有效”或“无效”标记，以指示它是否包含任何非填充点。这种方法可确保输入大小的一致性，这有助于在训练期间保持模型的完整性，并降低过早截断的风险，从而获得更可靠和准确的预测。
序列构建：添加标点符号和其他语义冗余的标记可以提高质量。在目标序列构建中，注意到使用类似语言的结构和标点符号对目标进行分组是有益的（例如，“（x，y )和 (x，y）;...”而不是 “xy xy;...”）。此外，显式包含语义冗余标记（例如将填充的目标标记为“无效”，而不是依赖于“有效”标记的隐式省略）可以提高性能。这种方法结合了标点符号和冗余，使车道级指标提高了 10%。将这种改进归因于 Gemini 的语言相关预训练。通过利用类似的结构化表达式，Gemini 可以更轻松地适应其他任务。

Scene Understanding实验

针对临时堵塞的场景理解任务研究，这里并没有展开其他的复杂交通场景，应该可以加更多其他特殊场景。

如图7所示，有三种比较方案：

human baseline :我们通过向人类展示图片并要求他们判断车道是否暂时阻塞作为baseline,他们可以回答“是”、“否”或“不确定”。
human baseline +fliter:所有"不确定"的答案本身就是一种错误, 所以过滤掉所有答案为 “不确定” 的示例，作为最新的指标，效果也最好
EMMA：模型经过微调以预测所有示例的 “是 ”或 “否”。

第一个实验：相当于是直接FT，效果就不错。

第二个实验：和驾驶线估计的任务联合FT,会掉指标（典型多任务打架）

第三个实验：先短暂预训练驾驶线预测任务，然后联合两个任务FT，指标正常了

第四个实验：先较长时间的预训练驾驶线预测任务，然后联合两个任务FT，指标更好了。

多任务上的不同训练策略很重要，这种大家平常训练多任务感知模型的时候也会遇见（多任务打架）。

指令调优联合训练实验：

从三个任务来看：端到端规划、3D 目标检测、驾驶引导线预测。所有三项任务的联合训练产生了较显著的改进，通才模型的性能比单任务模型高出 5.5%。

其中，当共同训练两项任务时，某些组合会比其他组合带来更大的收益。例如，当与planning相结合时，检测性能的提升最大，而驾驶引导线预测在与planning相结合时同样受益最大，但是plannning的指标掉了，估计是因为驾驶引导线某种程度也很类似planning的轨迹，导致模型的一些confused。

但总体来说，可以看到任务的互补性。例如，当模型可以准确识别车辆的位置时，道路图估计会变得更加容易。同样，驾驶质量与理解目标的交互密切相关，3D 目标检测增强了这项技能。

这些发现表明，追求通才模型是未来研究的一个有前途的方向，有可能更深入地了解任务协同和性能优化。

可视化验证：

这里就重点放一些有意思的可视化，更多大家可以去原文看

三个图从左到右分别是planning结果（轨迹横向扩张了大概车宽的距离）、3D detection 、驾驶引导线

垃圾袋避让

梯子避让，其实做occ的同学应该知道，这类稀疏带空的低矮目标真值也挺难构建的

小松鼠刹停，这种近距离小目标，如果occ如果做的好，也可以预测出来，但是如果是mllm的形式思维链推理也包含准确的松鼠信息，那这个能力还是挺牛逼的

白色的狗刹停，还是一个比较复杂的路口，驾驶引导线的预测看起来也没有特别大问题。

道路表示为左变道，但是左侧有施工牌，这个planning就考虑这些复杂信息，直接沿着当前车道开

道路避障的场景

交警避让

黄灯刹停，可见大量的常识信息包含了这些交通知识

存在的问题和未来的解决方案：

内存和视频帧数问题：目前，模型仅处理有限数量的帧（最多 4 帧），这限制了其捕获驾驶任务所必需的长时空依赖关系的能力。有效的驾驶不仅需要实时决策，还需要在更长的时间范围内进行推理，依靠长期记忆来预测和响应不断变化的场景。增强模型执行长期推理的能力是未来研究的一个有前途的领域。这可以通过集成内存模块或扩展其有效处理较长视频序列的能力来实现，从而实现更全面的时间理解。

扩展到 LiDAR 和雷达输入：（waymo车上有很多lidar，但是这个模型明显没有利用到这些信息）由于无法将摄像头输入与 LiDAR 或雷达融合，因此 3D 空间推理受到限制。严重依赖于预先训练的 MLLM，这些 MLLM 通常不包含 LiDAR 或雷达输入。集成这些 3D 传感模式会面临两个关键挑战：1）可用相机和 3D 传感数据量之间存在显着不平衡，导致与基于相机的编码器相比，3D 传感编码器的通用性较差。2） 3D 传感编码器的发展尚未达到基于摄像头的编码器的规模和复杂性。应对这些挑战的一个潜在解决方案是使用与相机输入仔细对齐的数据来预训练大型 3D 传感编码器。这种方法可以促进更好的跨模态协同，并显著提高 3D 传感编码器的泛化能力。

规划轨迹的验证：模型可以直接预测驾驶轨迹，而无需依赖中间输出。增加额外的数据，会有实时性和可解释验证的矛盾。通才模型也可以联合预测额外的人类可读输出，例如目标和驾驶引导线，并且驾驶决策可以用思维链驾驶原理进一步解释。但不能保证这些输出100%一致的（大模型推理过程错了，但结果对了情况也是有的）。此外，额外的输出会为部署带来巨大的运行时延迟开销。

用于闭环评估的传感器仿真：大家也都知道开环评估不靠谱。与闭环性能没有很强的相关性。所以为了在闭环环境中准确评估端到端自动驾驶系统，需要一个全面的传感器仿真解决方案。然而，传感器仿真的计算成本通常比行为仿真器高（如苹果的GIGAFLOW）。除非进行实质性优化，否则这种巨大的成本负担可能会阻碍端到端模型的全面测试和验证。

这里给没有做过仿真的同学科普一下：
一段式端到端：一般需要传感器的闭环仿真，这里推荐一下乃岩老师在图森的开展闭环仿真工作（基于神经渲染的下一代真实感仿真）Naiyan Wang：基于神经渲染的下一代真实感仿真，这里实习的时候也有幸在mentor闫岩的指导下优化了里面的部分模块。当时在图森参与的是传感器的联合仿真：也就是图像+点云的传感器仿真。当然现在有很多拿3D GS来进行图像仿真部分。

二段式端到端：一般就是行为仿真，只需要模拟感知的一些结构化信息（车道线、感知目标、红绿灯等信息），比如苹果GIGAFLOW、地平线的GUMP。这样的仿真成本更低，一般可以用于二阶段端到端的闭环仿真、强化学习来使用。
当然还有一些生成类的工作可以实现类似的事情，比如地平线的UMGen工作：半闲：CVPR 2025 | UMGen：多模态驾驶场景生成统一框架，也是超哥带领的地平线World model项目中的收尾工作～

车载部署的挑战：自动驾驶需要实时决策，这在部署大型模型时构成了重大挑战，因为它们的推理延迟会增加。这就需要优化模型或将其提炼成适合部署的更紧凑形式，同时保持性能和安全标准，相对于传统模型，计算要求更高。在模型大小、效率和质量之间实现这种微妙的平衡。

总结

EMMA利用MLLA实现了端到端planning的方案，并且通过额外的COT输出，具备了一定的可解释性，让端到端不再是黑盒模型。这种方案也属于自动驾驶VLA领域的初期探索工作，后续可发展可探索空间也有很多，还有一些工作比如OpenEMMA,LightEMMA这些，后续计划进一步学习这些内容，以文章的形式发出来

个人认为，自动驾驶应该会出现于自动驾驶的用于车端平台的垂域大模型，也可能并不需要L部分，如果高效率在车端芯片上推理，综合来看特斯拉FSDV13很接近这种形态。

#TransDiffuser

端到端轨迹SOTA！基于解耦多模态表示的端到端轨迹生成（理想&中科院）

自从UniAD在CVPR’23获得了Best Paper奖项，近两年来，端到端自动驾驶在近年来吸引了许多学术界与工业界的关注。近期一个研究趋势从传统的轨迹规划方案转向了对多模式生成式轨迹规划的探索，典型的两个代表工作为录用于CVPR'25的GoalFlow与DiffusionDrive。近期，理想汽车放出了两篇在生成式端到端自动驾驶这一领域的探索，分别为3月的TrajHF与5月最新放出的TransDiffuser，其中TransDiffuser是基于TrajHF做的进一步改进，这两个方案目前在HuggingFace的NAVSIM leaderboard这一权威榜单上居于前两名，进一步提高了生成式轨迹规划模型的性能上限。本篇文章将主要分享TransDiffuser这一论文的主要技术思路。

TransDiffuser论文链接：https://arxiv.org/abs/2505.09315
一作主页：https://sprinter1999.github.io/website/

实验结果表明TransDiffuser在NAVSIM数据集上实现了94.85的PDMS，并且不需要任何基于Anchor的先验轨迹。

简介

TransDiffuser 是一种生成式端到端自动驾驶轨迹规划模型，由理想汽车、中科院计算所与清华大学的研究人员合作完成。模型的输入为前视相机图像、激光雷达与当前车辆的运动信息，通过作者所设计的基于DDPM的Denoising Decoder架构进行多模态信息的融合，并通过多模态表示解相关策略对融合信息进行进一步优化，最后解码出规划轨迹。笔者认为，本文的核心创新在于所引入的多模态表示解相关化的优化策略。TransDiffuser在 NAVSIM 基准测试中取得了最新State-of-the-art效果，目前在Leaderboard上提交的结果也取得了榜首，并且相较于GoalFlow与DiffusionDrive这两个相关工作，该模型无需依赖任何锚点轨迹或预定义轨迹词汇表，而是直接从高斯噪声解码潜在轨迹。这表明该模型在复杂交通场景中具有出色的泛化能力和适应性，能够生成高质量且多样化的轨迹规划方案。另外值得注意的是，本文沿着DiffusionDrive，进一步强调了生成轨迹多样性的重要性，并汇报了对应量化指标。

相关工作

在论文中，作者将现有方法分为自回归（AR）、评分（Scoring）与扩散生成（Diffusion）三类方法。以UniAD为代表，传统模型往往只回归一条规划轨迹。以英伟达Hydra-MDP为代表，基于Scoring的方案往往先采样或者选出多条候选的轨迹，结合不同指标或者策略选出一条最优轨迹。以DiffusionDrive和GoalFlow为代表，基于扩散生成的方案，往往将环境信息与自车状态进行编码，利用基于扩散策略的生成式模型来生成可能轨迹。值得注意的是，现有工作的一个显著研究趋势为生成多个候选轨迹，再选取最优轨迹作为最终轨迹。

方法

和之前理想提出的TrajHF框架相似，本文所提的TransDiffuser是一个“编码器-解码器”架构的模型。作者使用冻结的Transfuser模型对当前自车的图像与激光雷达采集的点云进行特征融合与编码，同时对自车的运动信息通过简单的MLP架构进行编码。所编码的多模态信息会通过基于扩散策略的去噪解码器（Denoising Decoder）完成多模态特征进一步融合，最终解码最终轨迹。

作者冻结了用于编码图像与激光雷达的Transfuser模块，在训练部分，作者参考DiffusionDrive的实现，使用去噪扩散概率模型作为优化框架，主要训练Denoising Decoder部分，关注从高斯噪声向无噪声状态的逆向去噪过程，通过特定方程实现状态的逐步去噪。需要注意的是，作者并不依赖轨迹词表或者锚点信息作为先验，这体现了使用纯高斯噪声也可以生成高质量候选轨迹的可能性。

本文创新之处在于，作者强调生成规划轨迹这一任务中潜在的模式坍塌（Mode collapse）挑战。这一挑战最初在DiffusionDrive这篇工作中被提出，具体是指不同初始化下，模型生成的多条轨迹的多样性受限。为缓解这一问题，作者通过约束多模态表示矩阵的相关矩阵的非对角相关系数趋近于零，降低不同模态维度间的冗余信息，从而拓展潜在表征空间的利用率。该机制在训练阶段作为附加优化目标，由权重因子平衡主要损失。具体而言，这里的多模态表示作为最终动作解码器的输入，通过提高此处的信息量，鼓励动作解码器生成更具多样性的轨迹，提高在连续动作空间采样可行动作的效果。在图2的子图（d）中，作者对表示矩阵的奇异值谱进行了可视化，可以看出优化后的多模态表示空间得到了进一步的利用。

作者也给出了这一优化目标的计算伪代码，从实现上看，这一优化目标并不会带来过重的计算开销，但能够提升模型对于多模态表示空间的利用率，从表3的实验结果也能看出这一目标可进一步提高生成轨迹的多样性（Diversity从65.90提升到70.02）。

实验分析

数据集使用适用于闭环评估，基于非反应式仿真NAVSIM 数据集，包含相机图像、激光雷达数据、自身状态和地图及目标注释。作者使用了多个最新方案进行对比，并且包括匀速模型、Ego-status-MLP等用于评估下界的基线方案。实现是基于 PyTorch lightening 框架和 NAVSIM 官方工具包，作者冻结了用于编码图像和激光雷达的Transfuser模块，仅训练 120 个全局训练轮次，反映了这一模型的训练效率。评估指标则包括预测驾驶员模型分数（PDMS），另外包含DiffusionDrive这一工作提出的多样性指标（Diversity）。

从NAVSIM的结果上看，作者所提模型的最大改进在于EP（Ego Progress）指标。同时，作者对Batchsize、权重因子和去噪步数进行了消融分析，并且汇报了不同参数配置下的多样性指标，从结果上看，即使降低去噪步数也能取得相对不错的性能，同时提高去噪步数，可在一定程度额外时间开销下，进一步显著提高多样性分数。

作者进行了可视化分析，显示了不同交通场景下和Transfuser模型的规划轨迹的区别。从可视化分析上可以看出，作者所提的模型在简单场景场景或复杂交通场景，可以在遵守安全的前提下提出相对更激进的规划轨迹。

结论

本文提出 TransDiffuser，一种基于”编码器-解码器“的端到端自动驾驶生成式轨迹模型，并且引入多模态表示去相关优化机制以鼓励从连续空间中采样更多样化的轨迹。这一模型在 NAVSIM 基准测试中证明了其优越性，未来工作可考虑结合强化学习技术和”视觉 -语言-行动“模型架构，以更好地与人类驾驶员指令或风格对齐生成多条规划轨迹。就技术局限性，作者声称在联合训练Transfuser的编码器存在一定挑战，需要进一步探索，并且作者鼓励未来工作考虑结合本文提出的多模态表示解相关的策略，来进一步提高其余模型与方法的性能的可能性。

#一场关于xx本体构型的讨论

xx之上！“祛魅”后的“升维”

上周末一开局就注定不是一个平凡的周末，xx智能领域两位大佬不约而同提到了当下xx智能发展形态的看法。继而，领域一众观察者和研究员也加入了讨论，以下摘录他们的一些关注和讨论点，本文只做学术分享。

许华哲老师

清华大学交叉信息研究院助理教授，星海图联合创始人

1）xx智能要落地一定得有ImageNet时刻吗？

xx智能的”ImageNet”时刻是一个伪命题，至少是一个极具迷惑性的命题。ImageNet的妙处是采集了海量数据后，评测只需要把一部分图片预选出来，并且把他们的类别记录下来作为标签，不同人使用ImageNet的唯一的区别就是它用的模型的优劣，因此ImageNet成为了一个公认的竞技场。我们带着这样的拆解去看xx智能，就很容易发现“ImageNet时刻”的要求要高得多——除了提供的“ImageNet”以外，在不同用户处的其他部件应该一模一样。这意味着：

1）场景可复刻；

2）视角、光线等视觉条件一致；

3）机器人型号统一；

4）机器人跨本体一致。即使都是正午的太阳，纽约和上海也是不一样的，所以要做到前面这四件事，几乎不可能。在星海图，我们努力给大家一款稳定的本体；在斯坦福，有一个项目叫UMI企图对齐所有数据的形态。大家有没有想过，xx智能如果一定要有ImageNet时刻，其实不一定是一个数据集，而是一款本体？

xx智能是一个后发的领域，我们的上半场还没比完还在苦苦追寻ImageNet，但是已经有一个下半场比了半天的先知叫作LLM让我们看到了很多未来。所以我们仍然不清楚构建数据集的意义如何验证，又或者我们应该直接像语言模型一样到真实的场景、任务中的测试。在方法和模型还没完全摸清的时候，我们也去构造和收集大量数据，而且也不确定选用哪一款本体，好像过去和未来交织在一起。我们现在有了一点头绪，但也只是一点。

2）xx智能之上

智能的形态可能殊途同归，视觉、语言、机器人，从应用的角度各有各的难处，但是从智能的角度，他们很有可能在解决一样的问题。过去自然语言的人要去学语言学、视觉的人要去了解神经科学、机器人的学者则需要精通控制论。而现在，大家都在transformer加上海量数据。所以如果大家关心的是最终的答案，很有可能所有领域会同时被卡住或者被解决。

用更长远、更宏观的眼光看，如果你的野心在智能，无论你做xx智能、大模型、世界模型，又或者是神经科学，也许都一样的。

南方科技大学周博宇老师

械与能源工程系助理教授（副研究员），博士生导师

学科无需“称王”，科学本应共生

有观点认为，传统机器人学有相当一部分的研究重点在于“特别”的机器人或者“特别”的任务，这类“特殊任务研究”对科学虽然有用，但对xx智能发展无益。我认为这种观点显然不对。

首先xx智能非凌驾于科学体系的“终极形态”，也不该成为否定其他学科贡献的霸权标签。xx智能本身是跨学科产物，其发展必须依赖具体科学问题的突破。

通用性无法脱离具体性而存在

目前有些观点认为，只要通用智能做成，各种细分领域的问题也将迎刃而解。鼓吹“通用大脑优越论”时不要忘了：人类智能的通用性恰恰来自对具体问题的极致钻研。即便是人类自身，在掌握某项特定技能时，也必须经历反复锤炼，方能得心应手。把xx智能简化为全知全能“通用大脑”，就像要求建筑师只研究设计理论而不懂混凝土配比，最终建成的只能是空中楼阁。

技术迭代≠知识湮灭，沉淀才是真谛

在技术更迭的浪潮中，常存在一个认知误区：新范式必然完全覆盖旧体系。实则技术演进更像是地质沉积——蒸汽机虽已退出主流动力系统，但其核心技术仍为工业提供底层支持。这种沉积规律同样适用于智能领域。每个技术周期都在人类认知坐标系中留下坐标，这才是创新真正的复利效应。

AGI需要破除“技术救世主”幻觉“

xx智能是一个高度复杂的系统工程，它呼唤交叉学科的深度融合，依赖多个领域的协同进步。宏伟目标的实现，不可能寄希望于某几位“天才”横空出世，单枪匹马颠覆所有相关领域。通往AGI的道路，注定是一场集体智慧的远征。

xx是长期的事业，要长期主义的坚持

如果类比自动驾驶的发展阶段，我可能要给出一个相对悲观的判断：我们目前大概还处于“L0”水平：甚至连本体形态”都尚未收敛。

今天的xx智能，仍处于“边摸索边前行”的阶段，离真正意义上的成熟和落地，还有很长的路要走。

关于VLA（视觉-语言-动作）技术路径的思考

语言固然是一种高效的人机交互方式，也可支撑推理，但它的价值在于“如何用”，而不是“必须用”。当前很多 VLA 模型规模庞大，计算资源消耗高，与其实际能解决的问题相比，性价比并不理想。从长远看，这类模型大概率会被更轻量化、更高效的替代方案所取代。

技术演进的方向：短期与长期的平衡

短期内，我认为learning（学习）与model（建模）相结合的路径更为现实。而从长期来看，纯learning的方法可能是终极方向，但其形式一定会与当前大相径庭。

那么为什么我愿意相信learning会成为长远未来的主流？设想如果我们能彻底理解人脑的工作机制，甚至创造出超越人脑的新架构，那我们就有望仅凭少量数据快速掌握多种技能，突破传统模块化系统的性能天花板，这是很符合自然的。但这不仅依赖于AI本身的发展，还需要脑科学、类脑计算等多学科的协同突破。“大力出奇迹”的scale-up模式，注定只能是通向未来的阶段性手段。

关于人形机器人的思考

我认为做人形机器人只有两个根本原因：第一，作为人类自身，我们希望未来的“同伴”拥有与我们相似的形态，这是一种自然的情感投射；第二，人类的生活环境是为人类设计的，因此人形机器人在适应这些环境方面具有天然优势。

目前社会对人形机器人投入了过多资源，其中不乏大量同质化、低水平重复的项目。这种趋势值得警惕，不应为了追求“酷炫”或“资本热点”，而忽视了技术本身的实用性与经济性。

关于技术壁垒

其实，这并不是一个专属于xx智能领域的问题，但我想强调的是：纯软件或算法层面的技术，往往难以构建真正意义上的高壁垒。表面上看，一个惊艳的模型或巧妙的算法可能令人眼前一亮，但如果缺乏长期工程化落地的经验积累、真实场景中的反复打磨，以及对细节极致追求的“脏活累活”，这种优势很容易被复制甚至超越。

真正有竞争力的技术壁垒，往往诞生于日积月累的实践之中——是成千上万次实验中踩过的坑，是产品迭代过程中优化到小数点后几位的坚持，是对材料、工艺、系统集成等多环节深度把控的结果。这些看似琐碎、不够“高大上”的工作，才是构建长期技术护城河的关键所在。换句话说，技术壁垒是干出来的。

远见与实干的辩证法

科学研究既需要宏大的愿景，也需要脚踏实地的实践。xx智能正是这样一项兼具理想与现实挑战的事业。科学探索从不分“高低贵贱”，真正的价值在于它是否拓展了人类能力的边界。作为机器人领域的从业者，我经常告诫自己，在仰望星空的同时，也要俯身耕耘，解决真实世界中的具体问题，推动社会进步。不要只停留在概念炒作和空谈之中，而是要用实际行动，让社会看到xx智能真正的潜力与价值。

最后，保持谦逊，保持开放，砥砺前行，或许才是xx智能走向成熟的真正标志。

小红书博主，问号

最近许华哲老师和Boyu周指导对xx智能路线的讨论引发了大家的热烈思考。本人也在两位老师的评论区略微贡献了一点想法，很荣幸获得了两位老师的点赞

我对xx智能的理解其实是这样：搞xx的人目前在xx智能的努力应该算是放大版robot learning，同时搞xx的人也期望这种robot learning在未来可以通过scaling law实现通用的现实世界agi。

大模型在nlp和cv领域的成功验证了the bitter lesson的正确论断：算力提升带来的scaling law会打败所有人为设计的先验知识。

但是the bitter lesson能否在xx智能领域延续这种成功呢？我认为很难。llm的通用能力其实是得益于文本（以及图像）的符号完备性。文本的所有信息都可以作为符号被完备地记录下来，形成可供模型学习的data flow。因此通过提升算力可以使模型享受更多的data flow，从对符号的学习中获得关于这种符号的通用能力。

但是xx智能面对的现实世界是符号稀缺的：物体获得的重力，物体间的摩擦力，物体本身的物理属性，这些都是很难通过符号进行表达的信息。算力的提升很大可能也会对解决这些问题以及学习这些信息感到无能为力。

因此我很赞同周指导的观点。我们确实需要各种领域的共同发力，来帮助xx智能去做那些（可能永远）无法通过robot learning学会的东西。

知乎博主，夏染

格灵深瞳机器人与xx算法负责人

为什么说xx本体暂无定论！

近期，有几篇文章风靡xx和机器人工作者的朋友圈，其中不约而同提到了xx时代下需要的机器人构型的问题，周博宇老师提出了当前的时刻属于本体未定型的时刻，许华哲老师也讲xx的ImageNet时刻可能来源于一款稳定的构型，Pi的Chelsea Finn提到他们在向合作的硬件公司提供机器人的设计方案。刚好，前段时间围绕这个问题做了一番调研，由此结合我最近和几个朋友的探索，向大家分享一下对xx构型的一些观察和思考。

· 赵季老师（华科大博士，CMU博士后，前图森定位方向负责人），王雨浩（格灵深瞳、灵生科技xx算法实习生）：串联的六轴构型有奇异点，做了逆解后操作速度速度提不上来，不知道七轴能优化多少，猜测七轴的构型也不是很好。有关人形左右的七轴构型可能也会有奇异点过多导致速度或者精度的问题，也会有肩关节自由度和其他冲突影响数据采集和逆解问题导致VLA不好部署的问题，理论上七轴应该可以更灵活具备更好的避障空间，但七轴的构型设计值得更多的讨论。

· 陈思翔（北京大学HMI实验室博士，智源研究院实习生）：紧凑型的构型机械臂末段灵巧空间更大，而且适合遥操，非紧凑的构型甚至有些动作需要两只手控机械臂才能做出来，这种构型更方便操控

· 谭桦杰（北京大学HMI实验室硕士，智源研究院实习生）：推测Pi的方向是简化构型验证跨任务的scaling laws，复杂的自由度有冲突会对同一任务下的采集的数据质量、控制算法的求解以及xx模型的算法收敛都有影响。xx的研究者需要对本体的设计有更强的把控力。Reflex的肩后置，推测可以更好的触达并利用胸前空间，但这种构型容易自碰撞。

· 李栋梁（格灵深瞳机械臂方向研究员）：机械臂的发展从工业臂、协同臂到xx所需要的机械臂，这三种场景对机器人的需求是完全不一致的，工业臂要求更大的力量、速度与末端精度，但不需要很大很丰富的工作空间，协同臂要求更灵巧，更安全，对力量的要求更低，到了xx时代下，我们发现xx需要的臂更关注在比协同臂更灵巧的工作空间，比协同臂更大的力量，对末端精度的要求会有所放宽，更快的响应速度，让人更舒服的可操作性。是新的时代新的需求催生新的构型新的产品设计。

我们发现当前确实属于一个构型未定的时刻，手臂的构型还未和双足的曲膝设计一样进行充分的讨论。这种惊悚感受也来源于感受到太多初创与实验室在蒙着眼睛走路了，最终的xx也许是一脑多形的，但不是每一个产品都是对xx模型有贡献的也不是每个产品都能最终被选择的。能做出最好的模型的团队一定是对硬件sense也强的团队，一定是对机器人与xx敬畏的团队以及是开放开源系统性引导整个行业进步的团队。

其实有关传感器选型与排布，头部关节与腰膝关节也会有很多很多细节要考虑的。举个例子，格灵深瞳在22年做高铁与电网的巡检机器人设计时使用了不同款的RGBD相机，其中Realsense的D435i在低反光物体的深度效果很差，L515在室外光下几乎不可用，我们最终选择了Kinect的最新款相机，而这款相机已经停产了，奥比中光在售卖其替代款。格灵深瞳开源了商业级别的3D定位SLAM算法并为人形机器人做了适配，开源的考量很大一部分是看好新一代的机器人半球以及雷视一体的传感器，基于当前Livox mid360的算法将会被更新迭代，有关其他部分设计的例子还有很多很多。大家可以联系我多交流。

在后续的调研中，我感慨Pi是一个如柳树车库一样的厉害的组织，他们引领了这一波xx模型的迭代。但我又不解，为什么国内厂商在22-23年就在设计出来灵巧快速的直驱机械臂，是什么环境塑造了这样的团队，然后我找到了我猜测的一个答案。

未来将呈现机器人硬件的寒武纪大爆发，人们低估了运动控制中蕴含的智能

近期，Chelsea Finn，Physical Intelligence（PI）的联合创始人，现任斯坦福大学计算机科学与电子工程系副教授也在一期访谈中发表了她对未来xx本体形态的思考。

她在斯坦福大学期间开发的遥操作系统（teleoperation structure）在Mobile ALOHA机器人上的应用被认为是通用智能技术的里程碑之一。

以下内容为Chelsea Finn和自媒体创作者Elad Gil在No Priors播客节目上的对话实录，来源z potential公众号。

Chelsea Finn：我认为，如果有人想要创办一家机器人公司，我的主要建议是尽可能快速地学习，并迅速部署产品，在实践中学习并不断迭代。这可能是最重要的建议。尽快让机器人进入实际环境，从中汲取经验。

当然，我也不确定自己是否是给创业者提供建议的最佳人选，毕竟我自己才当了11个月的企业家。但这大概是我能给出的建议。

Elad Gil：这很棒啊！你在运营一家极具前景的初创公司，所以我认为你完全有资格为这个领域的创业者提供建议。最近我听说有一些团队在训练机器人模型时，会利用人类的观察数据作为训练集的一部分，比如从YouTube视频中提取信息，或者专门录制数据用于训练。你如何看待这种方法？

数据观察与数据生成

Chelsea Finn：我认为这些数据确实有很大的价值，但如果单纯依赖它们，可能难以走得太远。其实，这里可以做一些很有趣的类比。例如，如果你观看奥运会游泳比赛，即便你拥有和运动员相同的体能，仅仅通过观察他们的动作，你依然无法学会如何游泳。因为游泳不仅仅是力量的问题，而是需要练习如何控制自己的肌肉，才能完成那些动作。类似地，如果你想学会打网球，仅仅观看职业选手比赛并不能让你掌握技巧。

或许这些例子看起来有些夸张，因为它们涉及的是顶级运动员。但我之所以用这些比喻，是因为人类在运动控制方面已经是专家了，我们从婴儿时期起就不断训练自己的低阶运动能力，而机器人却完全不同。机器人需要从自身的物理体验中学习，而不仅仅是观察数据。因此，尽管观察数据可以帮助机器人扩展已有的经验，但它自身的实践数据才是不可或缺的。

Elad Gil：在这些案例中，数据的生成方式是怎样的？是机器人自己探索生成，还是人类引导它们完成某些动作？因为你刚才提到的“可迁移性”很有意思，哪些数据是具备可迁移性的，哪些不是呢？

Chelsea Finn：我们收集数据的方式有点像“操控木偶”。就像在 Aloha 研究中，我们记录了机器人执行任务时的所有数据，包括电机指令、传感器数据和摄像机图像，这些都是机器人的“体验”。

此外，自动化体验也会发挥重要作用。就像语言模型在初始训练后可以使用强化学习来自我优化一样，机器人模型也可以通过自主训练来增强自身能力。

至于哪些数据是可迁移的，哪些不是，这主要取决于数据的分布范围。但衡量这种“广度”其实并不容易。我们很难精确定义两个任务之间的差异，或者两座厨房环境的不同程度。但我们可以通过某些指标来粗略估计，比如数据涉及的建筑数量、场景的多样性等。

Elad Gil：我们刚才聊了很多关于人形机器人和其他形式的机器人。如果展望未来，你觉得最终会形成一个统一的机器人形态，还是会出现一个多元的生态系统，就像生物界那样？

未来机器人的形态

Chelsea Finn：我无法确定未来会是什么样，但我倾向于认为，未来的机器人世界将呈现出极其丰富的多样性。我的联合创始人Sergey曾形象地将其比作“机器人硬件的寒武纪大爆发”——一旦技术成熟，我们可能会看到各式各样的机器人形态。

我认为，这种情况就像我们日常生活中的厨房用具——我们不会只使用一台万能设备来完成所有烹饪任务，而是拥有各种专门的工具，比如搅拌机、咖啡机、烤面包机等。机器人也可能会朝着类似的方向发展。例如，在厨房里，可能会有一款专门设计用于烹饪的机械臂，配备针对该场景优化的硬件，同时成本也可以做到足够低廉。而在其他地方，比如折叠衣物、洗碗等任务，也可能会有专门的机器人设计。

当然，这只是我的个人推测，但我认为未来的机器人世界可能会与许多人当前的设想截然不同。

Elad Gil：在《钻石时代》这本书里，作者描绘了一种未来场景：每家每户都连接着“物质管道”，可以通过3D打印技术制造一切所需物品。某种程度上，这是一种进化导向的硬件生产方式——不断优化和选择功能最优的形态。你认为这样的未来是否可能实现？还是说，最终只需要少数几个强大的基础机器人形态，就能满足所有需求？

Chelsea Finn：我认为这样的未来是有可能的。而且，如果我们针对特定用途进行优化，我们确实可以制造出成本更低、效率更高的硬件。至于最终会是一个高度泛化的机器人形态，还是一个更加精细化、分工明确的机器人生态，这一点目前很难预测。

Elad Gil：的确，这个问题的答案非常难以确定。毕竟，从供应链的角度来看，硬件的种类越少，规模化生产的成本就会越低。因此，除非存在明显的成本优势，否则市场最终可能会倾向于较少的标准化硬件形态，因为它们更容易大规模制造、复制，并降低生产成本。

Chelsea Finn：确实如此。但也许，我们未来会有机器人来管理整个供应链，让它能够按需制造任何定制化设备。

Elad Gil：哈哈，那就是机器人“无处不在”的未来了。

参考

1、xx智能需要从ImageNet做起吗？ - 许华哲Harry的文章 - 知乎

https://zhuanlan.zhihu.com/p/1906157729292219201

2、xx智能：一场需要谦逊与耐心的科学远征 - 周指导BoyuZhou的文章 - 知乎

https://zhuanlan.zhihu.com/p/1906835485990565345

3、http://xhslink.com/a/z7oJxkQpQEPcb

4、为什么说xx本体暂无定论！ - 夏染的文章 - 知乎

https://zhuanlan.zhihu.com/p/1907422799246648973