51c自动驾驶~合集50

whaosoft-143

已于 2025-04-08 11:07:56 修改

阅读量594

点赞数 2

分类专栏：人工智能文章标签：人工智能

于 2025-02-11 22:35:13 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/145581314

版权

人工智能专栏收录该内容

364 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/13756479

#VLA 主流方案全解析

旨在让智能体在物理世界中通过感知、决策和行动来实现目标，而视觉 - 语言 - 动作（VLA）模型作为其中的关键技术，近年来备受关注。VLA 模型能够处理视觉、语言和动作信息，使智能体理解人类指令并在环境中执行相应任务。本文将结合相关论文及当前在线内容，对主流的 VLA 方案进行总结，包括其开源项目、核心思想、结论共识以及未来发展方向，希望能为关注领域的读者提供有价值的参考。

一、VLA 方案总览（一）基于经典 Transformer 结构方案

代表性开源项目：ALOHA(ACT)系列、RT-1、HPT等。
核心思想：利用强化学习轨迹与序列建模问题结构的自然对齐性，采用 Transformer 模型进行建模。这种方法通过对状态 - 动作 - 奖励序列的建模，有效提升了模型在复杂环境中的决策能力。例如，在机器人控制任务中，模型可以根据过去的状态和动作序列，预测未来的最优动作，从而更好地适应复杂环境中的变化。

（二）基于预训练 LLM/VLM 方案

代表性开源项目：RT - 2、OpenVLA 等。
核心思想：将 VLA 任务视为一个序列到序列的生成问题，利用预训练的语言模型（LLM）或视觉语言模型（VLM）来处理视觉和语言信息，并生成相应的动作。以 RT - 2 为例，它通过共同微调，使模型适应互联网规模的视觉问答数据和机器人数据，从而增强模型的泛化能力和涌现能力。该模型在处理复杂任务时，能够借助预训练模型对语言和视觉信息的理解，更准确地生成合适的动作指令，为机器人在复杂任务中的执行提供了有力支持。

（三）基于扩散模型方案

代表性开源项目：Diffusion Policy、RDT - 1B 等。
核心思想：将机器人策略建模为去噪扩散概率模型（DDPM），通过逐步去噪的过程生成动作。Diffusion Policy 通过创新技术，如后退视域控制、视觉条件和时间序列扩散变压器，在多模态动作分布、高维动作空间和训练稳定性方面表现出色。在面对高维动作空间和复杂的动作分布时，该模型能够有效地生成稳定且多样化的动作，为机器人在复杂环境中的动作生成提供了新的思路和方法。

（四）LLM + 扩散模型方案

代表性开源项目：Octoπ0 等。
核心思想：结合 LLM 和扩散模型的优势，LLM 用于压缩多模态表征，扩散模型作为动作专家精细化输出动作轨迹。Octoπ0 利用这种组合，在不同机器人和任务中实现了正向转移和泛化，提高了模型在复杂任务中的性能和适应性。例如，在多模态信息处理中，LLM 可以对视觉和语言信息进行初步的理解和整合，然后扩散模型根据这些信息生成精确的动作轨迹，使机器人能够更好地完成任务。

（五）视频生成 + 逆运动学方案

代表性开源项目：UniPiRo、BoDreamer、UniSim、GR - 1/GR - 2 等。
核心思想：先根据首帧和指令生成运动视频，再通过逆运动学得到对应的动作。这种方法通过视频生成模型预测未来状态，然后利用逆运动学将预测的状态转换为可执行的动作，提高了动作生成的可解释性和准确性。以 UniPiRo 为例，它根据给定的初始帧和指令生成运动视频，该视频展示了机器人在未来一段时间内的预期运动轨迹，然后通过逆运动学将视频中的状态转换为具体的关节动作，使机器人能够按照预期轨迹运动，在机器人控制任务中具有重要意义。

（六）显示端到端 VLA 方案

代表性开源项目：众多端到端 VLA 模型，如部分基于 Transformer 的模型等。
核心思想：将视觉语言信息压缩成联合的表征，再映射到动作空间生成动作。这些模型通过直接处理多模态信息，减少了中间环节的信息损失，提高了模型的效率和准确性。在实际应用中，模型可以直接从视觉和语言输入中提取关键信息，快速生成相应的动作。例如，模型在接收到 “将蓝色杯子从桌子上拿起并放到厨房的架子上” 的指令和对应的视觉场景后，能够直接对视觉中的物体进行识别、定位，结合语言指令理解任务目标，然后生成一系列精确的动作指令，如控制机械臂移动到杯子上方、调整夹爪姿态、抓取杯子、移动到架子位置并放置杯子等，整个过程无需复杂的中间转换，有效提高了机器人的响应速度和执行准确性。

（七）隐式端到端 VLA 方案

代表性开源项目：如利用人类视频训练世界模型的相关项目（如 SWIM 等）。
核心思想：利用当前的视频扩散模型预测未来状态，再通过逆运动学生成动作，同时注重提高模型的可解释性。例如，SWIM 通过使用人类视频训练世界模型，并结合视觉可供性地图推断目标姿势，实现了知识从人类数据到机器人控制的有效转移。该模型从人类视频中学习到人类在不同场景下的行为模式，然后利用这些知识预测机器人在相似场景下应采取的动作，为机器人在复杂环境中的决策提供了更可靠的依据。

（八）分层端到端 VLA 方案

代表性开源项目：结合了高层任务规划和低层控制策略的分层模型（如一些包含 LLM 作为高层规划器的项目）。
核心思想：充分利用大小模型的特点，高层任务规划器将复杂任务分解为子任务，低层控制策略执行子任务，以提升模型的泛化性和执行效率。这种分层结构使模型能够更好地处理长时域任务，提高了机器人在复杂任务中的执行能力和适应性。例如，在执行 “整理房间” 这样的长时域任务时，高层规划器可以将任务分解为 “捡起物品”“移动到指定位置”“放置物品” 等子任务，低层控制策略则负责具体执行这些子任务，使机器人能够有条不紊地完成整个任务。

二、方案对比与结论共识（一）模型架构与信息融合

在模型架构方面，不同方案探索了多种融合视觉和语言输入的方法。例如，基于经典 Transformer 结构的方案通过特定的网络结构设计来整合多模态信息；基于预训练 LLM/VLM 的方案则借助预训练模型的强大表征能力进行信息融合。
结论共识是，合适的架构设计对于实现高效的视觉 - 语言 - 动作交互至关重要。不同架构在处理多模态信息时有其优势和局限性，如某些架构在处理长序列信息时表现较好，而另一些在模型参数效率上更具优势。例如，Transformer 架构在处理长序列数据时能够有效捕捉信息之间的依赖关系，但可能需要较大的计算资源；而一些基于卷积神经网络的架构在参数效率上可能更高，但在处理长序列信息时可能存在一定困难。

（二）动作类型与训练目标

动作类型上，多数低层级控制策略预测末端执行器的位姿，但不同方案在动作表示和处理方式上存在差异。例如，一些方案采用离散动作表示，而另一些则采用连续动作表示。
训练目标方面，包括行为克隆（BC）、强化学习等多种方式。不同训练目标对模型的性能和泛化能力有不同影响，例如 BC 在模仿学习中广泛应用，但其在不同动作类型下的实现方式和效果有所不同。以 RT - 1 为例，它采用离散动作表示，通过行为克隆的方式进行训练，在一些简单任务中表现出较好的性能，但在处理需要连续动作的复杂任务时可能存在一定局限性。
总体而言，选择合适的动作类型和训练目标需要综合考虑任务需求、模型性能和数据可用性等因素，以实现高效的动作生成和优化。例如，在需要精确控制动作的任务中，连续动作表示可能更合适；而在数据量有限的情况下，行为克隆等基于已有数据的训练方式可能更具优势。

（三）LLM 与非 LLM 方案

LLM - 基于方案（如 RT - 2 等）在指令理解和复杂任务处理上具有优势，能够更好地解析用户意图。然而，其训练成本高且部署速度可能较慢，在动态环境中可能面临推理延迟的问题。例如，RT - 2 在理解复杂语言指令方面表现出色，但由于其模型规模较大，训练过程需要大量的计算资源和时间，并且在实时性要求较高的动态环境中，可能因为推理速度较慢而影响机器人的响应及时性。
非 LLM 方案（如一些早期的基于经典 Transformer 结构的方案）虽然在指令理解能力上相对较弱，但在特定场景下，如对实时性要求较高的任务中，可能因其简单高效的特点而表现出色。例如，一些基于经典 Transformer 结构的模型在处理简单指令和实时性要求高的任务时，能够快速生成动作，保证机器人的高效运行。
未来的发展可能需要在两者之间寻求平衡，或者探索新的方法来充分发挥它们的优势，克服各自的局限性。例如将 LLM 与非 LLM 模型进行协同工作，利用 LLM 进行高层任务规划和指令解析，非 LLM 模型负责底层动作执行和实时控制，实现更强大、高效和智能的 VLA 系统。

（四）RT 系列模型的发展与影响

RT - 1 作为开创性的 “Robotic Transformer” 模型，激发了一系列后续工作。其后续模型如 RT - 2、RTX 等在数据集规模、模型架构和性能上不断改进。

RT - 1 模型特点与贡献：RT - 1 是首个用于机器人的 Transformer 模型，其输入包括头部视角历史长度 T = 6 的 300x300 的图像以及语言指令。它采用了 FiLM conditioned EfficientNet - B3 作为图像 Encoder，直接融合视觉和语言信息（VL），将每张图经过处理得到 9x9x512 的 VL 融合后的 token，再通过 tokenlearner 将每张图的 81 个 token 变为 8 个 token，最终得到 8*6 = 48 个 token。Language Encoder 使用 Universal Sentence Encoder 得到 512 维向量。Decoder/Policy Head 采用 decoder - only Transformer，包含 8 个自注意力层，模型参数达 19M，输出为 11D 的离散动作空间，涵盖手臂、基座的扭矩、夹爪位置、旋转等信息。
RT - 2 的改进与创新：RT - 2 基于 ViT 和 LLM，引入了共同微调的训练方式，使其能适应互联网规模的视觉问答数据和机器人数据。它在 RT - 1 的基础上，进一步提升了模型的泛化能力和涌现能力，为机器人在更复杂任务中的执行提供了支持。
RTX 的优化与提升：RTX 模型重新使用了 RT - 1 和 RT - 2 模型，并利用新引入的开源大型数据集 Open X - Embodiment（OXE）进行训练。OXE 数据集包含 160,266 个任务、527 个技能和 22 个实施例，规模比以前的数据集大得多。因此，RTX 模型（包括 RT - 1 - X 和 RT - 2 - X）在性能上超越了其原始版本，展现了数据集规模对模型性能提升的重要性。

结论共识是，随着数据集的扩大和模型架构的优化，RT 系列模型在实际应用中的性能逐步提升，展示了基于 Transformer 架构在领域的潜力。同时，也为其他 VLA 模型的发展提供了重要的参考和借鉴。例如，其他模型可以借鉴 RT 系列模型在数据利用、架构设计等方面的经验，不断改进自身性能，推动 VLA 技术的发展。

三、未来方向（一）数据稀缺问题

目前，获取足够的真实世界机器人数据仍然是一个重大挑战，收集过程耗时且资源密集。例如，在实际环境中收集机器人操作数据需要大量的人力、物力和时间投入，而且不同环境和任务下的数据多样性难以保证。
未来的方向包括开发更高效的数据收集方法，如利用自动化数据收集技术（如 RoboGen、AutoRT 等），以及通过模拟环境生成更多样化的数据来缓解数据稀缺问题。RoboGen 可以通过生成式模拟范式提出有趣的技能，模拟相应环境并选择最优学习方法来训练策略获取数据；AutoRT 则能作为机器人编排器，由 LLMs 驱动生成任务，筛选后利用自主策略或人工远程操作收集和评估数据。同时，改进数据标注技术和提高数据质量也是关键，例如采用更先进的标注工具和算法，确保数据的准确性和一致性，从而为模型训练提供更优质的数据。

（二）运动规划能力提升

当前运动规划模块在处理复杂环境中的任务时，往往缺乏足够的灵活性和精确性，限制了机器人与工具交互、在复杂环境中导航和执行高精度操作的能力。例如，在复杂的操作任务中，机器人可能难以精确地抓取和放置物体，或者在狭窄空间中导航时容易出现碰撞等问题。
未来需要开发更强大的运动规划算法，结合深度学习和传统规划方法的优势，提高机器人在复杂环境中的运动规划能力。例如，通过强化学习优化运动轨迹生成，使机器人能够根据环境反馈不断调整动作，找到最优的运动路径；引入基于模型的预测控制方法，提高动作的准确性和稳定性，确保机器人在执行任务时能够精确控制动作的力度、方向和速度等参数。

（三）实时响应性增强

许多机器人应用对实时决策和动作执行有严格要求，但现有 VLA 模型在处理复杂任务时可能面临延迟问题。例如，在一些需要快速响应的场景中，如工业生产线上的机器人操作或自动驾驶中的决策，模型的推理延迟可能导致生产效率降低或安全风险增加。
未来研究需优化模型架构与算法提升计算效率、缩减推理时间，确保机器人在实时性场景快速响应。比如探索高效架构、减少计算层与参数，或用并行计算技术加速。硬件层面优化计算资源分配利用也重要，研发专用加速器，优化软硬件协同，使资源高效服务模型推理，让机器人在实时性要求高的场景稳定准确运行，像智能仓储物流中快速分拣运输货物，救援场景中迅速决策行动。

（四）多模态信息融合优化

虽然在多模态信息融合方面已经取得了一定进展，但实现视觉、语言和动作信息的最优融合仍然是一个挑战。目前的模型在融合不同模态信息时，可能存在信息丢失、模态间对齐不准确等问题。例如，在处理包含复杂场景和模糊指令的任务时，模型可能无法准确地将视觉信息与语言指令进行匹配，从而导致动作执行的不准确。
未来需要进一步研究多模态表示学习、融合技术和任务特定适应方法，以提高模型对多模态信息的理解和处理能力。例如，探索更有效的跨模态注意力机制，使模型能够更加关注不同模态信息之间的关联部分，从而更好地整合信息；开发新的多模态特征融合方法，将视觉、语言和动作的特征进行更有效的融合，提高特征的表达能力；针对不同任务的特点，设计专门的适应方法，使模型能够根据任务需求灵活调整信息融合策略，从而做出更准确的决策。

（五）泛化能力提升

一个真正通用的机器人系统应能够在不同的、未见过的场景中理解和执行自然语言指令，但目前模型在面对新场景、新任务和新对象时的泛化能力仍有待提高。例如，在一个新的家庭环境中，机器人可能无法理解与之前训练场景稍有不同的指令，或者在处理新类型的任务时表现不佳。
未来的研究方向包括开发更具适应性和可扩展性的 VLA 架构，通过元学习、域适应等技术提高模型在不同场景下的泛化能力。元学习可以让模型学习如何快速适应新任务，从少量的样本中获取有效的学习策略；域适应技术则有助于模型在不同领域或场景之间迁移知识，减少对大量特定场景数据的依赖。使机器人能够快速适应新环境和任务需求，实现更广泛的应用，例如在不同的工业场景、家庭环境或户外环境中都能准确执行任务。

（六）长时域任务执行改进

对于像 “清洁房间” 这样的长时域任务，当前的高层任务规划器虽然取得了一定进展，但在处理复杂任务序列和应对环境变化时仍存在不足。例如，在执行清洁房间任务时，可能会遇到意外情况，如物品位置变动或新物品出现，当前规划器可能难以实时调整任务计划。
未来需要设计更高效的规划器，赋予机器人更强的感知能力和更丰富的常识知识，以更好地规划和执行长时域任务。例如，结合强化学习和基于搜索的规划方法，强化学习可以让机器人在执行任务过程中根据环境反馈不断优化动作选择，基于搜索的规划方法则能在遇到复杂情况时快速探索不同的解决方案；引入语义理解和知识图谱技术，使机器人能够理解任务的语义信息，利用知识图谱中的常识知识更好地应对各种情况，从而更好地完成复杂的长时域任务。

（七）基础模型探索与优化

目前对于 VLA 在机器人任务中的基础模型探索仍处于初级阶段，面临着不同机器人形态、环境和任务的多样性挑战，以及孤立数据集和评估设置的问题。不同类型的机器人在结构、运动方式和感知能力上存在差异，现有的基础模型难以直接适应各种情况。同时，数据集的多样性和评估标准的不统一也限制了模型的发展。
未来需要利用互联网规模的具身数据集和先进的多模态模型，构建更强大、通用的基础 VLA 模型。互联网上丰富的多模态数据可以为模型提供更广泛的知识和信息，有助于提高模型的泛化能力。同时，建立统一的评估标准和基准，促进模型的比较和改进，使研究者能够更准确地评估模型的性能，推动 VLA 技术在机器人领域的广泛应用。

（八）多智能体系统协作发展

在大规模机器人部署场景中，多智能体协作面临着通信、任务分配和异构性等挑战，尽管多智能体系统具有潜在优势，但目前尚未充分发挥。例如，在多机器人协同执行任务时，机器人之间可能存在通信延迟或信息不一致的问题，导致任务执行效率低下；不同类型的机器人在能力和功能上存在差异，如何合理分配任务是一个难题。
未来的研究需要聚焦于开发有效的多智能体协作算法和通信协议，提高智能体之间的协同效率和任务分配的合理性。同时，研究如何处理异构智能体之间的差异，实现更高效的分布式感知、协作故障恢复和自主舰队维护，以充分发挥多智能体系统在复杂任务中的优势。

（九）安全与伦理考量

随着机器人在现实世界中的应用越来越广泛，安全问题至关重要，确保机器人系统的安全性需要在开发和部署过程中综合考虑多种因素。在机器人与人类共同工作或生活的场景中，如工厂、医院、家庭等，机器人的任何错误动作都可能对人类造成伤害。例如，在工业生产中，机器人可能因故障或错误指令而发生碰撞，对操作人员造成身体伤害；在家庭环境中，服务机器人可能因误解指令而损坏物品或对家庭成员造成意外。
未来需要将现实世界的常识和复杂推理融入机器人系统，建立强大的安全机制、风险评估框架和人机交互协议，以保障机器人在各种场景下的安全运行。例如，通过知识图谱等技术为机器人注入常识知识，使其能够理解行为的后果并避免危险操作；建立实时风险评估系统，对机器人的动作进行风险预测，及时采取措施避免事故发生。同时，随着机器人决策过程的日益复杂，提高模型决策的可解释性和透明度，对于增强机器人的安全性和可信度至关重要。此外，还需要关注机器人应用带来的伦理和社会影响，制定相应的规范和准则，确保机器人技术的合理、负责任发展。例如，在就业方面，机器人的广泛应用可能导致部分工作岗位被替代，需要制定相关政策来应对这一变化；在隐私保护方面，机器人在收集和处理数据过程中需要遵循严格的隐私法规，保障用户的个人信息安全。

四、总结

本文详细总结了中 VLA 的主流方案，包括基于经典 Transformer 结构、预训练 LLM/VLM、扩散模型、LLM + 扩散模型、视频生成 + 逆运动学以及不同类型的端到端方案。通过对各方案的开源项目和核心思想的介绍，对比了它们在模型架构、动作类型、训练目标等方面的特点，得出了相应的结论共识。同时，探讨了 VLA 面临的数据稀缺、运动规划、实时响应、多模态融合、泛化能力、长时域任务执行、基础模型、多智能体协作以及安全伦理等挑战，并展望了未来的发展方向。随着技术的不断进步，相信 VLA 将在领域取得更大的突破，为机器人的智能化发展提供更强大的支持，推动其在众多领域的广泛应用，如制造业中的自动化生产、医疗领域中的手术辅助、家庭服务中的日常任务协助等，从而极大地提高生产效率、改善生活质量并拓展人类的活动范围。但在发展过程中，也需要充分考虑各种潜在问题，确保技术的健康、可持续发展。

#Ultra-AV

新基准！威斯康星大学开源：统一自动驾驶纵向轨迹数据集

自动驾驶车辆在交通运输领域展现出巨大潜力，而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足，从而限制了有效的性能度量分析和模型开发。

本研究针对这些挑战，构建了一个（Ultra-AV），用于分析自动驾驶汽车的微观纵向驾驶行为。该数据集整合了来自14 个的数据，涵盖多种自动驾驶汽车类型、测试场景和实验环境。我们提出了一种数据处理框架，以获得高质量的纵向轨迹数据和跟驰轨迹数据。最后，本研究通过对安全性、通行效率、稳定性和可持续性等多个性能维度的评估，以及对跟驰模型变量之间关系的分析，验证了数据的有效性。我们的工作不仅为研究人员提供了标准化的数据和指标，用于分析自动驾驶汽车的纵向行为，还为数据采集和模型开发提供了指导方法**。

介绍

理解自动驾驶汽车的纵向驾驶行为对于确保其安全性和优化交通流至关重要。然而，现有的开源自动驾驶汽车轨迹数据集缺乏精细的数据清理和标准化，导致：

数据质量不均，影响模型开发和性能评估。
缺乏完整性和可靠性，难以进行跨数据集研究。
分析效率低，影响AV安全测试和仿真研究。

本研究提出了一种统一的自动驾驶汽车纵向轨迹数据集（Ultra-AV），有以下特点：

大规模数据集： 数据总量 2.6GB，涵盖 14 个不同的自动驾驶数据源，涉及 30 多种测试和实验场景，包含 超过 1000 万个数据点，相当于 280 小时以上的行驶数据。
标准化数据格式： 统一不同数据源的数据格式，使其适用于跨数据集研究。
数据处理框架： 提供一种高效的数据处理方法，提高数据的可用性，支持自动驾驶仿真测试和行为建模。

方法

如图所示，我们的统一数据集涵盖了14个不同来源的数据集。这些数据集收集自美国和欧洲的多个城市，确保了所选城市的多样性和代表性，使研究具备更广泛的适用性。

此外，大多数被整合的数据集都包含自动驾驶汽车的长时间轨迹，这些数据广泛应用于自动驾驶行为分析。然而，一些特定数据集，如 Waymo Open Dataset中的 Waymo Motion Dataset 和Argoverse 2 Motion Forecasting Dataset，其轨迹时间较短，分别为9.1 秒和11 秒（采样频率为 10Hz）。这些数据集主要用于Motion Forecasting领域的研究，尽管轨迹较短，但其采集地点通常位于复杂交通环境中的市区，能够提供在复杂场景下分析自动驾驶行为的机会。因此，本研究特别包含了对这两个数据集的分析，以确保数据集的全面性和适用性。

本研究提出了一种数据处理框架，用于标准化并清理自动驾驶汽车轨迹数据。该框架包含以下三步。

Step 1: 轨迹数据提取
从多个AV数据集中提取统一格式的纵向轨迹数据，包括汽车位置、速度、车头时距等关键变量。关键变量如下：

变量	描述
Trajectory ID	轨迹数据的唯一标识
Time Index	轨迹数据时间索引
LV Position	领航车（LV）位置
LV Speed	领航车速度
FAV Position	跟驰车（FAV）位置
FAV Speed	跟驰车速度
Space Headway	车头间距
Speed Difference	车速差

针对处理过后的数据，我们通过三个方面对数据进行验证分析。

Step 2: 通用数据清理
为了提高数据的可靠性，采用以下清理策略：

移除异常值： 删除超过均值 ± 标准差的数据点。
缺失值填补： 删除时间戳不连续的数据点，并采用线性插值补全缺失数据。
轨迹数据重构： 重新整理数据结构，确保数据的可解释性。

Step 3: 数据特定清理
针对车队跟驰场景，设定阈值去除异常数据，以提高分析准确性。下图展示了处理后的数据分布。其中分别代表车头间距，车速，车速差，和加速度。

数据采集

结合作者所在课题组的数据方案和文献，我们认为目前自动驾驶汽车的数据采集通常来自多种高精度传感器的数据整合，包括LiDAR（激光雷达），*GPS（全球定位系统），DSRC（车载通信单元），高清摄像头等。图中显示了作者课题组基于Lincoln MKZ的自动驾驶汽车测试平台。

关键性能指标

为评估自动驾驶汽车的性能，我们采用以下性能指标：

安全性指标： Time-to-Collision （）。
稳定性指标： 加速度变化率（）。
可持续性指标： 燃油消耗（）。
通行效率指标： 车头时距（）。

分析结果如图所示。

跟驰模型开发

最后，为了分析自动驾驶汽车的纵向行为，本研究探讨了加速度与输入变量（车头间距、车速和车速差）之间的关系。下图绘制了这些变量之间的散点图，其中y轴是加速度，绿/黄/橙色图片的横轴分别代表车头间距，车速，以及车速差。可以看出，车头间距和车速差对加速度的影响显著，而加速度与车速之间无明显线性关系。其中，加速度与车头间距呈非线性正相关，与车速差呈线性负相关。

结论

本研究回顾了多个自动驾驶轨迹数据集，并开发了统一自动驾驶纵向轨迹数据集，主要贡献包括：

标准化纵向轨迹数据集 - 统一并清理不同数据源的数据，提高数据可用性。
高质量的跟驰数据集 - 通过去噪和数据清理，保证数据分析的准确性。
跟驰行为分析 - 研究加速度与输入变量之间的非线性关系。

本文的连接和相关代码、数据可以在以下链接里找到：

Ultra-AV 数据集论文 - Scientific Data
GitHub 代码仓库 - Ultra-AV Dataset

#Doracamom

实现首个LV多模态融合的统一多任务感知算法框架~

自动驾驶技术是现代交通革命的前沿，备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件，以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础，主要侧重于 3D目标检测和语义占用预测任务。3D 目标检测使用 3D 边界框来定位场景中的前景目标并预测类别和速度等属性，属于稀疏场景表示。

相比之下，语义占用使用细粒度体素表示来捕捉场景的几何和语义特征，这是一种密集场景表示形式。为了完成这些任务，通常使用摄像头、激光雷达和毫米波雷达等传感器来收集环境数据作为输入。在这些传感器中，LiDAR 采用飞行时间 (TOF) 原理，发射和接收激光束以生成密集点云，提供环境的高精度几何表示。然而，LiDAR 易受恶劣天气影响，且成本高昂。相比之下，摄像头和毫米波雷达更具成本效益，适合大规模部署。摄像头可以高分辨率捕捉丰富的颜色和纹理信息，但缺乏深度信息，容易受到天气干扰。

另一方面，毫米波雷达发射电磁波来探测目标距离、多普勒和散射信息，从而能够抵御天气条件。4D 成像雷达是传统毫米波雷达的一项进步，它不仅包含额外的高度信息，而且还提供比传统 2 + 1D雷达更高分辨率的点云。最近的研究表明，它在各种下游任务中具有相当大的前景。然而，与激光雷达相比，它的点云仍然稀疏且嘈杂。因此，跨模态融合对于有效弥补这些缺点至关重要，强调了整合来自摄像头和4D雷达的信息的必要性。

近年来，尤其是随着4D雷达数据集的出现，4D 雷达和摄像机融合研究在感知领域显示出巨大的潜力。目前，大多数主流融合技术都采用BEV架构，将原始传感器输入转换为 BEV 特征进行融合。对于占用预测任务，大多数研究集中在以视觉为中心或视觉和 LiDAR 融合上，因为占用预测任务需要细粒度的体素表示和语义信息。传统雷达缺乏高度信息，不适合 3D 占用预测。相比之下，4D 雷达通过访问高度信息和更高分辨率的点云提供了新的可能性。此外，将3D目标检测和占用预测作为两个关键感知任务集成在统一的多任务框架内，可以优化计算资源和效率，带来实质性的效益。

因此，在本文中我们提出了首个将多视角相机和4D雷达点云融合的统一框架Doracamom，同时处理3D目标检测和语义占用预测任务。在OmniHDScenes、View-of-Delft (VoD) 和 TJ4DRadSet 数据集上进行的大量实验表明，Doracamom在两个任务中都取得了最先进的性能，为多模态 3D 感知建立了新的基准。

文章链接：https://arxiv.org/abs/2501.15394；

网络模型结构&技术细节

在详细介绍了本文提出的算法模型技术细节之前，下图展示了我们提出的Doracamom算法模型的整体网络结构，如下图所示。

整体而言，多视角图像和 4D 雷达点云被输入到摄像头和 4D 雷达编码器中，分别提取图像 2D 特征和 4D 雷达 BEV 特征。然后将这些特征传递给粗糙体素query生成器，该生成器结合图像和雷达特征来生成几何语义感知的粗粒度体素query。体素query编码器使用交叉视图注意力通过堆叠的transformer block迭代增强细粒度体素特征。

Camera & 4D Radar Encoders

在特征提取阶段，我们采用解耦架构，从两个输入模态中独立提取高维特征。相机编码器处理多视角图像，使用共享的ResNet-50 主干网络和特征金字塔网络作为Neck结构进行特征提取，从而获得多尺度特征。为了解决 4D 雷达点云的稀疏性问题并通过消除自车运动效应来获取其速度，我们实施了结合多帧雷达点云累积和速度补偿的预处理流程。该算法使用相应的自车车辆速度来处理每次雷达扫描，并通过雷达到自车的旋转矩阵将其转换到雷达坐标系中。为了补偿相对径向速度，根据每个点的方位角和仰角，将速度矢量分解为径向方向。然后使用旋转矩阵将补偿的速度变换到当前自车坐标系。对于每个点的位置，使用雷达到自车的变换矩阵实现变换。请注意，在累积操作期间会忽略由周围动态物体的运动引起的点的运动，因为这种运动很少会引入较大的误差。

4D Radar编码器处理输入的点云数据。我们采用RadarPillarNet来编码输入的4D毫米波雷达点云数据，进而通过分层特征提取生成伪图像。编码后的特征随后由 SECOND 和SECONDFPN 处理，以生成精细的4D雷达BEV特征。

Coarse Voxel Queries Generator

为了减少计算开销，我们设置了体素网格的BEV平面分辨率。虽然现有方法通常使用随机初始化来生成体素查询，但这种方法可能会给模型训练过程带来额外的复杂性。为了解决这一限制并提高视图变换的保真度，我们引入了一种新颖的初始化方法，该方法将从 4D 雷达数据中得出的几何先验与从图像中提取的语义特征相结合。这种集成使得能够生成具有几何和语义先验的粗粒度体素query，为后续细化程序奠定了更坚实的基础。

在雷达特征处理阶段，我们首先通过双线性插值将雷达 BEV 特征转换为与体素网格对齐，随后，我们使用 Conv-BN-ReLU进一步优化特征通道。通过应用简单的unsqueeze操作沿高度维度扩展 2D BEV 特征，我们获得了雷达 3D 体素特征，可以用数学形式表示为如下的形式

对于图像特征处理，我们首先根据3D体素query的形状在自车坐标系内定义 3D 参考点。同时，我们将体素特征初始化为零。然后使用相机的固有矩阵计算从自车坐标系到图像像素坐标的变换矩阵。

我们将参考点投影到每个图像平面上，以获得它们在特征图上的对应坐标。有效点由两个标准确定：必须位于特征图边界内并且一定是正数。特征采样过程采用最近邻插值，并采用“last-update”策略解决重叠的多视图区域。最终的粗粒度体素查询是通过元素相加获得的：

Voxel Queries Encoder

为了增强和细化体素查询，我们采用基于L层Transformer 的架构进行特征编码。我们采用可变形注意力进行跨视图特征聚合，这不仅可以缓解遮挡和歧义问题，还可以通过减少训练时间来提高效率。在跨视图注意模块中，输入包括体素查询、相应的 3D 参考点和图像特征。使用相机参数将 3D 参考点投影到2D 视图中，并从命中视图中采样和加权图像特征。输出特征可以表示为如下的形式：

Dual-branch Temporal Encoder

时序信息在感知系统中起着至关重要的作用。现有的相关方法已经证明，利用时序特征可以有效解决遮挡问题，增强场景理解，并提高运动状态估计的准确性。然而，这些方法仅限于在单个特征空间中进行时间建模，因此很难捕获全面的时空表示。为了解决这一限制，我们提出了一种新颖的双分支时序编码器模块，该模块在 BEV 和体素空间中并行处理多模态时间特征，其网络结构如下图所示。

具体而言，雷达 BEV 分支擅长捕获全局几何特征，而图像体素分支则专注于保留细粒度的语义信息。这种互补的双分支设计不仅在特征表达和时序建模方面提供了多样化的表示能力，而且还实现了计算成本和特征表达能力之间的优化平衡。此外，特征冗余机制显著增强了感知系统的鲁棒性。

在时序特征融合中，一个关键挑战是自车运动和动态物体运动导致的特征错位。为了解决自车运动引起的特征位移，我们提出了一种基于位姿变换的特征对齐策略，该策略可将历史特征与当前帧精确对齐。此外，为了进一步减轻动态物体造成的特征错位问题，我们采用可变形注意来自适应地融合当前帧和历史帧之间的特征。在体素时序分支当中，我们通过连接对齐的历史特征并通过简单的Res3D块对其进行处理，以实现高效的特征集成过程。

在 BEV 时序分支当中，我们也应用了类似的处理过程。历史 BEV 特征被concat到一起并通过 Res2D 块进行处理

Cross-Modal BEV-Voxel Fusion Module

为了有效利用体素和 BEV 空间的时序增强特征，我们提出了一个跨模态 BEV-体素融合模块，该模块为下游多任务解码生成几何和语义丰富的多模态表示。其整体网络结构如下图所示，该模块通过注意力加权机制自适应地融合异构特征，同时采用辅助任务进一步提高生成特征的质量。

具体来说，该模块首先通过 3D 反卷积块对低分辨率体素特征进行上采样，以获得高分辨率特征，以便随后进行融合。对于体素特征增强，首先通过 2D 中的 Conv-BN-ReLU 块处理雷达 BEV 特征以重塑特征通道，然后进行解压缩操作，沿高度维度扩展 2D BEV 特征。然后将扩展的特征与体素特征连接起来，并通过卷积块进行处理以降低通道维度。最后，采用具有注意机制的残差结构来获得融合的特征。

实验结果&评价指标

下表展示了不同方法在 OmniHD-Scenes 测试集上针对 3D 检测任务的性能比较。与其他基于 4D 雷达、摄像头或它们融合的方法相比，我们提出的 Doracamom 实现了卓越的整体性能（39.12 mAP 和 46.22 ODS）。具体来说，它比 BEVFusion 好 5.17 mAP 和 3.22 ODS，同时比 RCFusion 好 4.24 mAP 和 4.69 ODS。即使在没有 DTE 模块的单帧设置中，我们的模型在 mAP 方面也优于所有其他方法。此外，Doracamom 显著缩小了与基于 LiDAR 的 PointPillars（46.22 ODS vs. 55.54 ODS）的性能差距，这证明了我们提出的架构的有效性以及低成本传感器配置在自动驾驶感知系统中的巨大潜力。在 TP 指标方面，我们的方法在 mAOE 和 mAVE 中都取得了最佳性能，分别达到 0.3545 和 0.6151。

下图所示的可视化结果表明，Doracamom 可以在白天和夜晚场景中提供可靠的性能。它在拥挤和复杂的场景中实现了较高的检测精度，只有偶尔漏检远处被遮挡的物体。

此外，下图展示了不同方法的 BEV 特征图。可以观察到，Doracamom 的特征图显示出清晰的物体边界和高度可区分的特征，并且没有物体严重拉伸或扭曲等重大问题。

下表展示了不同方法在 OmniHDScenes 验证集上针对占用预测任务的性能比较。与其他方法相比，我们提出的 Doracamom 实现了卓越的整体性能（33.96 SC IoU 和 21.81 mIoU）。当 BEVFormer 使用更大的主干网络（R101-DCN）和更高分辨率的图像输入时，其性能超越了结合摄像头和 4D 雷达数据的多传感器融合方法，如 M-CONet。尽管如此，凭借我们精心设计的架构，即使是Doracamom-S 也比BEVFormer-T 的性能高出 +1.72 SC IoU 和 +2.00 mIoU。

此外，下表展示了不同模型在不利条件下的表现，其中 Doracamom算法模型取得了更好的结果，mAP 为 41.86，ODS 为 48.74，持续优于其他方法，并表现出更强的稳健性。

下表展示了不同模型在资源消耗和效率方面的比较。与现有方法相比，我们的 Doracamom 系列模型在性能和效率之间表现出色。在资源消耗方面，Doracamom-S 仅需要 4.71G 内存和 49.63M 参数，比 BEVFusion（约 8G 内存和 57M 参数）和 PanoOcc（5.03G 内存和 51.94M 参数）更轻量。即使包含 2 个帧，Doracamom-2frames 也能保持相对较低的资源使用率（4.72G 内存，52.67M 参数）。在推理效率方面，Doracamom-S 和 Doracamom-2frames 分别达到 4.8FPS 和 4.4FPS，明显优于 BEVFusion 系列（3.2-3.6FPS）。虽然比 PanoOcc (5.5FPS) 稍慢，但我们的模型表现出了显著的性能优势：Doracamom-2frames 在所有评估指标中都实现了最佳性能，大大超越了其他方法。

结论

在本文中，我们提出了 Doracamom算法模型，这是第一个具有多视角相机和 4D 雷达融合的统一多任务感知框架。在 OmniHD-Scenes、VoD 和 TJ4DRadSet 三个数据集上的实验结果表明，我们的方法在 3D 目标检测和 3D 语义占用预测任务中都实现了最先进的性能。

#HERMES

首个统一3D场景理解与生成的自动驾驶世界模型

本篇分享论文HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation，介绍首个统一3D场景理解与生成的自动驾驶世界模型。

论文：https://arxiv.org/abs/2501.14729
仓库：https://github.com/LMD0311/HERMES
主页：https://lmd0311.github.io/HERMES/

背景

在自动驾驶领域，世界模型（Driving World Models, DWMs）旨在预测未来场景演变、提升系统感知与决策能力，并成为近期业界的热点。然而，当前的DWM主要专注于场景生成任务，尽管能够预测环境未来的变化，却在场景理解能力上表现不足，难以全面解释驾驶环境。这种割裂使得模型在动态驾驶场景中的信息处理与预测能力大打折扣。

与此同时，视觉语言模型（Vision-Language Models, VLMs）在场景理解任务中展现了强大的潜力，能够处理复杂的视觉问答和场景描述。然而，它们缺乏对未来场景的建模能力，难以为自动驾驶系统提供前瞻性的预测。这一现状凸显出一个关键挑战：如何在单一框架内同时实现对驾驶环境的深刻理解与未来场景的精准预测？

针对这一挑战，本文提出了HERMES，一个统一驾驶世界模型。HERMES实现了场景理解与生成的一体化建模，通过将多视角场景的几何与语义信息整合到统一的表示中，同时利用世界查询机制促进了当前三维环境文本理解与未来场景生成之间的高效信息流动。HERMES的提出不仅打破了场景理解与生成任务的边界，也为世界模型的研究提供了全新的视角。

名字的来源：HERMES

HERMES这一名称源自于古希腊神话中的赫尔墨斯（Hermes），他是众神的使者，能够迅速地传递信息，跨越天地，连接不同的世界。本文提出的模型在一个框架内能够同时进行3D场景理解与未来场景生成，还能够实现知识的传递与交互，高效地实现驾驶环境的预测与理解。

方法：HERMES 的设计

HERMES的设计旨在通过Bird’s-Eye View (BEV)场景表征形式与世界查询（World Queries）机制实现场景理解与生成的无缝衔接和整合。其核心架构如下图所示：

1) 鸟瞰视图 (BEV) 表示

HERMES使用BEV表示将多视角空间信息压缩为统一表示，尽量缓解单独处理6张图片造成的LLM输入长度限制问题，同时保留几何空间关系和多视角交互信息。具体包括：

特征压缩：为了保证方法的简洁，直接使用BEVFormer作为BEV Tokenizer；并简单地使用卷积下采样模块，对场景特征进行压缩，在相比常用的BEV特征空间压缩4倍，得到高效且语义丰富的BEV表示（Flattened BEV, ）。通过保留空间几何关系，确保多视角特征能够支持生成与理解任务。
点云渲染器(Render)：将下采样后的BEV特征再次通过插值和卷积上采样回原本的大小。使用三维卷积将二维的BEV特征(Encoded BEV, )变换为体素特征。再使用体渲染技术预测不同射线方向的深度以得到环境点云。

2) 世界查询 (World Queries) 机制

为实现理解与生成任务的深度结合，HERMES提出了世界查询机制，使用Flattened BEV以池化的方式初始化一系列World Queries，利用LLM的因果注意力机制，从这些queries从文本token中提取世界知识。

为了将World Queries的信息注入进对应的未来帧，使用跨时间链接模块（current to the future link），将当前场景BEV特征与未来场景特征连接，通过多个跨注意力块，捕获场景演化的时空关系，并得到一系列未来帧BEV特征（）。将生成的未来BEV特征转换为点云表示，以生成未来场景。

3) 多任务联合优化

HERMES 同时优化理解与生成任务，通过以下目标函数实现两者的协同训练：

理解目标：通过自回归语言建模任务，提升对当前场景的语义理解能力。

生成目标：通过监督未来点云的生成过程，同时用当前帧点云作为辅助任务，优化模型的几何生成能力。

结果

HERMES 在多个数据集上的实验表明：

场景生成：在 nuScenes 数据集上，相比CVPR 2024 ViDAR，HERMES 的点云生成误差降低了 32.4%，尤其在未来 3 秒的预测中表现优异。
场景理解：在 OmniDrive-nuScenes 数据集上，HERMES 的 CIDEr 指标提升了 8.0%。

Demo：

，时长00:09

更多Demo可以在项目仓库/主页中找到：https://github.com/LMD0311/HERMES https://lmd0311.github.io/HERMES/

总结

HERMES 作为首个统一的3D场景理解与生成模型，通过统一的BEV表示和世界查询机制，为自动驾驶的感知与预测任务提供了强有力的工具。

#Occ-LLM

全面超越OccWorld！Occ世界模型再度问鼎SOTA（港科大&华为诺亚）

大语言模型（LLMs）在机器人和自动驾驶领域取得了重大进展。本研究提出了首个基于占用的大语言模型（Occ-LLM），这是将大语言模型与一种重要表示方式相结合的开创性尝试。为了有效地将占用信息编码为大语言模型的输入，并解决与占用相关的类别不平衡问题，研究提出了运动分离变分自编码器（MS-VAE）。这种创新方法利用先验知识，在将动态对象和静态场景输入定制的变分自编码器（VAE）之前进行区分。这种分离增强了模型专注于动态轨迹的能力，同时有效地重建静态场景。Occ-LLM在关键任务中的有效性得到了验证，包括4D占用预测、自车规划和基于占用的场景问答。综合评估表明，Occ-LLM显著优于现有的最先进方法，在4D占用预测任务中，交并比（IoU）提高了约6%，平均交并比（mIoU）提高了4%。这些发现凸显了Occ-LLM在重塑机器人和自动驾驶当前范式方面的变革潜力。

行业介绍

大语言模型发展迅速，已成为推动各行业人工智能发展的重要力量。最初为自然语言处理设计的大语言模型，因其强大的泛化能力，在自动驾驶等复杂领域也展现出了卓越的适应性。这些能力对于目前缺乏泛化性的机器人或自动驾驶系统而言至关重要。当前，大语言模型在自动驾驶中的应用主要基于图像输入，但这种方式缺乏全面理解环境所需的空间感知能力。现有的基于视觉和基于激光雷达的方法，虽然增强了车辆导航和环境理解能力，但计算成本高，且中间推理过程往往缺乏透明度。

在自动驾驶中，占用是一种极具表现力的模态，它通过全面表示场景的前景和背景，提供丰富的空间和语义信息。这种通用表示方式有助于感知物体，无论其具体类别是已知还是未知。值得注意的是，像特斯拉这样的领先汽车制造商，正逐步在其车辆中采用基于占用的系统，这凸显了向这种强大的环境解释方法的转变。

我们旨在利用大语言模型复杂的分析和泛化能力，开发一种用于自动驾驶各种下游任务的基础模型，以解释和利用占用网格。然而，将占用表示直接集成到大语言模型中具有挑战性，这是由于占用类别不平衡，以及代表空气的体素占主导地位，导致学习效率低下和内存问题。为了克服这些挑战，提出了一种名为运动分离变分自编码器（MS-VAE）的新方法。该方法将占用场景中与可移动物体（如汽车、行人）相关的体素，与不可移动结构（如街道、绿植）相关的体素分离。这样做增强了模型对动态对象轨迹的关注，并改善了静态场景的重建，类似于残差学习。这种分离显著降低了学习难度，提高了模型的整体性能。

基于占用的大语言模型（Occ-LLM）经过精心设计，可满足自动驾驶领域的多种应用需求。该模型的主要应用包括4D占用场景预测、自车规划和基于占用的场景问答，这些应用对于提高自动驾驶系统的安全性、效率和可靠性至关重要。为了验证模型的有效性，研究人员进行了广泛的评估，将Occ-LLM与其他最先进的方法进行比较。结果显示，Occ-LLM性能卓越，在4D占用场景预测中，IoU达到32.52%，mIoU达到20.99%，显著优于最先进模型（其IoU为26.63%，mIoU为17.14%，3秒平均值）。在自车规划方面，该模型将3秒平均L2距离降至0.28米，而领先的替代模型为1.17米。此外，在基于占用的场景问答中，Occ-LLM始终能提供准确可靠的回答，从而增强了自动驾驶系统的决策能力。

主要贡献如下：

引入了用于自动驾驶的基于占用的大语言模型Occ-LLM，展示了卓越的场景理解能力。
提出运动分离变分自编码器MS-VAE，通过区分可移动和不可移动元素来管理大量占用网格数据，在各项指标上提升了系统性能。
通过在4D占用场景预测、自车规划和基于占用的场景问答中的应用，展示了Occ-LLM的多功能性，说明了其在自动驾驶多个维度上的优越性。
通过接入现有的占用预测方法，展示了Occ-LLM的泛化能力，说明了其在自动驾驶中的实用性。

相关工作1）多模态大语言模型

多模态大语言模型的最新进展引发了广泛关注，它将大语言模型的先进推理能力与图像、视频和音频数据相结合。这些模型在零样本和少样本图像分类、分割和目标检测等任务中表现出色，充分利用了视觉和文本数据之间的协同作用。在自动驾驶领域，大语言模型弥补了关键差距，增强了场景理解能力，提供了更丰富的语义上下文，并促进了当前系统所缺乏的决策过程。已经有几种方法被提出，以在自动驾驶中利用大语言模型。基于视觉的方法，如DriveGPT4，通过解释视频输入生成与驾驶相关的文本响应；而像HiLM-D这样的模型，则通过高分辨率视觉数据增强危险识别和意图预测能力。基于激光雷达的方法利用矢量化视觉嵌入，赋予大语言模型环境感知能力，实现对驾驶场景的详细分析。

2）占用网络

近年来，3D语义占用通过明确建模3D网格内每个体素的占用状态，提供了对环境更详细的表示。SSCNet率先引入语义场景补全任务，整合了几何和语义信息。随后的研究通常利用具有明确深度信息的几何输入。MonoScene提出了第一种用于语义场景补全的单目方法，使用3D UNet来处理通过视线投影生成的体素特征。基于转移架构设计了各种网络。此外，一些同期研究专注于提出用于3D语义占用预测的环视基准，推动了占用领域的快速发展。OccWorld基于3D占用学习世界模型，因其可解释性和效率备受关注。这里尝试以大语言模型为桥梁，统一占用任务。

Occ-LLM方法

Occ-LLM框架将大语言模型与占用表示相结合，以改进自动驾驶系统。该框架增强了空间和语义理解能力，有助于场景解释和决策制定。首先使用现有方法将多视图图像转换为占用表示。下面首先介绍核心的运动分离变分自编码器MS-VAE，它能够区分动态和静态元素，降低计算负载并提高学习效率。MS-VAE的输出经过进一步处理和展平，输入到大语言模型中。Occ-LLM专为各种自动驾驶任务设计，支持4D占用预测、自车规划和基于占用的场景问答，提高了自动驾驶的安全性和有效性。

1）运动分离变分自编码器

基于已有的多模态大语言模型集成方法，研究旨在训练一个变分自编码器，以促进模态融合并降低计算成本。将占用表示直接集成到大语言模型中面临挑战，因为占用类别不平衡，且空气体素占主导，导致数据表示稀疏且低效。为了克服这一问题，研究提出了运动分离变分自编码器MS-VAE，它可以分离占用网格中的动态和静态组件。这提高了编码效率，并将重点转移到对自主导航至关重要的动态元素上。因此，MS-VAE能够更平衡、有效地集成到大语言模型框架中。

MS-VAE的核心概念是训练两个不同的VQ-VAEs，分别对移动和静态占用体素进行编码和解码。不过研究发现，使用两个不同的codebook分别处理移动和静态体素，同时保持单个编码器和解码器，也能获得令人满意的结果。为了清晰阐述，用数学公式描述该方法。

设表示输入的占用表示，和分别表示移动和静态体素。编码器将输入映射到潜在空间。对于MS-VAE，为移动和静态体素定义两个单独的潜在变量和：

每个编码后的潜在变量和在相应的codebook和中搜索，并在输入解码器之前，被最相似的codebook entry替换。这个过程表示为：

解码器从量化后的潜在变量和重建输入：

为了便于在占用表示中分离运动和静态元素，基于体素的分类进行变换。设表示可移动类别的集合。在修改后的占用表示中，定义运动和空气填充的指示函数如下：

定义指示函数，使得：

如果否则

则修改后的运动占用和静态占用为：

其中，air表示静态占用网格中空气的表示，通常编码为代表未占用空间的占位值。

为了重建原始占用表示，利用来区分活动运动区域。重建后的占用将静态和运动组件组合如下：

训练MS-VAE的总体损失函数结合了重建损失和承诺损失，以确保编码后的潜在变量接近codebook entries：

通过为移动和静态体素使用单独的codebook，同时保持统一的编码器和解码器，并适当地处理占用表示，MS-VAE有效地捕捉了每种体素类型的独特特征，从而改善了占用重建和泛化能力。

此外，整体VAE架构参考了OccWorld实现中的方法，具体将占用视为具有16个通道的2D数据，并使用2D VAE进行编码和解码。然而，为了保留三维信息的完整性，在编码器之前和解码器之后都集成了一层轻量级3D卷积。这种修改尊重了占用表示固有的空间维度，显著提高了重建占用的质量。与传统使用2D VAE相比，这种方法显著提高了占用表示在三维空间中的保真度。

2）占用与大语言模型集成的预处理

Patchify：使用MS-VAE对原始占用表示进行编码后，得到的潜在表示仍然很大。为了解决这个问题，采用类似于视觉Transformer（ViT）的方法，将占用潜在空间划分为小网格并展平。研究发现，path大小对占用重建质量有显著影响。这是因为预测未来占用帧涉及感知和低级视觉任务。例如，感知任务通常受益于较大的patch大小，有助于更好地理解输入数据的语义信息；相反，低级视觉任务通常采用较小的patch大小，以实现更高质量的数据重建。通过消融研究确定，patch大小为10时可获得最佳结果。

帧分离：研究发现，每个帧展平后的占用潜在表示相对较长，直接连接多个帧展平后的占用潜在表示会导致生成的占用出现位置漂移。这种漂移表现为一个帧的部分占用出现在后续帧中，从而造成级联错位。为了解决这个问题，提出了一个简单但有效的解决方案：在每个占用潜在帧的开头和结尾添加特定的文本标记。具体来说，在开头使用“”，在结尾使用“”。这些标记在推理时界定了帧之间的间隔，有效地消除了漂移问题。

预融合：引入一种预融合方法，以更好地建立占用表示与自车动作之间的联系。该方法首先通过多个MLP层对自车动作进行编码。类似于SE-Net的方法，然后使用编码后的动作潜在变量作为权重，对占用特征进行调制。这种技术增强了占用表示与自车动作之间的一致性，提高了模型的整体性能。

3）下游任务

Occ-LLM框架支持多种对增强自动驾驶系统至关重要的下游任务，包括4D占用预测、自车规划和基于占用的场景问答。任务切换通过特定提示进行管理：“<4-D occupancy forecasting and self-ego planning>”启动4D占用预测和自车规划的组合任务，而“”触发问答任务。这些任务共同增强了态势感知和决策能力。4D占用预测用于预测环境动态，这对于预测危险至关重要。自车规划利用这些预测实现安全、高效的导航。基于占用的场景问答用于解释复杂情况，有助于做出明智的决策。这些能力共同显著提高了自动驾驶系统的安全性、可靠性和效率。

实验分析

我们展示了一系列广泛的实验，以评估所提出的Occ-LLM的性能。研究使用Llama2作为基础模型。使用交并比（IoU）和平均交并比（mIoU）指标评估4D占用预测。使用L2距离指标评估自车规划能力。

采用Nuscenes数据集，该数据集包含1000个场景。这些场景分为700个用于训练，150个用于验证，150个用于测试。每个场景包含大约50帧，对应一个占用场景。占用表示的维度为(200, 200, 16)，其中前两个维度(200, 200)代表长度和宽度，16代表高度。这种数据集配置能够在各种场景下全面评估和验证模型的性能。

1）与最先进方法的比较

4D占用预测和自车规划：表1将研究方法与4D占用预测和运动规划领域的最先进方法进行了比较，提供了1秒、2秒和3秒间隔的IoU、mIoU和L2距离等指标。研究方法在准确性和一致性方面始终优于最先进方法。

评估的方法包括基于激光雷达的方法，如IL、NMP和FF，以及基于摄像头的方法，如UniAD、VAD-Base和OccNet。研究还将预测的占用数据集成到Occ-LLM框架中，像BevFormer+Ours这样的模型实现了更高的性能，平均IoU达到23.79%，mIoU达到10.21%，L2距离为0.43米。

与基于占用的方法相比，研究方法超越了OccWorld，平均IoU达到32.52%，mIoU达到20.99%，L2距离为0.28米，展示了在自动驾驶中更高的准确性和可靠性。

问答：研究提出的方法展示了专为自动驾驶场景定制的先进问答能力。如图5所示，该系统有效地解释多视图相机输入，以预测占用情况，并对有关驾驶环境的查询提供准确响应。它可以识别场景中的关键对象，为自车推荐安全的操作，并描述潜在的危险，如准备过马路的行人。

为了定量评估系统的性能，使用标准指标（即BLEU、ROUGE L、CIDEr和GPT Score），将该系统与DriveLM模型进行了对比评估。研究模型在所有指标上均优于DriveLM，获得了更高的分数。这些结果证实了研究方法在自动驾驶环境中提供准确且上下文相关答案的有效性。

2）消融研究

OccWorld的VAE与MS-VAE的对比分析：表3比较了OccWorld的VAE与研究提出的MS-VAE，结果显示MS-VAE在重建性能上有显著提升。添加3D卷积层和运动分离策略提高了IoU和mIoU，MS-VAE的IoU达到62.74%，mIoU达到71.08%，而OccWorld的VAE分别为59.07%和60.50%。

Patchify中不同patch大小的对比分析：表4研究了不同patch大小对重建性能的影响。patch大小为10时表现最佳，在训练集上IoU为32.48%，mIoU为26.16%，在验证集上IoU为27.12%，mIoU为26.83%，能够在细节捕捉和效率之间取得平衡。

Occ-LLM模块的消融研究：表5展示了Occ-LLM模块的消融研究。基线模型的IoU为20.

#纯视觉GPVL

告别激光雷达？188ms 生成安全轨迹！

摘要

自动驾驶是一项具有挑战性的任务，它要求感知和理解周围环境以规划安全的行驶轨迹。尽管现有的基于视觉的端到端模型已经取得了有希望的结果，但这些方法仍然面临视觉理解、决策推理和场景泛化的挑战。为了解决这些问题，提出了一种名为GPVL（Generative Planning with 3D-Vision Language Pre-training）的生成性规划模型，用于端到端的自动驾驶。该提出的范式有两个显著方面。

一方面，设计了一个3D视觉语言预训练模块，旨在弥合鸟瞰图中视觉感知与语言理解之间的差距。另一方面，引入了一个跨模态语言模型，以自回归的方式根据感知和导航信息生成全面的驾驶决策和精细的轨迹。

论文标题：Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

论文作者：Tengpeng Li, Hanli Wang, Xianfei Li, Wenlong Liao, Tao He, Pai Peng

论文地址：https://arxiv.org/pdf/2501.08861官方网站：https://github.com/ltp1995/GPVL

在具有挑战性的nuScenes数据集上的实验表明，与最先进方法相比，所提出的方案实现了优异的性能。此外，当处理各种场景中的高级指令时，GPVL表现出强大的泛化能力和实时潜力。GPVL的有效、稳健和高效的性能对未来自动驾驶系统的实际应用至关重要。

自动驾驶要求系统能深刻理解周围环境以确保安全和高效的部署。优秀的自动驾驶系统需要全面感知驾驶环境，并基于道路信息精确规划行驶路径。

近年来，端到端的自动驾驶框架通过传感器数据理解和输出规划决策，取得了显著进展。然而，早期方法因缺乏对驾驶场景的深入理解，导致解释性有限且难以收敛。为改善性能，一些方案利用传感器信息集成多个视觉任务，如3D目标检测和运动预测，但这些方法在结合上下文线索进行决策方面仍存在挑战。随着大型语言模型的发展，其推理能力被应用于自动驾驶，尽管如此，这些模型在处理复杂的3D空间关系时表现不佳。

为了克服这些问题，提出了一种新的基于3D视觉语言预训练的生成性规划（GPVL）范式，如图1所示。GPVL首先提取多视角图像的鸟瞰图特征，涵盖基本语义元素；然后引入矢量化变换器学习关键感知信息。接着，开发了一个3D视觉语言预训练模块，对齐视觉特征与语言表示，促进共享特征空间内的3D场景理解和文本推理。此外，基于预训练模型设计了2D场景字幕模型，用于生成描述。最后，将视觉字幕、对齐的3D特征和导航指令输入语言模型，自回归地生成驾驶决策和轨迹。本文的主要贡献在于以下几个方面：

提出了一种3D视觉语言预训练模块，建立了视觉和语言特征之间的组内相关性，有助于对驾驶环境的深入理解。
开发了一种跨模态语言模型，以自回归方式利用字幕、感知和导航信息生成决策和轨迹，赋予模型推理和生成能力。
我们提出了一个基于3D视觉语言预训练的生成性规划框架，该框架学习语言引导的感知特征并生成情境化轨迹，从而提高系统的安全性。

▲图1｜（a）现有的端到端自动驾驶框架仅利用视觉信息来完成感知、预测和规划任务。(b)新兴的注入大型语言模型的自动驾驶模型仅仅引入了2D视觉特征，并使用耗时的大型语言模型进行规划决策。(c)设计的方案专注于3D视觉语言预训练，并通过语言生成风格进行规划。■ 端到端自动驾驶

端到端自动驾驶旨在创建一个完全可微的系统，直接将传感器数据转化为车辆控制指令，整合感知、预测、规划和控制模块以减少累积误差并提高安全性。现有模型可分为开环和闭环方法：前者如Hu等人（2023）和Jiang等人（2023）在真实数据集上进行训练评估；后者使用模拟器如CARLA获取反馈，优化未来位置和动作特征。

■ 大型语言模型在自动驾驶中的应用

大型语言模型（LLM）的应用增强了自动驾驶系统的决策能力。研究如Dilu（Wen等人，2023）和GPT-driver（Mao等人，2023）利用LLM生成合理轨迹，并通过多模态语言模型建立视觉与语言间的语义关联。然而，这些方案在三维空间感知和语言表示对齐方面存在不足。本工作引入BEV视觉变换器和3D视觉语言预训练模块，以解决上述挑战并实现鲁棒轨迹生成。

▲图2｜ GPVL用于自动驾驶的pipeline©️【深蓝AI】编译

所提出的GPVL的整体框架如图2所示，包含三个关键组件：(1) 主干网络基于提取的鸟瞰图（BEV）特征生成监督下的检测、地图和运动特征；(2) 3D视觉语言预训练模块旨在将视觉和语言特征对齐到一个共同的语义空间中；(3) 跨模态语言模型以生成式的方式产生可靠的决策和轨迹。

■ 方法概述

假设表示采样的多视角图像，所提出方案的目标是生成自车的安全驾驶轨迹。为了获得令人满意的规划结果，提出了 GPVL 以建立 3D 视觉特征与语言表示之间的语义关联，并以自回归方式生成高质量路线。图 2 展示了所提出模型的详细结构。具体来说，对于输入的多视角图像，我们首先使用预训练的 BEVformer中的 BEV 编码器提取 BEV 特征。随后，被输入到检测、运动和地图变换器中，以同时学习 3D 物体框、代理运动和地图元素，生成受限的检测特征、运动特征和地图特征。然后，将它们三个送入由多个变换器层组成的视觉注意力块，生成注意力视觉特征、，及其连接。同时，环境的真实描述被整合到基于BERT结构的文本注意力块中，以获得文本表示、、及其连接。进一步设计了一个组对齐模块，以将这些视觉和语言特征投影到共享的语义空间中。最后，连同自车的导航提示被送入语言模型，以自然语言格式生成可靠的轨迹。

■ 3D视觉语言预训练

3D视觉语言预训练模块是通过对比学习开发的，旨在建立视觉和语言模态之间的多层次对齐。一些先前的方法引入了预训练的大规模语言模型以增强对驾驶场景的感知和理解。然而，这些方法要么缺乏3D空间信息，要么在不同表示之间存在语义差距，这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下，所提出的模型利用监督检测、运动和地图特征来感知目标的3D空间分布，并通过3D视觉语言预训练模块最小化不同特征之间的语义差距。3D视觉语言预训练模块是通过对比学习开发的，旨在建立视觉和语言模态之间的多层次对齐。一些先前的方法引入了预训练的大规模语言模型以增强对驾驶场景的感知和理解。然而，这些方法要么缺乏3D空间信息，要么在不同表示之间存在语义差距，这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下，所提出的模型利用监督检测、运动和地图特征来感知目标的3D空间分布，并通过3D视觉语言预训练模块最小化不同特征之间的语义差距。

BEV注入的视觉特征。在所提出的 GPVL 中，引入了驾驶场景中的三种目标，包括前景物体、代理运动和地图元素。我们首先利用视觉嵌入层将、和编码到相同的通道维，然后，引入变换器结构通过长距离注意力建立紧凑的交互以增强视觉特征。整个函数可以表示为：

其中表示特征嵌入层，表示视觉注意力块。因此，，和。随后，注意力检测、运动和地图特征沿空间维度集成以获得全局视觉特征，表示为：

其中表示连接操作。

环境语言特征。为了赋予模型语言意识，通过利用 BERT 结构提出了一个文本注意力模块。该模块处理感知和规划标签，例如边界框、未来轨迹和地图元素，这些标签使用预定义模板转换为特定于驾驶的语言提示。与检测、运动和地图特征相关的描述随后被输入到文本注意力块中，以生成相应的语言表示。现在，整个过程可以表述为：

其中，和分别代表前景物体、未来运动和地图元素的真实标签。表示基于 BERT 的文本注意力块。、和。随后，这些描述性特征被连接起来形成全局文本表示，表示为：

组内对齐。为了充分利用不同特征之间的多层次关联，通过使用对比学习设计了一种组内对齐策略。考虑了四种类型的 3D 视觉语言对齐组，包括与检测相关的 VL 组、与运动相关的 VL 组、与地图相关的 VL 组和全局 VL 组。例如，在一批个训练样本中，对齐函数旨在将匹配的 VL 样本视为正样本，将不匹配的 VL 样本视为负样本。给定视觉特征和文本特征作为输入，对比损失定义为：

其中，是一个可学习的温控系数，是一个相似性函数。函数通过计算视觉和文本特征之间的相似性得分获得，这些特征通过全局平均池化处理。在此模块中，引入了一个可学习的权重来探索不同表示之间的细粒度关系。例如，与检测相关的 VL 组的相似性函数可以表述为：

因此，总的组内对齐损失定义为：

■ 通过跨模态语言模型进行规划

自我代理动态交互是自动驾驶系统中的一个关键问题。先前的研究尝试引入可学习查询来建模自我代理关系，以获取自我车辆的查询特征，并将其输入多层感知器（MLP）以获得预期的未来轨迹。尽管这种策略在特定的基准数据集上可以表现出良好的性能，但直接使用MLP生成轨迹可能导致过拟合，并且在生成的路点之间难以进行上下文关系推理。

面对这些挑战，开发了一种用于生成性规划的跨模态语言模型，以赋予GPVL理性且稳健地做出安全决策的能力。

自我代理跨模态解码器。所提出的模型为自动驾驶汽车的当前状态制定语言提示，其中包括其高级驾驶命令和位置。信息丰富的提示被发送到文本嵌入层，以产生自动驾驶汽车的初始语言表示。同时，如图 2 所示，设计的场景字幕模型生成视觉描述（例如，交通灯、标志、关键对象和天气）。随后，环境视觉特征和提示特征被输入到语言模型中，以学习具有丰富驾驶场景和导航信息的规划特征。该过程可以表述为：

其中表示预训练的语言模型，Cap 是 2D 场景字幕，Nav 表示高级导航。最终，被发送到线性层（LeCun, Bengio, 和 Hinton 2015）和 Softmax（Bishop 和 Nasrabadi 2006）层，以产生词向量为：

生成式规划。类似于大多数视觉字幕任务，引入了交叉熵损失以语言建模的方式输出轨迹。在训练过程中，每个样本都配备了一个提示字幕作为参考，其中包括自我车辆的高级命令和未来轨迹，损失函数表示为：

其中表示训练期间所有可训练的参数，表示第t个预测词。训练损失。所提出的 GPVL 的总体损失包括三个训练组件，包括视觉感知损失、3D 视觉语言对齐损失和轨迹字幕损失，可以定义为：

其中表示与视觉下游任务相关的损失，包括 3D 目标检测、地图构建和运动预测。

■ 数据集和自动评估指标

实验在nuScenes数据集上进行，该数据集包含1,000个交通场景，每个视频约20秒，提供超过140万个3D边界框。评估指标包括位移误差（L2）和碰撞率（Collision），以及延迟（Latency）和帧每秒（FPS）来衡量实时性能。

■ 实现细节

模型预测未来3秒的轨迹，输入图像大小为1280 × 720，使用ResNet50提取特征，BEV查询、边界框和地图点数量分别为200 × 200、200和100 × 20。训练使用AdamW优化器，学习率分三个阶段调整，最终模型在PyTorch框架下用8张NVIDIA RTX A6000显卡训练。

■ 与最先进方法的比较

将所提出的方案与13种自动驾驶方法进行了比较，包括8种传统的非自回归方法和5种注入LLM的自回归方法。

▲表1｜开环规划性能

定量结果。表1展示了所提出的GPVL与其他最先进方法的统计对比。总体而言，GPVL的统计性能明显优于其他方法。具体来说，在L2距离指标上GPVL获得了最低的分数，相比VAD它分别在1秒、2秒、3秒时减少了0.18米、0.28米、0.34米的规划位移误差，平均减少了0.27米，这表明其轨迹预测的准确性更高。此外，GPVL在大多数碰撞率指标上的表现最佳，突出了其在避免碰撞方面的卓越安全性和稳健性。与引入辅助任务或利用LLM的方法相比，所提出的方法保持了相当的规划性能，并实现了188.7毫秒的延迟和5.3 fps的推理速度，显示了其实用应用的潜力。根据BEV-Planner的报告，所提出的方案排除了自我状态信息以防止快捷学习。

▲表2｜在左转、右转和直行命令下的L2距离和碰撞率（Col.）的统计结果©️【深蓝AI】编译

表2显示了左转、右转和直行命令下的L2和Collision评分。显然，GPVL在所有指标上都显著优于UniAD和VAD。在nuScenes数据集中，87.7%的训练样本和88.2%的验证样本是简单的直行场景。因此，UniAD和VAD更容易在这些样本上过拟合并学习捷径，导致在更复杂的转弯场景中的表现不佳。相比之下，所提出的方法在各种场景中都获得了有利的结果，展示了在不同驾驶情况下的强大泛化能力。

▲图3｜在nuScenes数据集上，所提出的GPVL、VAD和真实情况的可视化对比

定性结果。图3展示了GPVL生成的规划结果与VAD及真实情况的对比。为了提供对驾驶场景的全面理解，包含了多视角相机图像，并在前视图中可视化了规划轨迹。总的来说，得益于所提出的3D视觉语言预训练模块和跨模态语言模型，设计的模型生成了准确且合理的轨迹。例如，在第一个场景中，当自我车辆被指示直行时，GPVL生成的轨迹引导车辆安全通过城市道路。相反，VAD的轨迹存在与路边发生碰撞的风险。在第三个场景中，GPVL的结果紧密匹配真实情况，使车辆能够在交叉路口安全左转。然而，VAD的规划决策更为激进，可能会导致与迎面而来的车辆发生碰撞。

■ 消融研究

▲表3｜在nuScenes上的GPVL消融研究，其中Perc、Cap、VLP、GA和CLM分别代表感知模块、字幕生成模型、3D视觉语言预训练、组内对齐和跨模态语言模型

表3中的消融研究系统地探讨了GPVL的关键组件在nuScenes数据集上的贡献。没有感知模块时，GPVL在检测前景物体、预测运动和构建地图方面遇到困难，导致L2和碰撞（Collision）分数升高。禁用视觉语言预训练（VLP）和组对齐（GA）组件显著降低了性能，突显了模型在连接视觉和语言理解方面的强大能力。缺少GA会导致明显的性能下降，表明其在细粒度特征关联中的重要性。排除跨模态语言模型（CLM）会增加L2和碰撞分数，强调了其在生成合理规划决策方面的作用。最后，如表3第六行所示，所有模块的集成产生了最佳性能，展示了各组件协同作用的效果。

■ 零样本泛化

▲表4｜为了评估在新城市的零样本性能，模型在 Group1 中在波士顿训练并在新加坡测试，在 Group2 中在新加坡训练并在波士顿测试

▲表5｜为了验证模型在未见过的场景中的鲁棒性，测试图像中引入了四种类型的噪声，包括雨、雾、雪和黑暗

为了验证模型的泛化能力，我们在来自两个不同城市环境（即波士顿和新加坡）构建的数据集上训练并测试模型。具体来说，引入了两组实验：(1) 在波士顿数据集上训练并在新加坡数据集上测试；(2) 在新加坡数据集上训练并在波士顿数据集上测试。如表4所示，GPVL在这两组中的评估得分明显优于UniAD和VAD。

此外，为了验证GPVL的鲁棒性，我们在测试图像中引入了四种类型的噪声（即雨、雾、雪和黑暗）。如表5所示，在这些噪声条件下，UniAD和VAD受到了显著的负面影响，而对GPVL的影响较小。因此，GPVL在各种实际场景中的出色表现展示了其提高自动驾驶系统鲁棒性和安全性的能力。

本研究提出了一种新颖的3D视觉语言模型的生成式规划方法，用于端到端自动驾驶。该方法设计了3D视觉语言预训练模块，整合文本信息，建立3D视觉语言关系，并通过组内对齐利用不同表示间的关联，以更好地理解驾驶场景。跨模态语言模型作为生成引擎，基于对齐的特征和导航信息，自回归地生成未来轨迹。GPVL框架不仅提供可靠规划，还展现出良好的泛化能力。在nuScenes数据集上的实验显示，GPVL性能优于现有技术，未来有望推动更安全、可靠的自动驾驶技术发展。

#接入Deepseek能否弯道超车

这家公司正在打造极致端到端系统！

近期（2月10日），比亚迪的「全民智驾战略」引发普遍关注。其「天神之眼」技术矩阵将惠及全系车型。其中，搭载天神之眼 C的首批上市21款车型，覆盖7万级到20万级，包括在售价格最亲民的海鸥，实现高阶智驾全覆盖。

比亚迪天神之眼共包含三套技术方案：天神之眼A - 高阶智驾三激光版（DiPilot 600）、天神之眼 B - 高阶智驾激光版（DiPilot 300）、天神之眼 C - 高阶智驾三目版（DiPilot 100）。

天神之眼 A主要应用在仰望，天神之眼 B主要应用在腾势及比亚迪品牌，天神之眼 C则搭载在比亚迪品牌。

其中，天神之眼C配备了前视三目5R12V感知硬件及端到端控制算法，实现架构、传感器、算法、数据四个维度的进化，可针对高速和城市快速道路，高快领航HNOA可按照导航规划的路径，完成上/下匝道、车道保持、巡航驾驶、自主换道、避开/绕行部分障碍物等驾驶任务。

在现场，王传福提出了比亚迪实现全民智驾的「三大底气」：中国最大的车云数据库、全球最大的研发工程师团队，全球最大规模的新能源汽车生产制造。

同时，比亚迪集团高级副总裁、汽车新技术研究院院长-杨冬生，也对比亚迪的智驾思路进行了详细解读：

行业缺乏整车能力挖掘

“比亚迪向来都是做得多，说得少。”

杨冬生指出，比亚迪为了发展智驾，投入了5000多名工程师，其中博士超300余人，硕士超3000余人，历时7年。

由于市场上的传感器技术指标不足以满足要求，比亚迪对核心传感器也进行了全面的自研。

由此，基于整车璇玑架构的「一脑两端三网四链」，实现了100%自主知识产权，这是「天神之眼」提供超越人类驾驶水平的安全底座。

杨冬生重点解析了天神之眼C——它及时跟进了AI大爆发浪潮，形成了对架构、传感器、算法数据的全面理解。

他宣布，基于比亚迪DM平台e平台的车型，都将全面升级为璇玑架构。为此，天神之眼C也搭载比亚迪最新的「天神之眼」系统(BAS 3.0+)的软件版本。

他指出，当前行业普遍采用的智驾方案，缺乏对整车能力的挖掘，其上限只能接近人类智驾水平，是狭义的智能驾驶。

而BAS 3.0+，则是以璇玑架构为纽带，形成了整车融合的感知网，同时深度介入比亚迪独有的横纵垂控制能力，实现超人类的驾驶安全控制，这是广义的智能驾驶。

One Model还不够极致？

当前的端到端大模型，可由单一模型实现感知到规控的闭环。但杨冬生认为，这还不够极致。

“要从传感器设计，到感知规控，再到执行器的一连串的精准控制，实现全闭环，才是真正的端到端。”

因此，比亚迪提出了基于璇玑架构，以数据链为纽带，将传感链、控制链，机械链进行深度的融合，实现全闭环的端到端，这也推动了核心技术的全面深度自研。

杨冬生认为，当前可以做到全部自研的，只有比亚迪。

他以控制为例，比亚迪将制动、转向、驱动的控制算法上移，借助域控的AI能力，由更聪明的中央大脑直接输出指令，集成度更高，控制响应的时延可以缩短到10毫秒。

由此，在时速100km/h的行车场景中，AEB刹停距离小径比可以缩短20米，在泊车场景下换挡起步的时间也可以提升0.8秒；常见的车位泊出时长可缩短5秒以上。

在传感器方面，比亚迪针对白天、黑夜、高低、车速、行车、泊车等场景，基于传感器的探测距离和范围的要求，分析其覆盖度、冗余度以及自车的遮蔽度，构成了一整套的传感链评价体系，提出了远超人类感知的方案。

杨冬生也介绍了「全温域高清成像」方面的研发工作——鉴于摄像头模组易受到环境气温的变化，导致失焦和清晰度下降。

在此背景下，比亚迪从底层的机理出发，从摄像头的科技材料，自动对焦工艺工学方案等一系列进行了深度的自研，使摄像头在极端温度下的清晰度仍可大于70%。

「两宽一远」前视三目

杨冬生介绍称，受到人眼的立体视觉启发，比亚迪独创了「两宽一远」的前视三目方案，该方案也被工程师风趣地称为「二郎神三目」。

该方案使用了两颗120°的广角和一颗30°的长焦。其800万的像素不仅看得清远处、精准测焦，更能提高数据的利用效率，降低场景的泛化难度。

同时，二郎神前视三目在正常光线下，能生成高稠密度点云，10倍于激光雷达，可实现堪比激光雷达的感知效果。

基于此，天神之眼还得到了动静态异形障碍物的占据栅格，并兼顾远近测距精度，对小的远的异形物体识别率非常高，实现了超人类的感知效果。

此外，天神之眼C的云端大模型，具备更强的学习能力，对场景的纵深感知和理解大幅提升，并通过支持蒸馏技术直接迁移至车多模型。

比如，在高速上遇到了装载超长的风机叶片的运输车，车端可以通过独有的视差匹配模式，不需要云端训练，就可以精准的计算出异形障碍物的长度，规避了碰撞的风险。

不过，摄像头在遇到遮挡强光黑夜雨雾场景的时候，会受到一定局限。为此，天神之眼也配备了5颗毫米波雷达，并进行了特有的增强设计。

“我们的前雷达最远的探测距离可以做到300米，水平的角精度可达0.1度，测距精度达0.03米每秒。角雷达也不甘示弱——行业普遍采用的是12通道，不具备垂向探测能力。为此，我们借鉴了前雷达的设计方案，升级到了16通道，增加了垂性探测，小物体的检测率提升了一倍，同步探测距离也提升至120米，做到360度毫米波雷达的无死角感知。”

在算法先进性方面，比亚迪自研的BAS 3.0+对感知主干网和规控主干网进行了全面升级——提出三目立体视差，以及多模态BEV感知主干网。

其中，三目的立体视差显著提升了前视感知精度，多模态的BEV则高效融合多传感器的数据，全天候稳定的高精感知。

同时，天神之眼在云端挖掘并学习大量的老司机的开车习惯，实现算法和执行器的软硬闭环协同优化：影子模式采集的海量数据驱动，主动安全网的持续迭代，最终可以实现更拟人、低延时、高安全的支架体验。

如何挖掘「黄金数据」？

一直以来，挖掘黄金数据都是一个难题。

而比亚迪提出了两种挖掘黄金数据的方案：

1、基于VLM多模态大模型，在挖掘海量数据的同时，自动获取感知能力以及老司机的驾驶行为，从而迅速的积累高价值的序列数据。

2、基于海量智驾数据，通过无监督重建的方式，训练出智驾世界大模型。只需输入简单的文字信息，就能生成高价值的数据，提升智驾的安全厚度。

同时杨冬生宣布，为了提升数据挖掘能力，比亚迪将在璇玑架构接入DeepSeeK大模型的能力。

他表示，基于云端的VLM大模型，再加上DeepSeeK的知识表达和推理能力，将大幅提升自动化的数据生成的效率和质量，快速实现1:10000的数据来迭代支架模型，解决更多的常规场景。

至于车端模型，则会利用DeepSeeK强化知识蒸馏技术，让视觉语言模型又好又快的在车端部署运行，做到车端、云端同级智能赋能闭环端到端，在座舱端以自然的开放AI架构。

#GaussianRPG

首个基于3DGS的自动驾驶硬件在环仿真系统！

3DGS技术自从问世以来，收获了学术界和工业界的大量关注，势头甚至已经超过NERF。感谢邀请，我之前在平台上通过直播发布了我的开源项目：“GaussianRPG：首个开源的基于3DGS的自动驾驶闭环仿真器”【1】。该项目使用Street Gaussians方法作为图像渲染器，在ROS2架构下，实现了一个可测试AEB场景的软件在环闭环仿真demo。

在直播的“展望和讨论”部分，我提到了一种将3DGS渲染技术应用在自动驾驶硬件在环仿真测试中的可能。本文就讲述了将GaussianRPG拓展为硬件在环仿真系统的一次尝试。本文所有相关代码已经合并到了参考链接【1】，更详细的说明可以参考项目wiki。

图1 GaussianRPG HIL框架

硬件介绍

本文所述的硬件在环，专门指的是自动驾驶域控制器在环。我选择了一款机器人开发板来代替实际的域控制器。我选择的是24年地瓜机器人新推出的RDK X5开发板【2】，号称“千元内最好用的机器人套件”，具有 10Tops 端侧推理算力与 8 核 ARM A55 处理能力，支持 2 路 MIPI Camera 接入，4 路 USB3.0 接口，关键是开发板系统自带部署好的yolov5s模型，可以快速实现感知节点的目标检测的功能。

图2 地瓜机器人RDK X5开发板

RDK X5可以接受MIPI摄像头、USB摄像头作为输入。我在某大型电商购物平台上找到了一款HDMI信号转USB信号的转换器（一百块以内即可全款拿下），可以模拟一路USB摄像头，将工作站显卡渲染出的图像通过HDMI转USB输入开发板，在1920x1080的分辨率下可以达到60Hz的频率，以此作为本demo系统中的视频注入板卡。

图3 锐尔威视 RER-H2U-V2

系统搭建

本文的硬件在环demo的系统图如图1所示。GaussianRPG运行在一台工作站中，Street Gaussians渲染出的一帧图像可以显示在指定位置的窗口中。视频注入板卡一端连接工作站的显卡HDMI接口作为其输入，输出一路USB接口，连接到RDK X5的USB接口上。当RDK X5上运行起一个调用USB摄像头的程序时，就会将来自视频注入板卡的输入当作一路USB摄像头，实现摄像头的仿真。

GaussianRPG本身也进行了修改，Street Gaussians输出的图像会渲染在指定位置的窗口中，以便视频注入板卡获取，这和成熟的硬件在环方案中的仿真软件的处理方式是相似的。

实现了视频注入，本demo的闭环开发工作就算完成了一大半。此时需要对这款RER-H2U-V2转换器在视频注入时产生的延迟做出测试，方法是：首先对工作站和RDK X5进行时间同步（在此采用的是将RDK X5的时源设定成工作站的方式），然后在工作站系统中开启一个显示系统时间的窗口，最后在RDK X5端采集视频注入的图像时，将保存下的图片命名为USB摄像头收到图像时的时间戳。通过保存的图片中的窗口中的时间戳和文件名中的时间戳的对比，可以得出视频注入板卡的时间延迟。测试的其中一帧如图4所示：

图4 视频注入时间延迟测试

经过测试，我们可以看出，此方案的视频注入环节的时间延迟大概在200ms左右。目前业界成熟的硬件在环测试方案中的视频注入环节，时间延迟至少可以做到100ms以下。同时我还使用同样的方法测试了一款真实的1080P USB免驱摄像头的延迟，发现时延甚至要在300ms以上。当然，在自动驾驶实际应用中，车载摄像头的出图延迟一般都是很小的，在几十ms的量级，肯定要远小于仿真方案中的200ms。

除视频注入板卡的连接以外，还需要用网线将RDK X5和工作站连接起来，以便通过以太网传输代表整车信号的车速rostopic和代表控制命令的减速度rostopic。经过测试，本方案下通过以太网跨平台的rostopic传输，延迟只在1-2ms左右，和视频注入的延迟相比可以忽略不计。

闭环效果

本文的硬件在环demo运行闭环测试后，RDK X5板端的感知节点可以正常收到图像，且可以正常输出目标检测结果，如图5所示。

图5 RDK X5板端目标检测结果

同时，在闭环测试中，RDK X5中的dummy AEB controller节点可以输出有效的刹车信号，也就是说RDK X5作为一个域控制器成功刹停了GaussianRPG系统中的仿真车辆。

我使用qt生成窗口，将Street Gaussian推理出的图像渲染出来，并未对推理过程或qt窗口的渲染刷新做任何优化。在闭环测试中，单帧的渲染出图时间至少要在80ms左右，再加上上一节讲到的视频注入时间延迟，本demo的硬件在环测试系统的单帧延迟将累积到280ms左右。再加上我编写的板端感知节点处理一帧图像还要将近100ms，因此需要AEB controller节点中设置更激进的刹车动作相关参数，才能让仿真车辆在demo中成功刹停。

讨论

作为一个硬件在环测试的demo，本项目存在一个重要的不足，那就是完全未考虑系统的实时性。首先GaussianRPG内部目前并没有对单帧渲染时间做严格控制，也就是如果渲染时间不稳定，超过了预期的100ms，那么系统整体也会有相应延迟。其次是也没有引入实时机，整体依赖的是工作站的计算机时间。最后就是，作为一个只包含单目前视相机的demo，也没有考虑多路相机时间同步的问题。
RDK X5具有丰富的接口，其中就包括CAN通讯接口。因此后续本系统也可以脱离ROS通讯，扩展成以CAN通讯传递整车信号和控制命令的形式。
RDK X5本身是一个机器人开发套件，因此本文的demo证明了，3DGS相关技术应该也可以很方便地应用到具身智能机器人硬件在环仿真测试中去。

参考链接：

【1】https://github.com/GimpelZhang/GaussianRPG

【2】https://developer.d-robotics.cc/rdk_doc/RDK

#给自动驾驶感知工程师的规划速成课

在我们熟知的模块化自动驾驶系统中，通常包含感知、预测、规划和控制等几个部分。截至2023年，机器学习带来的巨大影响主要发生在感知部分，但对下游组件尚没有产生太大的变革。有趣的是，虽然规划栈中AI的渗透率较低，但端到端的感知系统（比如鸟瞰图BEV感知）已经大规模在量产车上得到应用。

传统的模块化自动驾驶技术栈里，AI含量从感知到规控逐渐减少（作者制图）

为什么会这样呢？因为传统的基于人工设计的系统更加容易解释，而且一旦在现场测试中发现问题，可以在几个小时内快速调整。而机器学习驱动的功能可能需要几天甚至几周的时间才能解决问题。尽管面临这些挑战，让大量现成的人类驾驶数据闲置不用，显然是不可取的。此外，增加计算能力比扩充工程团队要更具可扩展性。因此，机器学习在下游模块的使用是非常必要的。

幸运的是，无论是学术界还是工业界，都在积极推动这一状况的改变。首先，下游模块变得越来越数据驱动，并且可以通过可微（differentiable）的接口进行集成，代表作是CVPR 2023最佳论文UniAD。接口的可微保证各个模块可以进行联合训练或者微调，最下游规划端的反馈信号可以传递到最上游感知模块。更重要的是，随着生成式AI的不断进步，集成视觉-语言-动作（VLA）多模态的大模型在处理复杂机器人任务（如学术界的RT-2、工业界的TeslaBot和1X）以及自动驾驶（如学术界的GAIA-1、DriveVLM和工业界的Wayve AI driver、Tesla FSD）方面显示出巨大的潜力。这些工作将AI和数据驱动开发的工作模式从感知模块带到了规划模块。

作为一名感知工程师，我在过去的几周里抽出时间系统地学习了传统的规划模块。这篇文章是我想和大家分享的学习心得，旨在为感知工程师提供一个速成课程，介绍规划模块的问题设置、现有方法和挑战。我还会从AI工程师的角度，讨论AI应该如何在规划中发挥作用。

这篇文章的目标读者是从事自动驾驶领域的AI从业者，尤其是感知工程师。文章内容较长（22200字），下面的目录可能会对那些希望通过关键词快速查找内容的同学有所帮助。

英文版内容也发在Towards Data Science的互动博客。

medium.com/towards-data-science/a-crash-course-of-planning-for-perception-engineers-in-autonomous-driving-ede324d78717?sk=85715972175f3584e7c5382be1eb991f

为什么要学习规划？

那么，为什么在AI时代还要学习规划，特别是传统的规划模块呢？

从问题解决的角度来说，深入理解客户的需求，可以让我们更好地服务下游客户。机器学习只是一个工具，而不是解决方案的全部。而最有效的解决问题方法往往是将新工具与领域知识相结合，尤其是那些有扎实数学基础的领域知识，因为基于领域知识的学习方法通常更高效。当规划从基于规则的系统转变为基于机器学习的系统时，传统方法和学习方法可能会共存相当长一段时间，在此过程中两种方法的比例可能逐渐从8:2转变为2:8。因此，尽管现在端到端系统的早期原型和产品已经开始应用，一个好的工程师仍需对规划和机器学习两种方法的基础都有所涉猎。

从价值驱动开发（value-driven development）的角度来说，了解传统方法的局限性也非常重要。这些知识可以帮助我们更有效地利用新的ML工具来解决当前最棘手的问题，或者提高解决方案的上限，从而带来立竿见影的效果。

此外，规划是所有自主代理（automonous agent）的重要组成部分。它的应用不仅仅局限在自动驾驶领域，还有例如电子游戏AI选手，AI围棋手，通用机器人等领域有着重要的应用。因此理解规划是什么，以及规划是如何工作的，可以让更多的机器学习人才参与到这个快速发展的领域中来，为真正的自主代理技术的发展做出贡献。

什么是规划？

问题的定义

作为自动驾驶车辆的“头脑”，规划系统对于车辆的安全和高效驾驶至关重要。规划系统的目标是生成一条安全、舒适、高效的行驶轨迹。换句话说，安全性、舒适性和效率是规划的三个关键目标。

为了给规划系统提供输入，系统需要所有感知输出，包括静态的道路结构、动态的道路参与者、占用网生成的占用空间（occupancy network）以及交通等待情况等。规划系统还必须通过监控加速度（acceleration）和加加速度（jerk）来确保车辆的舒适性，从而生成平滑的轨迹，同时考虑与其他交通参与者的互动和礼让。

规划系统以路径点（waypoint）序列的形式生成轨迹，来表示车辆在一系列固定时间点上的未来位置，供车辆的低级控制器跟踪。例如，在8秒的规划视野内，每间隔0.4秒生成一个点，总共生成20个路径点。

一个传统的规划模块大致包括全局路径规划（route planning）、行为规划（behavior planning）和轨迹规划（trajectory planning）。全局路径规划提供从起点到终点在全局地图上的道路级路径。行为规划决定未来几秒内的语义动作类型（例如跟车、绕行、侧向通过、礼让和超车等）。根据行为规划模块给出的行为类型，轨迹规划生成短期的行驶轨迹。全局路径规划通常在设置导航后由地图服务提供，不在本文讨论范围内。我们在本文中将重点放在行为规划和轨迹规划上。

行为规划和轨迹规划可以协同工作或合并为一个过程。在显式方法中，行为规划和轨迹规划是两个独立的过程，在分层框架中以不同的频率运行。通常行为规划以1-5 Hz的频率运行，而轨迹规划以10-20 Hz的频率运行。这种方法大多数情况下非常高效，但缺点是有可能需要大量的修改和微调来适配不同的场景。更先进的规划系统将两者合并为一个单一的优化问题，这种方法可以确保可行性和最优性的最佳平衡。

传统规划控制技术栈（来源：Fluid Dynamics Planner）

规划术语表

目前规划技术栈的一个问题是没有一个公认的标准术语表。在学术界和工业界，人们往往使用不同的名称来指代相同的概念，或者使用相同的名称来指代不同的概念。这也说明自动驾驶中的规划技术栈仍在发展，还没有完全收敛。

以下是本文中使用的术语及简要解释，并介绍了文献中可能会出现的其他近义概念。

规划（planning）：一个顶层概念，平行于控制。生成轨迹路径点。规划和控制往往一起被统称为PnC（planning and control）。
控制（control）：一个顶层概念，接收轨迹路径点，并生成高频率的转向、油门和刹车命令，由执行器执行。与其他领域相比，控制相对成熟，因此尽管有PnC这个常见概念，控制超出了本文讨论的范围。
预测（prediction）：一个顶层概念，预测除了自车以外的交通参与者的未来轨迹。预测可以被视为其他交通参与者的轻量级规划器，也被称为运动预测（motion prediction）。
语义动作（semantic action）：带有人类意图的高层抽象动作（例如跟车、绕行、侧向通过、礼让、超车），也称为行为（behavior），意图（intention）、策略（policy）、操作（maneuver）或基本运动（primitive motion）。
动作（action）：没有固定含义的术语。它可以指控制的输出（高频率的转向、油门和刹车命令，由执行器执行），也可以指规划的输出（轨迹路径点）。语义动作指行为预测的输出。
行为规划（behavior planning）：一个生成高层语义动作（例如变道、超车）的模块，通常生成粗略的轨迹，还有与自车动作有潜在交互的物体标签（例如避让或者抢行）。在交互情境中，它也被称为任务规划或决策。
运动规划（motion planning）：一个接收语义动作，并生成平滑且可行的轨迹路径点的模块。也称为轨迹规划。
轨迹规划（trajectory planning）：运动规划的另一个术语，因为一般运动规划的输出是轨迹。
决策（decision making）：专注于交互的行为规划。如果没有自车与其他参与者的交互，它仅被称为行为规划，也被称为战术决策。
路径规划（route planning）：在道路网络上寻找首选路径，也被称为任务规划。
基于模型的方法（model-based method）：在规划中，这指的是传统规划模块中手工制作的框架，与神经网络模型相对。基于模型的方法与基于学习的方法形成对比。这个说法文献里面不太多。
传统规划（traditional planning）：与基于神经网络的数据驱动的规划相对。也称为经典规划（classical planning）。
多模态性（multimodality）：在规划的上下文中，这通常指的是有不确定的多重意图，例如一辆车未来的轨迹可以是直行也可以是右拐。注意这与感知中的多模态传感器输入或多模态大语言模型（如VLM或VLA）的多模态不是一个概念，尽管在英文和中文里，这两个概念都是同一个词。
参考线（reference line）：基于全局路径信息和自车当前状态生成的本地（几百米）粗略路径。
Frenet坐标系：基于参考线的坐标系。Frenet坐标系将笛卡尔坐标系（直角坐标系）中的曲线路径简化为直线隧道模型。详细介绍请见下文。
轨迹（trajectory）：一个三维时空曲线，在笛卡尔坐标系中表示为(x, y, t)或在Frenet坐标系中表示为(s, l, t)。轨迹由路径和速度组成。
路径（path）：一个二维空间曲线，在笛卡尔坐标系中表示为(x, y)或在Frenet坐标系中表示为(s, l)。

不同文献也可能使用不同的符号和概念。以下是一些示例：

决策系统：有时是顶层概念，包括规划和控制。
运动规划：有时是顶层概念，相当于上面所说的规划，包括行为规划和轨迹规划。
规划：有时包括行为规划、运动规划和路径规划。

行为规划

目前行为规划模块通常是一个高度人为定义的中间模块，其输出的确切形式和内容，目前从业者并没有共识。具体来说，行为规划的输出可以是参考路径或与自车动作有潜在交互的物体标签（例如，从左侧或右侧通过、通过或礼让）。

将行为规划和运动规划分离增加了在解决自动驾驶车辆的高维动作空间时的效率。自动驾驶车辆的动作需要以通常10 Hz或更高的频率进行推理（路径点的时间分辨率），其中大多数动作相对简单，比如直行。分离后，行为规划层只需要以相对粗糙的分辨率对未来场景进行推理，而运动规划层则在基于行为规划决策的本地解空间中运行。行为规划的另一个好处是将非凸优化问题转换为凸优化问题，我们将在下面进一步讨论。

行为规划模块最大的短板在于没有统一且完备的行为（“语义动作”）划分方案。大部分的语义动作也都是基于结构化道路（例如高速路）来定义的。

Frenet vs 笛卡尔坐标系

Frenet坐标系是一个被广泛采用的系统，值得单独介绍。Frenet框架通过独立管理相对于参考路径的横向和纵向运动，简化了轨迹规划。s坐标表示纵向位移（沿道路的距离），而l（或d）坐标表示横向位移（相对于参考路径的侧面位置）。

Frenet坐标系将笛卡尔坐标系（Cartesian，也就是直角坐标系）中的曲线路径简化为直线隧道模型。这种转换将曲线路径上的非线性道路边界约束转换为线性约束，大大简化了随后的优化问题。此外，人类对纵向和横向运动的感知是不同的，Frenet框架允许分别且更灵活地优化这些运动。

笛卡尔坐标系和Frenet坐标系的对比（来源：Cartesian Planner）

Frenet坐标系需要干净、结构化的低曲率车道图。在实践中，它更适合用于低曲率的结构化道路，如高速公路或城市快速路。然而，随着参考线曲率的增加，Frenet坐标系的问题会被放大，因此在高曲率的结构化道路（如带导向线的城市交叉路口）上应谨慎使用。

对于非结构化道路，如港口、矿区、停车场或无导向线的交叉路口，推荐使用更灵活的笛卡尔坐标系。

经典工具——规划的三板斧

在自动驾驶中，规划涉及从初始的高维状态（包括位置、时间、速度、加速度和加加速度）计算轨迹到目标子空间，确保满足所有约束。搜索、采样和优化是规划中最广泛使用的三种工具。

搜索（search）

经典的图搜索方法在规划中很受欢迎，用于结构化道路上的路径/任务规划，或者直接在运动规划中寻找在非结构化环境（如停车场或城市交叉路口，尤其是无地图场景）中的最佳路径。从Dijkstra算法到A * （读作A-star，A星），再到混合A* （hybrid A*），有一个明确的进化路径。

Dijkstra算法探索所有可能的路径以找到最短路径，使其成为一种盲目（无信息）搜索算法。这是一种系统性的方法，可以保证找到最优路径，但其部署效率较低。正如下面的图表所示，它几乎探索了所有方向。本质上，Dijkstra算法是加权移动成本的广度优先搜索（BFS）。为了提高效率，我们可以利用目标位置的信息来修剪搜索空间。

Dijkstra和A*算法的对比（作者制图）

A* 算法使用启发式方法优先考虑看似更接近目标的路径，从而更高效。它结合了到目前为止的成本（Dijkstra算法中原有的成本）和到目标的成本（启发式，本质上是贪婪的最佳优先）。A* 只有在启发式是可接受（admissible）且一致的情况下才能保证最短路径。如果启发式较差，A*的性能可能比Dijkstra基准更差，甚至可能退化为贪婪的最佳优先搜索。

在自动驾驶的具体应用中，混合A* 算法通过考虑车辆运动学进一步改进了A。A求出的解可能并不满足运动学约束，导致车辆无法进行准确执行（例如，车辆的转向角通常限制在40度以内）。虽然A在网格空间中对状态和动作进行操作，但混合A*将它们分离，保持状态在网格中（discrete state），但允许根据运动学进行连续动作（continuous action）。

混合A* 的另一个关键创新是解析扩展（analytical expansion, or shot to goal）。对A* 算法的一种较为自然的改进方法是使用一条不碰撞的直线将最近探索的节点连接到目标。如果这是可能的，我们就找到了解。在混合A*中，这条直线被Dubins和Reeds-Shepp（RS）曲线所取代，这些曲线符合车辆的运动学。这种提前停止方法通过更多地关注可行性，在最优性和可行性之间取得了平衡。

混合A* 广泛用于停车场和无地图的城市交叉路口等场景。以下图像和视频展示了它在停车场场景中的工作原理。

混合A* 算法的解析拓展（来源：2010年混合A*论文，2012年Udacity课程视频）

采样（sampling）

另一种流行的规划方法是采样。众所周知的蒙特卡罗（Monte Carlo）方法是一种随机采样方法。采样的方法一般涉及随机或根据先验选择许多候选者，然后根据事先定义的成本选择最佳一个。对于采样方法，快速评估众多选项是关键，因为这直接影响自动驾驶系统的实时性能。

大语言模型（LLM）本质上提供了采样，并且需要一个评估器，定义的成本与人类偏好一致。这种评估过程确保所选输出满足所需的标准和质量。这个过程也就是所谓对齐（alignment）。

如果我们已经知道给定问题或子问题的解析解，就可以在参数化解空间中进行采样。例如，我们通常希望最小化加加速度（位置p(t)的三阶导数，jerk）的平方时间积分，表示为p上面有三个点（每个点代表一个相对于时间的一阶导数）。这个目标函数（cost）可以表示为：

最小化加加速度的平方时间积分（来源：Werling的经典论文，ICRA 2010）

可以证明，五次多项式（quintic polynomial）在位置-速度-加速度空间中提供了两个状态之间加加速度最优的连接，即使考虑任意附加的目标函数。通过在这些五次多项式的参数空间中进行采样，我们可以找到具有最小成本的近似解。目标函数考虑了速度、加速度、加加速度限制和碰撞检查等因素。这种方法本质上通过采样解决了优化问题。

在横向运动的时间图上的采样（来源：Werling的经典论文，ICRA 2010）

采样方法启发了许多利用机器学习来进行规划的论文，包括CoverNet、Lift-Splat-Shoot、NMP和MP3。这些方法用人类驾驶行为的大型数据库取代了数学上合理的五次多项式。轨迹的评估可以很容易地并行化，这进一步支持了采样方法的使用。这种方法有效地利用了大量专家示范来模仿人类驾驶行为，同时避免了随机采样加速度和转向角。

利用人类轨迹进行采样的深度学习文章代表（来源：NMP，CoverNet，LSS）

优化（optimization）

优化通过在给定约束下最大化或最小化特定目标函数来找到问题的最佳解决方案。在神经网络训练中，类似的原则通过梯度下降和反向传播来调整网络的权重。然而，在神经网络之外的优化任务中，模型通常不那么复杂，通常采用比梯度下降更有效的方法。（虽然梯度下降可以应用于二次规划，但它通常不是最有效的方法。）

在自动驾驶中，规划的优化目标函数通常考虑动态物体的避障、静态道路结构的跟踪车道、导航信息以确保正确路线，以及自车状态以评估平滑度。

优化可以分为凸优化和非凸优化。关键区别在于，在凸优化场景中，只有一个全局最优解，也就是局部最优解。这一特性使其不受初始解决方案的影响。在非凸优化中，初始解决方案非常重要，如下图所示。

凸问题和非凸问题的全局最优（绿色）和局部最优（黄色）（来源：斯坦福大学课堂讲义）

由于规划涉及高度非凸优化，存在许多局部最优解，所以规划很大程度上依赖于初始解决方案。此外，凸优化通常运行得更快，因此在自动驾驶这样的车载实时应用中更受欢迎。一个典型的方法是将凸优化与其他方法结合使用，首先勾勒出一个凸解空间，在进行凸优化。这其实就是把行为规划和运动规划进行分离的数学基础：行为规划来负责找到一个好的初始解决方案，运动规划再进行精细的凸优化。

以避障为例，一般来讲这是一个非凸问题。但如果我们知道绕行的方向，那么它就变成了一个凸优化问题，障碍物的位置作为优化问题的下界或上界约束。如果我们不知道绕行的方向，我们需要首先决定绕行的方向，使问题成为运动规划可以解决的凸问题。这个绕行方向的决策就属于行为规划的范畴。

当然，我们也可以使用投影梯度下降、交替最小化、粒子群优化（PSO，Particle Swarm Optimization）和遗传算法等工具直接优化非凸问题。但这超出了本文的讨论范围，就不详细展开了。

凸路径规划问题与非凸路径规划问题（作者制图）

凸路径规划问题与非凸路径规划问题的解决过程（作者制图）

我们可以使用前面提到的搜索或采样方法来解决非凸问题。采样方法在参数空间中散布许多选项，就像是进行一次并行大搜索，也可以有效地处理非凸问题。

你可能会问，为什么只要确定往哪个方向推动就能保证问题空间是凸的呢？为了解释这个，我们需要用到一点拓扑学（topology）。在路径空间中，相似的可行路径可以在没有障碍物干扰的情况下相互连续变换。这些相似路径在拓扑学的正式语言中叫做“同伦类”（homotopy classes）。我们可以用一个与这些路径同伦的（homotopic）初始解决方案来探索所有这些路径。所有这些同伦路径形成了一个驾驶走廊，就像上图中的红色或绿色阴影区域那样。对于三维时空情况，原理类似，请参考这篇QCraft的技术博客。

我们可以利用广义Voronoi图来枚举所有的同胚类，这大致对应于我们可用的不同决策路径。不过，这个话题涉及到的高级数学概念有点超纲，本文就不细说了。

要高效解决优化问题，关键在于优化求解器的能力。通常，求解器需要大约10毫秒来规划一条轨迹。如果我们能把这个效率提高十倍，将会引发算法设计的变革，从量变到质变。特斯拉AI Day 2022年展示了这一改进，利用神经网络对轨迹生成加速超过10倍。在感知系统中也有类似的故事，例如从2D感知过渡到鸟瞰图（BEV），也是随着计算能力提高十倍而实现（例如，Nvidia Xavier的32 TOPS到Orin的275TOPS）。更高效的优化器能够计算和评估更多选项，从而降低决策过程的重要性。不过，创造一个高效的优化求解器需要投入大量的工程资源。

“每当计算能力提高十倍，算法就会进化到下一代。” —— 算法进化的定律（待验证）

算法进化的10x算力定律（待验证）

工业界的规划实践

不同规划系统的一个关键区别在于它们是否是时空解耦的。具体来说，时空解耦的方法先在空间维度上规划路径，然后在这条路径上规划速度。这种方法也被称为路径-速度解耦。

路径-速度解耦（path-speed decoupling）通常又被称为横纵解耦（lat-long decoupling），其中横向（lat，lateral）规划对应路径规划，纵向（long，longitudinal）规划对应速度规划。这个术语起源于Frenet坐标系。

解耦的解决方案更容易实现，而且可以解决大约95%的问题。相比之下，耦合的解决方案理论上性能更高，但实现起来更具挑战性。它们涉及更多的参数调整，需要更有章法地进行。

横纵解耦和时空联合规划的对比（来源：QCraft，作者修改）

横纵解耦和时空联合规划的优缺点对比（来源：QCraft，作者修改）

路径-速度解耦规划

我们可以以百度Apollo EM规划器为例，来看看路径-速度解耦规划的应用。

EM规划器通过将三维的纵向-横向-速度问题转化为两个二维问题：纵向-横向问题和纵向-速度问题，大大减少了计算复杂度。Apollo的EM规划器的核心是一个迭代的期望最大化（EM）步骤，包括路径优化和速度优化。每个步骤分为E步（在二维状态空间中的投影和公式化）和M步（在二维状态空间中的优化）。E步涉及将三维问题投影到Frenet SL框架或ST速度跟踪框架。

Apollo EM规划器的算法流程（来源：Apollo EM规划器）

M步（最大化步骤）在路径和速度优化中都涉及解决非凸优化问题。对于路径优化，这意味着决定是从物体的左侧还是右侧绕行，而速度优化则涉及决定是超车还是礼让一个动态物体。Apollo EM规划器通过两步过程解决这些非凸优化挑战：动态规划（Dynamic Programming，DP）和二次规划（Quadratic Planning，QP）。

DP使用采样或搜索算法生成粗略的初始解决方案，有效地将非凸空间修剪为凸空间。然后，QP将粗略的DP结果作为输入，并在DP提供的凸约束内进行优化。本质上，DP关注可行性，而QP在凸约束内精细调整以实现最优性。

在我们定义的术语中，路径DP对应横向行为规划，路径QP对应横向运动规划，速度DP对应纵向行为规划，速度QP对应纵向运动规划。换句话说，这个过程包括在路径和速度步骤中分别进行行为规划（BP）和运动规划（MP）。

横纵解耦规划的自动驾驶技术栈（作者制图）

时空联合规划

尽管解耦规划可以解决自动驾驶中的大部分情况，但剩下的5%涉及复杂的动态交互，其中解耦解决方案通常会导致次优轨迹。在这些复杂场景中，联合优化往往可以展示出类人的智能行为，因此这是现在自动驾驶领域的热门话题。

例如，在狭窄空间内通过时，最佳行为可能是减速礼让或加速通过。这种行为在解耦解空间中是无法实现的，需要联合优化。联合优化允许更集成的方法，同时考虑路径和速度，以有效处理复杂的动态交互。

时空联合规划的自动驾驶技术栈（作者制图）

然而，联合时空规划存在明显的难点。首先，直接在高维状态空间中解决非凸问题比使用解耦解决方案更具挑战性且耗时。其次，在时空联合规划中考虑交互更加复杂。我们将在讨论决策时更详细地介绍这一主题。

这里介绍两种解决方法：暴力搜索和构建时空走廊进行优化。

暴力搜索直接在三维时空空间（二维空间和一维时间）中进行，可以在XYT（笛卡尔）或SLT（Frenet）坐标中进行。我们以SLT为例。SLT空间长而扁，类似于一个像巧克力威化的能量棒。在暴力搜索中，我们可以使用混合A-star，成本是进度成本和到达成本的组合。在优化过程中，我们必须遵守防止在s和t维度中逆行的搜索约束。

3D时空网格以及超车的表达方式（来源：使用A*的时空优化，见附录）

另一种方法是构建时空走廊，本质上是一条在三维时空状态空间（例如SLT）中带有车辆足迹的曲线。时空语义走廊（SSC，2019年RAL）将语义元素的要求编码为语义走廊，生成相应的安全轨迹。语义走廊由一系列相互连接的无碰撞立方体组成，由时空域中的语义元素提出的动态约束。在每个立方体内，它成为一个可以使用二次规划（QP）解决的凸优化问题。

SSC仍然需要一个行为规划（BP）模块提供一个粗略的驾驶轨迹，来作为SSC的输入。环境的复杂语义元素投影到参考车道的时空域中。EPSILON（2021年TRO）展示了一个系统，其中SSC作为运动规划器与行为规划器协同工作。在下一节中，我们将讨论行为规划，特别是交互方面。在这种强交互的情况下，行为规划通常被称为决策。

语义时空走廊示意（来源：SSC，2021 TRO）

决策

什么是决策？为什么要做决策？

在自动驾驶中，决策本质上是行为规划，但更注重与其他交通参与者的交互。我们的假设是其他道路参与者大多数是理性的（rational），并且会以可预测的方式回应我们的行为。或者最起码也是“带噪理性人”（noisily rational）。

可能有人会问，当我们已经有先进的规划工具时，为什么还需要决策？关键在于两个方面——不确定性和交互。由于动态物体的存在，环境具有概率性特征。交互是自动驾驶中最具挑战的部分，使其区别于一般机器人。

在一个确定的（纯几何的）没有交互的世界中，决策是多余的，规划通过搜索、采样和优化即可解决问题。暴力搜索3D XYT空间可以作为一种通用解决方案。

在大多数传统的自动驾驶模块中，采用”预测然后规划“（predict-then-plan）的方式，假设自车与其他车辆之间的交互为零阶。这种方法将预测输出视为确定性，要求自车做出相应反应。这会导致过于保守的行为，也就是经典的“冻结机器人”问题（freezing robot）。在大量的运动物体自由运动的场合，预测会填满整个时空空间，具体行为就表现为，车辆在拥挤条件下就无法完成变道——而人类则能更有效地处理这些情况。

为了应对随机策略，马尔可夫决策过程（MDP，Markov Decision Process）或部分可观马尔可夫决策过程（POMDP，Partially Observable Markov Decision Process）框架是必不可少的。这些方法将重点从几何转向概率，应对混乱的不确定性。假设交通参与者表现理性或至少噪声理性，决策可以帮助在混乱的时空空间中创建一个安全的驾驶走廊。

MDP和POMDP

接下来我会先介绍马尔可夫决策过程（MDP）和部分可观马尔可夫决策过程（POMDP），然后是它们的系统解决方案，如价值迭代和策略迭代。

马尔可夫过程（MP，Markov Process）是一种处理动态随机现象的随机过程，不同于静态概率。在马尔可夫过程中，未来状态仅依赖于当前状态，使得它足以进行预测。对于自动驾驶来说，所有相关状态可以用一个较长的时间窗口的位置信息来描述。这感觉并不满足MDP的条件。但是，如果我们扩展一下状态空间，例如除了位置信息我们也可以使用速度，加速度，加加速度等信息。这样我们可以使用在更高维度下的更短的历史窗口来刻画自车的当前状态，更加满足MDP的条件。

马尔可夫决策过程（MDP）通过引入行动将马尔可夫过程扩展到决策。MDP模拟了决策过程，其中结果一部分是随机的，另一部分是由决策者或代理控制的。MDP可以用五个因素建模：

状态（S）：环境的状态（state）。
行动（A）：代理可以采取的影响环境的行动（action）。
奖励（R）：环境作为行动的结果提供给代理的奖励（reward）。
转移概率（P）：代理的行动导致从旧状态转移到新状态的概率（transition probability）。
Gamma（γ）：未来奖励的折扣因子（discount factor）。

这也是强化学习（RL）使用的通用框架，本质上是一个MDP。MDP或RL的目标是最大化长期累积奖励（cumulative reward）。这要求代理根据环境中的状态，依据策略做出良好的策略（policy）。

策略，π，是一种从每个状态s ∈ S和行动a ∈ A(s)到在状态s时采取行动a的概率π(a|s)的映射。MDP和RL都是研究如何导出最优策略的问题。

MDP和RL的代理-环境交互界面（来源：Richard Sutton的RL圣经）

部分可观马尔可夫决策过程（POMDP）相比MDP，在状态（state）这个变量的基础之上又引入了观测量（observation）。在POMDP里，状态没有办法直接得到，而是通过观测量来推断的。在POMDP中，代理会保持一个”信念状态“（belief state），也就是可能状态的概率分布，以估计环境的状态。由于内在的不确定性和部分可观性，自动驾驶场景更适合用POMDP表示。MDP可以被视为POMDP的一种特殊情况，在这种情况下，观察完全揭示了状态。

MDP和POMDP的对比（来源：POMDP as stochastic contingent planning)

POMDP能够通过主动收集信息来获取必要的数据，这其实是某种智能行为。这种能力在等候交叉路口时尤其有用，例如收集其他车辆意图和交通信号灯状态的信息，以便做出安全高效的决策。

价值迭代和策略迭代

价值迭代和策略迭代是解决MDP或POMDP问题的系统方法。由于这些方法较为复杂，在现实应用中并不常见，但我们仍可以了解这些方法以及如何在实践中简化它们，比如在AlphaGo中使用的MCTS或在自动驾驶中的MPDM。

为了在MDP中找到最佳策略，我们必须评估一个状态的潜在或预期奖励，或者更具体地说，评估该状态下采取某个行动的奖励（reward）。这不仅包括当下的奖励，还包括所有未来的奖励，通常被称为回报（return）或累积折扣奖励（cumulative discounted reward）。（如果想了解更多，请参考《强化学习：导论》。这本书被认为强化学习的”圣经“。）

价值函数（V）通过求和预期回报来表征状态的质量。动作-价值函数（Q）评估给定状态下行动的质量。两个函数都强依赖于某个给定的策略才有定义。贝尔曼最优方程（Bellman Optimality Equation）指出，最优策略将选择最大化即时奖励加上由此产生的新状态预期未来奖励的行动。简而言之，贝尔曼最优方程建议在考虑行动的即时奖励和未来后果的基础上做决策。就如同当你考虑换工作时，不仅要考虑眼前的加薪（R），还要考虑新职位未来的价值（S’）。

贝尔曼最优方程（作者制图）

从贝尔曼最优方程中提取最优策略相对简单，一旦我们获得了最优价值函数。但如何找到这个最优价值函数呢？这就是价值迭代的用武之地。

从最优价值函数中提取最优策略（作者制图）

价值迭代通过不断更新每个状态的价值，直到稳定来找到最佳策略。这个过程通过将贝尔曼最优方程转化为更新规则得出。我们相当于用最优未来的“愿景”来指导迭代走向最优。老话说的好，这是榜样的力量，在英文中就是“Fake it until you make it” （先演再成真）。

Bellman最优方程指引下的价值迭代（作者制图）

价值迭代对有限状态空间保证收敛，无论状态的初始值如何（详细证明请参考RL的圣经）。如果折扣因子γ设置为0，意味着我们只考虑即时奖励，价值迭代将在一次迭代后收敛。较小的γ会导致更快的收敛，因为考虑的范围更短，尽管这不一定总是解决具体问题的最佳选择。在工程实践中平衡折扣因子是一个关键方面。

有人可能会问，如果所有状态都初始化为零，不就没有办法打破这个僵局么？贝尔曼方程中的即时奖励（reward）对于引入额外信息和打破初始对称性至关重要。想象一下，直接通向目标状态的状态，它们的价值会像病毒一样在状态空间中传播。通俗地说，就是要取得频繁的小胜利（make small wins frequently）。

贝尔曼方程与贝尔曼最优方程的对比（作者制图）

然而，价值迭代也存在效率低下的问题。它需要在每次迭代中通过考虑所有可能的行动来采取最优行动，类似于Dijkstra算法。虽然它展示了作为基本方法的可行性，但通常不适用于现实应用。策略迭代通过根据当前策略采取行动，并根据贝尔曼方程（注意：不是贝尔曼最优方程！）进行价值函数更新。

贝尔曼方程和贝尔曼最优方程（作者制图）

策略迭代将策略评估与策略改进分离，使其成为更快的解决方案。每一步都基于当下的策略，而不是探索所有可能的行动以找到最大化目标的行动。尽管策略迭代的每次迭代可能由于策略评估步骤而计算量更大，但总体上结果是更快的收敛。通俗地说，如果你只能完全评估某一个（而不是多个）行动的后果，那就最好依靠自己的判断，尽你当前所能做到最好。

AlphaGo和MCTS——当网遇到树

我们都听过2016年AlphaGo击败顶级围棋棋手李世乭的传奇故事。AlphaGo将围棋的玩法公式化为一个马尔可夫决策过程（MDP），并用蒙特卡罗树搜索（Monte Carlo Tree Search, MCTS）来解决MDP。但是，为什么AlphaGo没有使用价值迭代或策略迭代呢？

价值迭代和策略迭代是系统化解决MDP问题的方法。然而，即使是改进的策略迭代，仍然需要进行耗时的操作来更新每个状态的价值。标准19x19围棋盘大约有2e170个可能的状态。要探索这么多的状态，使用用传统的价值迭代或策略迭代技术不可行的。

AlphaGo及其后继者使用MCTS算法来搜索棋步，并由经过人类和计算机对局训练的价值网络和策略网络对搜索进行指导。让我们先看看基本的MCTS。

AlphaGo MCTS的四个步骤，结合了价值网络和策略网络（来源：AlphaGo, Nature 2016）

蒙特卡罗树搜索（MCTS）是一种专注于从当前状态进行决策的策略估计方法。一次迭代涉及四个步骤：选择、扩展、模拟（或评估）和回溯。

选择（selection）：算法根据之前的模拟，沿着最有希望的路径前进，直到到达一个叶节点，一个尚未完全探索的位置。
扩展（expansion）：添加一个或多个子节点，表示从叶节点可能进行的下一步动作。
模拟（simulation，又称，评估evalution）：算法从新节点开始进行随机对局，直到结束，称为“rollout”。这一步通过模拟随机动作直到达到终局来评估扩展节点的潜在结果。
回溯（backup）：算法根据对局的结果更新所走路径上的节点值。如果结果是胜利，节点值增加；如果是失败，节点值减少。这个过程将rollout的结果向上传播，基于模拟结果优化策略。

经过一定次数的迭代，MCTS提供了在模拟过程中从根节点选择的即刻动作的频率百分比。在推理过程中，选择访问次数最多的动作。以下是一个关于井字棋游戏的MCTS交互式示例，作为围棋的简化版，便于理解。

vgarciasc.github.io/mcts-viz/

AlphaGo使用了两个神经网络来对MCTS进行增强。价值网络评估给定状态（棋盘配置）的胜率。策略网络评估所有可能动作的动作分布。这些神经网络通过减少搜索树的有效深度和广度来提高MCTS的性能。策略网络有助于动作采样，将搜索集中在有前途的移动上，而价值网络提供更准确的位置评估，减少了大量rollout的需求。这种结合使得AlphaGo能够在围棋的广阔状态空间中进行高效而有效的搜索。

AlphaGo的策略网络和价值网络（来源：AlphaGo, Nature 2016）

在扩展步骤中，策略网络对最可能的位置进行采样，有效地修剪了搜索空间的广度。在评估步骤中，价值网络提供对位置的直观评分，而一个更快、更轻量级的策略网络则执行rollout直到对局结束以收集奖励。MCTS随后使用两个网络评估的加权和来进行最终判断。

需要注意的是，价值网络的一次前向评估就接近使用策略网络进行蒙特卡罗rollout的准确性，但计算量减少了15000倍。这个对比类似于快速对比慢速系统设计，像直觉对比推理，或者诺贝尔奖得主Daniel Kahneman描述的系统1对比系统2。类似的设计也可以在更近期的作品中看到，如DriveVLM。
确切地说，AlphaGo在不同层面上结合了两个快慢系统。在宏观层面，策略网络选择走子，而更快速的rollout策略网络评估这些走子。在微观层面，更快速的rollout策略网络可以通过一个直接预测棋盘位置胜率的价值网络来近似。

我们可以从AlphaGo中学到什么应用于自动驾驶？AlphaGo展示了通过一个强大的世界模型（模拟）提取优秀策略的重要性。同样，自动驾驶需要一个高度准确的模拟，以有效利用类似于AlphaGo的算法。

MPDM和自动驾驶

在围棋中，所有状态对双方棋手都是即时可见的，使得这成为一个完美信息游戏（perfect information game），其中观察等同于状态。这允许游戏用MDP过程描述。相比之下，自动驾驶是一个POMDP过程，因为状态只能通过观察来估计。

POMDPs以有原则的方式连接感知和规划。POMDP的典型解决方案类似于MDP，但带有有限的预见。然而，主要挑战在于维度诅咒（状态空间的爆炸）和与其他代理的复杂交互。为了使实时进展变得可行，通常会做出领域特定的假设以简化POMDP问题。

MPDM（Multi-policy Decision Making，及其两项后续的研究，以及白皮书）是这一方向的开创性研究。MPDM通过对有限的离散语义级策略（也就是前文所说的语义动作，semantic actions）集合进行闭环前向模拟，而不是评估每个车辆的每一个可能控制输入，从而简化了POMDP问题。此方法通过专注于少量有意义的语义动作来应对维度诅咒，从而使在自动驾驶场景中进行有效的实时决策成为可能。

语义动作有助于控制维度诅咒（来源：EPSILON）

MPDM的假设有两个。首先，大多数人类驾驶决策涉及离散的高层语义动作（例如减速、加速、变道、停车）。在这种情况下，这些动作被称为策略。第二个隐含假设是其他车辆会做出合理安全的决策。一旦确定了一辆车的策略，其行动（轨迹）也就基本确定了。

MPDM的框架（作者制图）

MPDM首先从众多选项中为自车选择一个策略（这就是其名称中“多策略”的来源），并根据它们各自的预测为每个附近的车辆选择一个策略。然后进行前向模拟（类似于MCTS中的快速rollout）。评估后选择最佳交互场景，然后传递给运动规划，例如在联合时空规划部分提到的时空语义走廊（SSC）。

MPDM使得智能和人性化的行为成为可能，例如在没有足够间隙的情况下主动切入密集交通流。这在预测-然后-规划（predict-then-plan）管道中是无法实现的，因为它没有明确考虑交互。MPDM中的预测模块通过前向模拟与行为规划模型紧密集成。

MPDM假设在整个决策视野（10秒）内只使用一种策略。这基本上就是采用了一种非常宽而浅的MCTS方法，考虑了所有可能的代理行为预测。这就给改进留下了空间，也激发了许多后续研究，比如EUDM、EPSILON和MARC。例如，EUDM考虑了更加灵活的自车策略，并使用了一个深度为4的策略树，每个策略覆盖2秒的时间跨度，总共覆盖8秒的决策视野。为了抵消增加的树深度所带来的额外计算负担，EUDM通过指导分支进行更高效的宽度修剪，识别关键场景和关键车辆。这种方法探索了一个更为平衡的策略树。

在MPDM和EUDM中，前向模拟使用了非常简化的驾驶员模型（纵向模拟使用IDM，横向模拟使用纯追踪）。MPDM指出，只要策略级别的决策不受低级别动作执行不准确的影响，高保真度的现实性并不如闭环性质本身那么重要。

一体化决策的概念图，其中预测、行为规划和运动规划紧密结合（作者制图）

在自动驾驶的背景下，应急规划（Contingency Planning）涉及生成多条潜在轨迹，以应对各种可能的未来情景。一个关键的例子是，有经验的司机会预见多个未来场景，并始终计划一个安全的备选方案。这种预见性的策略即使在遇到突然切入车道的车辆时，也能带来更平顺的驾驶体验。

应急规划的一个重要方面是延迟决策分叉点。也就是说，延迟不同潜在轨迹分离的时间点，让自车有更多时间收集信息并对不同的结果做出反应。通过这样做，车辆可以做出更明智的决策，从而实现更平稳和更有信心的驾驶行为，类似于有经验的司机。

带有风险偏好的应急规划（来源：MARC，RAL 2023）

MARC 把行为规划和运动规划巧妙地结合在了一起，让前向模拟更强大、更实用。简单来说，MPDM 和 EUDM 使用策略树来进行高层次的行为规划，然后依赖其他运动规划管道，比如语义时空走廊（SSC）。因为在策略树中，自车的运动仍然是用高度量化的语义行动来描述的。而 MARC 进一步提升了这一点，对自车之外的其他代理保持量化行为，但在前向展开时直接使用更精细的运动规划。可以说，MARC 是一种混合方法，就像混合 A*，是离散和连续两种方法的混合体。这种方法不仅保留了量化行为的优点，还融合了更精细的运动规划，让我们的前向模拟更加智能和灵活。

MPDM及其所有后续工作的一个可能缺陷是，它们依赖于为类似高速公路结构的环境（如保持车道和换道）设计的简单策略。这种依赖可能会限制前向模拟处理复杂交互的能力。为了解决这个问题，遵循MPDM的示例，关键在于通过增长高级策略树来简化动作和状态空间。比如，可以通过对所有相对物体枚举时空相对位置标签，然后进行指导分支，来创建一个更灵活的策略树。

工业界的决策实践

决策仍然是当前研究的热门话题。即使是传统的优化方法也还没有被完全探索。机器学习方法尤其是大语言模型（LLM）在链式推理（CoT）或蒙特卡罗树搜索（MCTS）等技术的支持下，可能会带来颠覆性的影响。

使用搜索树

树结构是执行决策的系统方式。特斯拉在2021年和2022年的AI日展示了他们的决策能力，这些能力深受AlphaGo及其后继者MuZero的影响，用于解决高度复杂的交互。

根据2021年的分享，特斯拉的方法遵循行为规划（决策）然后是运动规划。首先搜索一个凸走廊，然后将其输入连续优化，使用时空联合规划。这种方法有效地解决了如狭窄通行这样的场景，这是路径-速度解耦规划的典型瓶颈。

神经网络启发式引导的MCTS（来源：Tesla AI Day 2021）

特斯拉还采用了一种结合数据驱动和物理检查的混合系统。特斯拉的系统从定义目标开始，生成种子轨迹并评估关键场景。然后，它会分支创建更多的场景变体，例如对其他交通参与者的抢断或礼让。

基于策略树的交互搜索（来源：摘自Tesla AI Day 2022）

特斯拉使用机器学习的一个亮点是通过轨迹优化加速树搜索。对于每个节点，特斯拉使用基于物理的优化和神经规划器，实现了10毫秒对比100微秒的时间框架——结果是10倍到100倍的改进。神经网络通过专家演示和离线优化器进行训练。

轨迹评分通过结合传统的基于物理的检查（如碰撞检查和舒适度分析）与神经网络评估器来进行。特斯拉使用了两个神经网络评估器，一个预测接管（takeover）可能性另一个预测和人类的相似度。这种评分有助于修剪搜索空间，将计算集中在最有前途的结果上。

虽然很多人认为机器学习应该应用于高层次的决策，但特斯拉基本上在利用ML来做最底层的优化加速，从而加速树搜索。

蒙特卡罗树搜索（MCTS）方法似乎是决策的终极工具。有趣的是，研究大语言模型（LLM）的人正在尝试将MCTS集成到LLM中，而从事自动驾驶的人则试图用LLM取代MCTS。

大约两年前，特斯拉的技术采用了这种方法。然而，自2024年3月以来，特斯拉的全自动驾驶（FSD）已经转向了一种更端到端的方法，与之前的方法显著不同。

不使用搜索树

我们仍然可以在不显式增长树的情况下考虑交互。可以实施特设逻辑，实现在预测和规划之间进行一次交互。即使是一次交互也能产生良好的行为（图森未来曾在AI Day中提及了这个设计，但不清楚是否上了实车）。MPDM在其原始形式中，本质上是一次交互，但以更有原则和可扩展的方式执行。

预测与规划之间的多阶交互（来源：TuSimple AI Day）

图森未来还展示了执行应急规划的能力，类似于MARC中提出的方法（不过MARC还可以适应定制的风险偏好）。

应急规划（来源：TuSimple AI Day）

自我思考

学习了传统规划系统的基本构建模块，包括行为规划、运动规划以及通过决策处理交互的原则方法后，我一直在思考系统中的潜在瓶颈以及机器学习（ML）和神经网络（NN）如何帮助解决这些问题。我在此记录我的思考过程，以备将来参考，并希望对有类似问题的人有所帮助。需要注意的是，这部分信息包含我个人偏见和推测。

为什么在规划中使用神经网络？

让我们从现有的模块化管道、端到端（e2e）神经网络规划器或端到端自动驾驶系统三个不同的角度来看这个问题。

神经网络在规划中的潜力（作者制图）

让我们回顾一下自动驾驶中规划系统的问题定义。目标是在高度不确定和交互的环境中，在遵守车载实时工程约束的情况下，获得一个确保安全、舒适和高效的轨迹。这些因素在上图中总结为目标、环境和约束。

自动驾驶中的不确定性可以指感知（观察）中的不确定性以及预测其他代理行为未来轨迹的不确定性。规划系统还必须处理其他代理未来轨迹预测中的不确定性。正如前面讨论的，有原则的决策系统是处理这些问题的有效方法。

此外，在当前以视觉为中心和无高清地图的驾驶时代，规划必须有能力承接感知结果的不确定性、不完美和不完整。集成一个标精地图（SD Map）有助于减轻这种不确定性，但对一个高度手动的规划器系统来说，仍然有较大难度。L4自动驾驶公司通过大量使用激光雷达和高清地图，认为感知不确定性已得到解决。然而，随着行业大规模量产自动驾驶解决方案迈进，这个问题再次出现。一个NN规划器更具鲁棒性，能够处理不完美和不完整感知结果，这对于大规模生产以视觉为中心和无高清地图的高级驾驶辅助系统（ADAS）至关重要。

交互应该使用有严谨数学基础的决策系统来处理，例如蒙特卡罗树搜索（MCTS）或简化版本的MPDM。主要挑战在于如何利用自动驾驶领域的知识，智能地修剪策略树，以应对维度诅咒（组合爆炸）。学术界的MPDM和工业界的特斯拉都展示了如何平衡地生长策略树。

神经网络还可以通过加速运动规划优化来增强规划器的实时性能。这可以将计算负荷从CPU转移到GPU，实现数量级的加速。如果优化速度提高十倍，就可以从根本上影响高级算法设计，如MCTS。

轨迹规划需要更具人性化。可以使用大量的真实驾驶数据进行训练，以开发人性化和接管预测器。扩大计算资源池比维持不断增加的工程团队更具可持续性。

基于神经网络的规划栈可以更有效地利用人类驾驶数据（作者制图）

端到端神经网络规划器怎么做？

端到端（e2e）神经网络（NN）规划器仍然是模块化自动驾驶设计的一部分，接收结构化感知结果（和潜在的潜在特征）作为输入。这种方法将预测、决策和规划结合成一个单一的网络。一些公司，如DeepRoute（2022）和华为（2024）都声称采用了这种方法。注意，这里省略了相关的原始传感器输入，如导航和自车信息。

一个包含端到端规划器的完整自动驾驶栈（作者制图）

端到端（e2e）规划器可以进一步发展为一种结合感知与规划的端到端自动驾驶系统。这正是Wayve的LINGO-2（2024）和特斯拉的FSDv12（2024）想要实现的目标。

这种方法有两大好处。首先，它解决了感知问题。驾驶中有许多方面我们无法通过常用的感知接口显式建模。例如，要手工制作一个绕过水坑或在遇到凹陷或坑洞时减速的驾驶系统是相当困难的。虽然传递中间感知特征可能有所帮助，但它可能无法从根本上解决问题。

此外，涌现行为可能有助于更系统地解决corner case（边缘情况）。例如上述示例的智能处理corner case，很可能就是大型模型涌现行为的结果。

一个包含单一模型端到端驾驶系统的完整自动驾驶栈（作者制图）

我推测，在其最终形式中，假设没有计算限制，端到端驾驶员将是一个由蒙特卡洛树搜索（MCTS）增强的原生多模态（native multimodal）大模型。截至2024年，文献中大家比较有共识的自动驾驶世界模型通常是一个覆盖至少视觉和行动模式的多模态模型（Vision-Action或者VA模型）。虽然语言可以加速训练、增加可控性并提供可解释性，但它并不是必需的。在其完全开发的形式中，一个世界模型将是一个视觉-语言-行动（Vision-Language-Action，VLA）模型。

开发世界模型至少有两种方法：

视频原生模型：训练一个模型来预测未来的视频帧，这些帧是以伴随的行动为条件或输出的，如GAIA-1等模型所示。
多模态适配器：从预训练的大型语言模型（LLM）开始，添加多模态适配器，如LINGO-2、RT2或ApolloFM等模型。这些多模态LLM不是原生的视觉或行动模型，但需要显著更少的训练资源。

一个世界模型可以通过行动输出本身产生策略，从而直接驾驶车辆。或者，MCTS可以查询世界模型并使用其策略输出来指导搜索。尽管这种世界模型-MCTS方法在计算上要密集得多，但它在处理边缘情况方面可能具有更高的上限，因为它具有显式的推理逻辑。

我们能否不进行预测？

大多数当前的运动预测模块将自车以外的代理的未来轨迹表示为一个或多个离散轨迹。预测-规划接口是否足够或必要，仍然是一个问题。

在传统的模块化流程中，预测仍然是需要的。然而，如在决策环节中讨论的那样，预测-然后-规划流程确实限制了自动驾驶系统的上限。一个更为关键的问题是如何更有效地将这个预测模块整合到整体的自动驾驶模块中。预测应当辅助决策，一个在整体决策框架中可被调用的预测模块，如MPDM及其变体，是首选。只要具体轨迹预测被正确整合，例如通过策略树回滚，就不会有严重问题。

预测的另一个问题是，开放回路关键性能指标（open-loop KPIs），例如平均位移误差（ADE）和最终位移误差（FDE），不是有效的度量标准，因为它们未能反映对规划的影响。相反，应考虑意图层面的召回率和精准度等指标。

在端到端系统中，显式的预测模块可能不是必须的，但隐式监督——以及来自传统模块的其他领域知识——无疑可以帮助或至少提升学习系统的数据效率。评估预测行为，无论是显式的还是隐式的，也将有助于调试这样的端到端系统。

我们能否只用网而不用树？

首先说结论。对于助手而言，神经网络（nets）可以实现非常高，甚至是超人的表现。而对于代理，我认为使用树结构（trees）仍然是有益的（尽管不一定是必须的）。

首先，树结构可以增强神经网络。以MCTS为例，MCTS提升了给定网络的性能，无论其是否基于神经网络。在AlphaGo中，即使使用通过监督学习和强化学习训练的策略网络，整体性能上，仍然比基于MCTS的AlphaGo要低。AlphaGo中将策略网络作为一个组件整合在内。

其次，神经网络可以从树结构中提取知识。在AlphaGo中，MCTS使用了价值网络和来自快速回滚策略网络的奖励来评估树中的节点（状态或棋盘位置）。AlphaGo论文还提到，虽然可以单独使用价值函数，但结合两者的结果才能达到最佳效果。价值网络本质上是通过直接学习状态-价值对，从策略回滚中提炼知识。这类似于人类将缓慢的系统2的逻辑思维提炼为快速、直觉反应的系统1。丹尼尔·卡尼曼在他的书《思考，快与慢》中描述了一个象棋大师如何在多年的练习后快速识别模式并做出迅速决策，而一个新手则需要付出大量努力才能达到类似的结果。同样地，AlphaGo中的价值网络可以通过训练能快速评估给定的棋盘位置。

无需搜索即可达到国际象棋特级大师级别（来源：DeepMind，2024）

最近的论文探索了这种快速系统在神经网络方面的上限。"无需搜索的象棋"论文展示了在有足够数据（来源于传统算法的树搜索）的情况下，有可能达到大师级的水平。存在一个明确的scaling law与数据量和模型规模相关，表明随着数据量和模型复杂性的增加，系统的熟练度也会提高。

因此，我们有一个强力组合：树结构可以提升神经网络的性能，而神经网络也可以从树结构中提取知识。这个正反馈循环基本上就是AlphaZero用来在多个游戏中自举到超人表现的方法。

同样的原则也适用于大型语言模型（LLMs）的发展。对于游戏，由于我们有明确的胜负奖励，我们可以使用前向回滚来确定某个动作或状态的价值。对于LLMs，奖励不像围棋那样明确，因此我们依靠人类偏好通过人类反馈强化学习（RLHF）来评估模型。然而，我们可以使用监督微调（SFT），本质上是模仿学习，从ChatGPT这样的模型中蒸馏出较小但仍然强大的模型，而无需RLHF。

回到最初的问题，神经网络在大量高质量数据的支持下可以达到非常高的性能。这对于助手来说可能已经足够，取决于对错误的容忍度，但对于自动代理可能还不够。对于目标是驾驶辅助系统（ADAS，也是一种助手）的系统，神经网络通过模仿学习可能已经足够了。

树结构通过显式推理循环显著提升了神经网络的性能，使它们可能更适合于完全自主的代理。树结构或推理循环的广度取决于工程资源的投入回报。例如，正如在TuSimple AI Day中所倡导的那样，即使是一次交互也能带来显著的好处。

我们能否使用LLM来做决策？

从以下对热门AI代表产品的总结中可以看出，LLM并不是为决策制定而设计的。实际上，LLM的训练目标是用来完成文档，甚至那些经过监督微调（SFT）对话助手例如ChatGPT，也是将对话视为一种特殊类型的文档（完成对话记录）。

截止到2024年影响力最高的的AI应用（作者制图）

目前有一种观点认为LLM是慢速系统（系统2）。对此我并不完全同意。由于硬件限制，LLM的推理过程确实较传统网络架构慢，但在其原始形式中，LLM无法执行反事实检查，所以它们还是快系统。提示技术如思维链（CoT）或思维树（ToT）实际上是蒙特卡洛树搜索（MCTS）的简化形式，使LLM更像是慢速系统。

目前有大量研究试图将完整的MCTS与LLM结合起来。具体来说，LLM-MCTS（NeurIPS 2023）将LLM视为常识“世界模型”，并使用LLM诱导的策略动作作为指导搜索的启发式。LLM-MCTS在复杂、新颖的任务上大幅超越了仅使用MCTS和LLM诱导的策略。OpenAI被广泛猜测的Q-star似乎也遵循同样的方法，通过MCTS提升LLM性能。

规划的演进趋势

以下是自动驾驶规划模块的一个大致的演进历史。之所以称之为“大致”，是因为并不是每个方案都一定比它前面的更先进，并且它们的问世时间也不一定是确切的。但是我们可以观察到一些总体趋势。需要注意的是，所列出的行业代表性解决方案都是基于我对各种新闻稿的理解，可能存在误差。

首先，可以看到规划模块的架构变得越来越“端到端“，即更多的模块被整合到一个系统中。我们可以看到模块从路径-速度解耦规划演变为联合时空规划，并从”预测-然后-规划“系统演变为联合预测和规划系统。其次，可以看到规划模块越来越多地采用基于机器学习的组件，特别是在最后三个阶段。这两个趋势趋向于一个端到端的神经网络规划器（不包括感知）甚至是一个端到端的单一模型的神经网络驾驶员（包括感知）。

自动驾驶规划演变简史（作者制图）

要点总结

机器学习作为工具：机器学习是一种工具，而不是单独的解决方案。即使在当前的模块化设计中，它也可以辅助规划。
完整问题表述：从完整的问题表述开始，然后做出合理假设以平衡性能和资源。这有助于为未来的系统设计制定明确的方向，并在资源增加时进行改进。回顾从POMDP的表述到AlphaGo的MCTS和MPDM等工程解决方案的过渡。
算法适应：理论上美妙的算法（如Dijkstra和Value Iteration）对于理解概念非常有用，但需要为实际工程进行适应（Value Iteration到MCTS，如Dijkstra算法到Hybrid A-star）。
确定性 vs. 随机性：规划在解决确定性（不一定是静态的）场景方面表现出色。在随机性场景中的决策制定是实现完全自主最具挑战的任务。
应急规划：这可以帮助将多个未来合并为一个共同的行动。应急规划的积极程度应使你始终可以依赖备选计划。
端到端模型：端到端模型是否能解决完全自主驾驶仍不明确。它可能仍需要经典方法如MCTS。神经网络可以处理助手任务，而树结构可以管理代理任务。

#理想MEGA在25年1月历史第一次月销量超小鹏X9

根据懂车帝数据，25年1月，MEGA月销807，小鹏月销801。这是MEGA历史第一次月销超X9。

据理想第一产品线负责人老汤哥直播透露，24年12月，MEGA是理想所有车型里唯一一款追加了产能的车型。MEGA 25年1月交付是24年10月水平，且明显好于24年8月水平。L6是24年5月水平，L789均差于24年任何一个月。

从任何维度都可以得出MEGA是理想25年1月和自己历史稳态比，表现最好的车型。

MEGA 24年销量走势分为三个大阶段，3月首发交了3229后，连续4个月单调下降，自6月开始，如果9月卖得少点，相当于连续7个月单调上升。9月“异常”上升可能是由于当时8月底9月初，新的置换补贴出台，导致9月异常猛了一把，单月销量处于理想历史第二高的水平，91011月，理想整体连续三月单调下滑，12月靠第一次推3年0息又“异常”猛了一把。

X9/MEGA大致分为4个阶段

第一阶段MEGA首发期遇到X9第三个月交付，二者都在3月来到了年内交付最高点，X9领先MEGA 22.21%。

第二阶段 X9 维持了3个月领先MEGA120%,最高单月领先186%，这时的主要驱动力是MEGA不断下滑，X9其实自己也在降，但MEGA降得太快了。

第三阶段 24年9-11月 X9领先MEGA 60%左右，既MEGA/X9在差距在缩小。主要推动力是MEGA明显上升，X9微降。但还是可以认为X9销量明显好于MEGA。

第四阶段 24年12月-25年1月 X9 MEGA销量同级别。

有人认为X9销量下滑是因为工信部备案5C电池，以及有预期会有新改款。

从实际月销来看，X9的销量自24年5月起，大体就从1600左右稳定下滑至1300左右。1月叠加春节影响，从1300量级降到800量级是一个比较正常的降幅。

25年2月开始，X9也开启了小鹏车型里唯一五年免息。

在TOP2信息茧房内，最近一段时间对MEGA好评的声音是越来越多了。MEGA改款时间不详，改款后的实际市场情况有待进一步观察。

24年12月AI Talk上，李想明确表达：

“我们错判了MEGA市场规模。我们认为MEGA可以在50万以上乘用车里去吃。L9发挥了这样的作用，既能抢轿车，又能抢MPV，还能抢SUV。但MEGA出来，我们发现，这个判断有问题。因为MEGA太长了，有5米3，用户群相对窄一些。我们确实抢了很多豪华MPV用户，但普遍都是长期MPV使用者买MEGA，非常满意。但并没有从太多其他轿车、SUV人群抢到属于MEGA的用户。因为他们自己开的时候，更愿意开SUV和轿车，这个尺寸停车更方便，倒不是因为造型。这意味我们只能在50万MPV里抢市场。”

李想形成这个判断，大概率基于两点：

理想调研到的真买了MEGA的人里，绝大部分是本来就打算买MPV的，本来考虑轿车SUV的人少。

理想调研到的目前不考虑买MEGA的人里，车长是一个很主流原因，倒不是因为造型。

如果很多人是因为对车长的顾虑而放弃MEGA的话，这背后就存在一个误会空间，这个误会空间是有机会被打破的。

消费者顾忌车长背后，大体是顾忌难开难停更易磕碰。

但实际上，根据大量MEGA车主真实反馈，任何一个随机人，真长期开L9和MEGA的话，绝对不会认为MEGA比L9更不方便。MEGA车长的不方便程度远低于大多数的朴素直觉。由于有自动泊车+车位随心画，MEGA停车上不会有任何困难。MEGA自动泊出唤醒不稳定，但得益于操控好，即使没有稳定的自动泊出，也是容易手动泊出的。

MEGA因为车长真实造成的不便，基本只有地库转弯时，如果根据原先的更短一些车的肌肉记忆，更容易剐蹭。但这点其实属于稍微注意一下就好。

反而MEGA物理尺寸是比L9窄的，这点在很多情况上比车长是更方便开车的。

可能会有一些人会尝试表达25年1月小鹏月交付超理想了，TOP2在这件事上核心5个观点：

观点1：局限于仅讨论25年1月，小鹏交付可以超理想，内核是小鹏有存量订单，如果以理想24年下半年销量为锚，25年1月是春节正常衰减。

观点2：P7+是一款产品力很出色的车，其标志着中国汽车工业水平进入了一个全新水平，与特斯拉迟迟推不出2.5万美元的乘用车形成鲜明对比。

观点3：小鹏25年会出大量新车新车型，实际销量情况有待市场检验，不宜默认一定会很好。

观点4：李想对AI的综合认知深度/重视程度/执行力/权力集中度/think different的能力这五点在中国车圈是降维打击，对AI圈没有降维打击。长期而言总会反应在用户价值上，反应在销量上，只是说未必会在25年充分反应。

观点5：鉴于小鹏给供应链的25年交付指引是35万，理想是70万，预期今年理想交付还是会高于小鹏。

在立场上是既充分肯定小鹏这轮成绩含金量，又对小鹏25年年度交付情况持观察态度，也非常坚定看好理想长期基本面。（提醒读者注意，TOP2此前严重高估了MEGA销量，建议充分批判性看待TOP2任何观点。）

小鹏本轮成绩的含金量主要体现在4个方面：

1.此前最多连续3月交付2万，且没有跨年。本次跨年连续3月交付破3万。

2.MONA/P7+卖爆后，其余车型大体维系住了此前的销量量级。

3.MONA/P7+的交付能力较P5/G6时期有明显长进，作为对比乐道相较蔚来此前水平，长进不明显。

4.P7+不是P7的改款与降价版，而是全面重新的产品定义，并且大量理念是符合理想的产品理念。

理想曾经连续28个月月交付超小鹏，曾连续22个月理想/小鹏月交付超200%。

小鹏上一次交付超理想是22年8月，当时理想交付4571，小鹏9578。4571是由于理想ONE临时提前停产导致的，算特殊情况。但是22年6月7月，理想交付也低于小鹏，且交付都大于1万，不算特殊情况。

22年1-7月，理想有4个月低于小鹏，3个月高于小鹏。

21年1-12月，理想有7个月低于小鹏，5个月高于小鹏。

自22年9月，L9开始交付后，理想连续28个月月交付超小鹏。自23年1月起，连续22个月月交付理想/小鹏超200%。跌下200%，来自24年11月，源自P7+大规模交付。

可以认为在理想L9交付前，在月交付量维度，理想小鹏是同一水平，长期互有胜负，小鹏胜的次数略多一些。

L9推出后，较ONE增价又有量，让理想品牌形象进一步提升。22年9月，与L9同期，小鹏冲击更高价位的G9遭遇严重失败。自此理想月交付开始与小鹏拉开差距。

L78与L9Pro的推出，在销量上，基本上是L78是在L9的基础上做纯增量。

23年1-7月理想/小鹏大体维系在300%+的水平，8-12月，理想一方面产能在扩张，12月理想为了冲5万交付较为急功近利，小鹏G6在上量，理想/小鹏在200-250%水平横跳。

24年1-8月，小鹏在经历了23年10-12月连续三月破2万后，开始哑火，24年1-4月连续4月交付不过万，G6销量大幅度下滑。理想/小鹏大多数处于350%+的水平。

这8个月，理想经历的是MEGA严重不及预期，L789改款销量不及预期，L6基本符合预期，L6在L789的基础上有一定增量。

即这段时期，理想/小鹏较23年还在提升，大体属于小鹏自己大幅度拉胯，理想不及自己预期，但L6还是带来了增量。

自24年9月开始的，理想/小鹏大幅度下滑，理想自己其实基本没有变化，包括25年1月也是正常下滑。推动力是MONA/P7+订单爆，小鹏交付能力提升，且在25年1月还有余量。

如果小鹏25年交付42万（给供应链的35万交付指引，给机构的40万交付指引），理想25年交付70万（给供应链的交付指引），且理想/小鹏年交付可能167%，大致处于2024年11-12月的水平。

#GaussRender

即插即用无痛涨点！使用高斯渲染学习3D占用率

理解驾驶场景的三维几何结构和语义对于安全自动驾驶汽车的开发至关重要。虽然三维占有率模型通常使用基于体素的监督和标准损失函数（如交叉熵、Lovasz、dice损失）进行训练，但这些方法独立处理体素预测，忽略了它们之间的空间关系。在本文中，我们提出了 GaussRender，这是一种即插即用的三维到二维重投影损失函数，可增强基于体素的监督。我们的方法将三维体素表示投影到任意二维视角，并利用高斯溅射作为一种高效、可微的体素渲染代理，在投影元素之间引入空间依赖关系。这种方法提高了语义和几何一致性，更有效地处理遮挡问题，并且无需对架构进行修改。在多个基准测试（SurroundOcc-nuScenes、Occ3D-nuScenes、SSCBench-KITTI360）上进行的大量实验表明，在各种三维占有率模型（TPVFormer、SurroundOcc、Symphonies）中，我们的方法都能持续提升性能，突出了我们框架的稳健性和通用性。

代码链接：https://github.com/valeoai/GaussRender
论文链接：https://arxiv.org/pdf/2502.05040

文章简介

从环视相机理解驾驶场景的三维几何结构和语义在自动驾驶中极具挑战性且至关重要。这对诸如目标检测、智能体预测、场景分割等任务有直接影响，并且是3D OCC研究中的主要关注点。

现有的三维场景理解方法采用多种表示空间和输入模态，每种都有其独特的优缺点。鸟瞰图（BEV）表示很受欢迎，因为它们能很好地整合多传感器数据，并且与下游任务（如规划和预测）兼容。然而，BEV 表示压缩了高度维度，在捕捉复杂三维几何结构方面效果较差。基于查询的方法提供了特定任务且紧凑的表示，但其缺乏可解释性带来了挑战。相比之下，基于三维的表示保留了空间细节，但训练计算成本较高。在实际应用中，使用这些表示的方法大多采用标准损失函数（如交叉熵、dice损失或 Lovasz 损失）进行训练，以监督体素预测与真实值的差异。尽管如此，这些损失函数独立优化预测，忽略了体素之间的空间关系，如图2所示。这一局限性阻碍了模型对物体整体几何结构的理解，导致训练效果不佳和几何理解不足。

在本文中，我们提议在不修改现有架构且仅引入极少计算开销的情况下，将三维到二维重投影损失函数集成到三维占有率模型的训练中，以解决这一局限性。核心思想是将预测的基于三维体素的表示投影到二维透视图中，并除了标准的三维监督之外，在图像空间中对模型进行监督。为此，GaussRender在应用高斯溅射之前，为每个体素创建一个高斯代理，这样可以受益于其轻量级和快速的渲染，而无需传统体绘制技术的开销。通过渲染二维透视投影，我们在投影到同一像素的元素之间引入了空间关系，对不一致的预测进行惩罚，并强制城市场景的空间语义一致性。此外，我们的方法可以无缝利用场景中任意位置的新视角，进一步改善遮挡处理，并通过不同视角丰富监督信号。通过这样做，我们的方法在所有研究的数据集和模型上，都能持续提高对语义和几何的理解。我们工作的主要贡献包括：

一个即插即用的模块，用于计算语义和深度渲染损失，在无需更改现有架构的情况下改进三维占有率模型的训练。
引入高斯溅射作为三维占有率任务中体素渲染的高效代理，降低计算开销。
一个与视角无关的监督框架，利用任意相机姿态进行稳健训练。
在三个标准基准测试中取得了SOTA，在复杂驾驶场景中获得了显著的性能提升。

相关工作回顾从相机学习3D语义几何在 3D 占有率任务中存在多种模型表示方式，所有这些方式都力求实现轻量化、无冗余，并能够保留对场景的几何和语义理解。这些标准对于 3D 占有率任务尤为重要，因为该任务需要对场景有高度的几何和语义理解，并且由于体素的立方表示形式，通常会导致较高的内存成本。为了克服这一问题，除了更传统的基于体素的表示形式外，结构化的中间表示空间（如三平面、八叉树、张量分解、鸟瞰图（BEV）、高斯或紧凑表示）也应运而生，它们以多尺度的方式发展，有时还会结合实例查询。无论采用何种提升过程或中间表示，现有方法都将占有率预测为体素网格，并与体素真值进行比较。因此，在获得最终体素网格后，即可接入 GaussRender。我们的模块计算额外损失，这使得 GaussRender 与模型架构无关。

除了特征表示，3D 占有率模型还注重采用其他策略来提升性能。聚合过去的信息可以优化场景表示，增进对被遮挡元素的理解，并增强当前帧的细节。一些方法将其扩展到 4D 预测，实现了对城市场景的时空和语义建模。自监督学习通过从相机数据中估计深度和语义图像，减少了对基于体素的真值的依赖。这些方法将学习到的表示与伪标签进行比较。然而，这些伪标签往往不够精确：深度估计需要重新缩放，并且语义可能与 3D 体素的数据集类别不匹配。监督渲染利用从重投影的语义激光雷达数据中获取的真值。虽然比伪注释更精确，但激光雷达重投影面临信号稀疏和遮挡等挑战。GaussRender 认同在 3D 占有率任务中使用图像投影的重要性，但我们强调，既要像自监督那样拥有密集表示，又要像激光雷达那样拥有精确表示，同时还无需额外的外部传感器。无论为真值选择何种方案，要获得具有可比性的预测结果，都需要探讨不同的渲染方式。

从3D重投影到2D透视图

添加基于体素的深度和语义渲染损失，需要将输入和预测的体素投影到透视图像平面上。虽然传统的可微渲染方法能够处理像点云和网格这样的3D模态，但最近的方法主要聚焦于神经渲染技术和基于高斯的方法，以渲染其他表示形式。

以前的 3D 占有率方法将激光雷达的重投影作为输入，并依赖基于神经辐射场（Neural Radiance Fields，NeRF）的技术来渲染预测的体素。神经辐射场将空间信息编码为一个连续的 5D 函数，该函数将 3D 坐标和观察方向映射为颜色和密度。神经网络可以预测空间中任意点的颜色和不透明度，通过从相机视角进行光线积分来实现图像合成。NeRF 能够有效地捕捉精细细节和复杂的光交互，如反射和折射。在实际应用中，这类使用 NeRF 的 3D 占有率方法依赖于沿光线的点采样。这样做的缺点是，更高的采样频率或高分辨率渲染会增加内存使用量。此外，这种渲染方式对图像质量和遮挡也很敏感，这促使人们开发辅助光线技术来克服遮挡问题。GaussRender 不使用此类技术，我们的模块基于另一种渲染技术。

最近，一种高斯重投影技术出现了。它可以将任何3D高斯投影到图像上的2D高斯上，同时使高斯参数的形状相近，并考虑每个像素上高斯的累积情况。这使得渲染效果更加逼真，且内存占用更低。最初，该技术用于场景渲染，如今已扩展到广泛的任务中，从场景编辑到物理渲染和生成。高斯表示最近在许多与自动驾驶相关的任务中得到应用：在预训练、世界模型中，作为端到端任务的表示，以及作为3D占有率表示。在自监督中，GaussianOcc使用类似的渲染方法，但以伪标签作为真值。除了其标注是估计得到的，质量不如真值外，它们的重投影只能在现有相机中进行，因为需要 RGB 图像来估计伪标签。GaussRender 允许从任意视角进行精确注释的渲染。据我们所知，我们的方法是首个研究仅基于体素注释的高斯渲染损失影响的方法，且与模型特征表示无关。最近发表的一项同期工作提出了一种高斯渲染损失，但他们的研究仅限于单个模型，并且使用额外的激光雷达模态来导出真值。由于激光雷达信号存在前面提到的缺点，主要是遮挡和稀疏性，他们开发了基于相邻帧的辅助光线技术。在我们的方法中，由于完美对齐，无需使用这些技巧，我们能够从任意视角计算损失。

GaussRender方法详解

下面详解介绍GaussRender，这是一种即插即用的渲染方法，用于增强3D占有率模型。首先，我们解释如何将我们的模块嵌入标准流程中，然后详细介绍我们的高斯渲染方法，最后，我们说明如何利用任意相机进行多视图监督。

GaussRender在3D占有率流程中的集成

传统上，视觉到3D语义占有率模型会接收一组 N 张图像，并预测场景的 3D 语义网格，其中 c 是所考虑的语义类别数量，代表场景的空间分辨率。

标准流程包含三个步骤。(1) 特征提取：图像通过骨干网络生成 2D 特征，其中是每张图像的通道数。(2) 3D 提升：利用交叉注意力和自注意力模块将特征投影到 3D 表示（例如体素、三平面等）中。(3) 体素预测：所有表示转换为体素，以便结合几何损失和体素损失，根据GT计算损失。

我们的方法在最后阶段发挥作用，如图4所示，这使其能与任何 3D 占有率架构兼容。

高斯渲染

由于核心思想是将3D语义体素表示投影到2D透视图中，我们旨在以高效且可微的方式渲染 3D 体素。因此，我们采用高斯溅射构建渲染策略，与传统的光线投射方法相比，该方法能够实现更快的渲染速度，同时保持可微性以支持梯度反向传播。

如图 5 所示，我们特意将体素的高斯参数简化为简单球体，以避免因无约束优化导致的退化配置（固定位置、缩放和旋转），并保留模型原始的类别置信度得分（语义转移）。对于位于位置的每个体素，我们创建一个简单的高斯基元，其参数如下：

：从体素网格坐标继承的位置。
s：来自模型最终预测的语义类别。
：从体素特征中学习得到的不透明度（如果默认模型中存在此类特征），或者从空语义类别的 logit 中获取。
：由体素尺寸确定的固定缩放比例。
：旋转等于单位矩阵（无方向）。
随后，与高斯相关的方程保持不变，因此高斯协方差矩阵 Σ 以及为每个像素赋予对应于渲染后高斯语义 “颜色” c 的渲染结果，计算方式如下：

且

其中，，，这里的索引 i 表示投影到当前像素的高斯，σ 代表密度，δ 表示沿光线的距离。

在生成GT时，我们遵循相同的步骤，但仅渲染被占据的体素，并为其赋予不透明度1。否则，我们在渲染预测结果时使用相同的缩放比例，并始终将高斯放置在体素位置上。

总体而言，这种可微渲染通过 2D 重投影损失实现监督，保持了体素之间的空间关系，而这正是传统体素级损失所缺失的关键特征。

其中代表在任意相机上渲染的深度图像，代表在任意相机上的语义渲染结果，“pred” 表示从预测体素导出的图像，“gt” 表示从地面真实值导出的图像。

来自任意相机的2D GT

相机放置策略：我们的模块能够渲染场景中任意相机位置的视图，这与先前仅限于传感器原始固定视角的方法不同。这种灵活性使得我们可以从多个不同角度对学习过程进行监督，包括原始传感器无法看到的区域。我们通过修改相机参数（即相机的内参和外参，也就是相机的类型和位置）来实现这一点，如图 6 所示。

相机位置的合理选择取决于任务的复杂程度。根据我们是仅关注可见体素的预测，还是也希望完成对不可见体素的预测，我们会采用不同的策略。在后一种情况下，我们将相机定位在能够捕捉传感器无法看到的体素的位置，从而提供更全面的监督信号。我们采用的策略是将相机抬高并稍微向下倾斜，这样它们既能看到传感器视野之外的区域，又能共享大量信息。

鉴于鸟瞰图（BEV）在自动驾驶任务中的重要性，我们系统地添加一个虚拟 BEV 相机，以获得更精确的表示。这也有助于提供关于传感器无法看到的体素的额外信息。

关于 BEV 渲染（标记为标签），由于其位置远离场景，我们仅计算语义损失（不计算深度损失）：

因此，我们模块的总体 2D 渲染损失定义为：

训练损失：最后，模型的训练损失简单地是原始 3D 训练损失（由交叉熵、Lovasz 和骰子损失组合而成）与我们的 2D 渲染损失之和：

其中 λ 是 2D 损失的加权因子。在我们所有的实验中，λ 都等于 5，以使得 2D 损失的贡献与 3D 损失大致相当。

实验

数据和模型

数据：训练和评估在三个数据集上进行：SurroundOcc-nuScenes、Occ3d-nuScenes和 SSCBench-Kitti360。

SurroundOcc-nuScenes 数据集源自 nuScenes 数据集 [5]，在波士顿和新加坡采集。它整合了 nuScenes 的激光雷达注释，创建了分辨率为(50cm^3)的 3D 语义占有率网格，标签对应 17 个激光雷达语义分割类别。该数据集同时考虑了可见和被遮挡的体素，被遮挡的体素通过在整个序列的帧上累积激光雷达数据获得，这会在动态物体上引入时间伪影。

Occ3D-nuScenes 同样基于 nuScenes 数据集，包含 18 个语义类别，体素网格分辨率为(40cm^3)。与 SurroundOcc-nuScenes 的一个主要区别是，Occ3D 仅评估当前帧中从相机可见的体素，没有激光雷达累积数据。因此，它专注于对可见物体的几何和语义理解，而非推断被遮挡区域，任务相对简单。 SSCBench-Kitti360源自 Kitti360 数据集，在德国采集，包含 19 个语义类别，体素网格分辨率为(20cm^3)，能非常精确地表示城市场景语义。评估时同时考虑可见和被遮挡的体素。

我们在此简要概述了每个数据集在 3D 占有率任务方面的特定特征，更多详细信息可在附录 A 中找到。模型和训练细节：我们将 GaussRender 集成到三个使用不同中间表示的模型中：SurroundOcc（基于多尺度体素的方法）、TPVFormer（基于三平面的方法）和 Symphonies（基于带实例查询的体素方法）。通过这样做，我们验证了所提出的方法与任何类型的架构兼容这一观点。对于每个模型和数据集的组合，我们遵循相同的流程。默认情况下，如果有可用的作者预训练模型，我们就进行评估；如果没有，则报告先前论文中的分数；否则，我们针对目标数据集重新训练模型。

GaussRender 实现了最先进的结果

3D 语义占有率结果

我们在多个模型和数据集上评估 GaussRender 的 3D 语义占有率预测能力。我们的方法在不需要某些方法中使用的激光雷达等其他传感器的情况下，持续提升性能。结果总结在表1中

我们的结果表明，GaussRender 持续提升了各种架构的性能，使其达到最先进的水平，在无需投影激光雷达注释的情况下取得了领先结果，并且在不同数据集规模和注释密度下均保持有效。这证明了 GaussRender 对于 3D 语义占有率学习的重要优势。

仅使用 2D 渲染目标进行训练

为了评估 GaussRender 捕捉城市场景语义和几何信息的有效性，我们通过比较一类仅使用 2D 监督而不使用 3D 监督进行 3D 占有率训练的模型的 3D IoU 和 mIoU，来单独测试我们的模块。为了与其他方法进行比较，我们将 GaussRender 集成到 TPVFormer 中。如表 3 所示，该模型的 mIoU 达到 22.15，超过了 RenderOcc]（提升 2.82 mIoU）和 GSRender（提升 0.79 mIoU）。此外，与这些方法不同，GaussRende 不需要来自相邻帧的辅助光线，实现起来更简单，计算成本也更低。

更细粒度的多视图指标分析

传统的 3D 语义占有率指标提供场景级别的综合得分，对所有体素同等对待，这可能会掩盖不同区域和视角之间的性能差异，无法充分反映模型准确地定位物体和表面的能力，而这是 3D 语义占有率任务的关键目标之一。为了解决这个问题，在 3D 占有率训练的背景下，我们引入了额外的评估指标，以捕捉空间理解的不同方面。鸟瞰图（BeV）指标对于运动预测和规划至关重要，它使用和来衡量空间准确性。同时，传感器视图指标通过、和深度误差，从原始自车位置的视角评估几何和语义一致性。

为了确保公平比较，并量化我们模块带来的潜在收益，我们使用统一的协议，将使用和未使用 GaussRender 训练的模型的体素输出转换为高斯表示。体素转换为高斯时，使用与地面真实值对齐的固定尺度，从体素预测中转移语义标签，并将被占据体素的不透明度设置为 1，然后计算渲染结果。

我们的多视图分析结果如表2所示。可以观察到，使用 GaussRender 同时提升了所有指标，不同数据集和模型的组合都有系统性的提升。我们特别注意到，图像空间 IoU 提升了 2.16/6.68，深度 L1 误差降低了 0.18/0.53。而且，GaussRender 通过提升 0.82/1.89 的 BeV IoU，改善了空间理解能力。此外，TPVFormer 和 SurroundOcc 在所有数据集和评估中都显示出显著的改进。该评估突出表明，使用 GaussRender 不仅提高了 3D 占有率预测，还增强了与 BeV 和 2D 传感器观测的一致性。

消融研究

虚拟视点监督的影响

GaussRender 的一个关键优势是，我们不依赖激光雷达数据和特定的光线配置，而是直接渲染体素，从而能够从任意视点进行渲染。为了探究不同虚拟相机放置的影响，我们评估了以下几种定位策略：传感器策略：相机放置在数据集中的原始位置和方向。

随机策略：通过相对于原始自车位置进行±10°的俯仰和偏航变化，以及±10m的前后移动，在场景中随机定位相机。

升高策略：将相机抬高 8m 并向下倾斜 20°，这提供了更广阔的视野并减少了体素遮挡。

表 4 量化了这些策略对最终 3D 预测的影响。相机放置的选择应根据具体任务进行调整。如果目标是仅预测可见体素，如在Occ3D-nuScenes中，使用与传感器对齐的视点可获得最佳结果。然而，如果目标还包括推断被遮挡区域，如在SurroundOcc-nuScenes中，放置虚拟相机以最大化这些区域的可见性可提供更好的监督。随机策略进一步凸显了谨慎选择相机位置的重要性：随意放置相机通常会导致3D指标较差，因为它们主要观察到的是空的空间。

体素的高斯化

我们渲染过程中的一个重要参数是用于表示体素的高斯的固定大小。为了研究高斯尺度的影响，我们在 Occ3d-nuScenes数据集上训练了一个 TPVFormer模型，并在地面真实值和预测渲染中改变尺度。在这项研究中，我们仅使用2D渲染损失训练模型，省略了通常的3D体素损失，以专注于尺度对渲染指标的影响。

我们的结果（图 7）表明，高斯尺度对模型性能至关重要。我们需要找到合适的平衡：如果高斯太大，只有少数高斯会覆盖整个图像，损失将主要从最近的元素反向传播；反之，如果高斯太小，体素之间会出现间隙，导致稀疏激活，使模型仅渲染空类，从而产生非常低的指标值。

从理论上讲，由于体素具有固定大小，最优大小应该与体素大小相关。直观地说，用一个标准差为（其中 c 是体素边长）的球形高斯来表示一个体素。分析可得，对于 Occ3d-nuScenes 和 SurroundOcc-nuScnees，；对于 SSCBench-KITTI360，。

结论

在本文中，我们提出了 GaussRender，这是一种专为 3D 占有率任务设计的高斯渲染模块。我们基于高斯的渲染方法无需外部传感器，仅在体素上运行，与任何现有架构兼容，并且在所有研究的数据集和模型上均实现了性能提升，达到了最先进的水平。

GaussRender 易于集成，仅引入了一个自由度（高斯的尺度），同时保持较低的计算和内存开销，并允许从任何视点渲染体素。此外，我们表明，系统地使用增强 3D 预测空间相干性的损失函数，对于改善 3D 占有率结果以及增强体素与其在图像和鸟瞰图（BEV）中的重投影之间的 3D-2D 一致性至关重要。

#当下激光雷达Slam和视觉Slam的瓶颈是什么？

已经（基本）解决的问题

低动态场景下的建图；
基于先验地图的厘米级定位；
室外与gps互补，提供高频平滑的轨迹；

工程上的一些不足（多数从业者可以解决的问题）

视觉slam：低纹理场景下鲁棒性不足（可以通过引入多摄像头和以superpoint为代表的学习类匹配方法改善）
激光slam：几何结构相似场景的定位/重定位（面对具体业务场景，可以通过多种trick解决，例如加反光柱）
通病：高动态场景地图的维护与稳定定位（建图时选择静态场景，定位时轮式机器人通过轮速计，腿式机器人通过pdr实现定位约束）
更低的占用，更高的频率，更高的精度与鲁棒性。这些其实不是问题哈哈哈，看具体项目吧。

真正的危机

如何长时高动态的自动地图维护：面对以年为时间单位的动态地图，如何自主的维护地图，并智能实现高召回率的重定位与鲁棒的定位。
如何建立更好的语义地图。如何使用预训练的vlm模型，建立一个高信息密度的语义地图，实现多种地图查询任务。这涉及到大模型，具身智能，导航等相关技术，未来的slam肯定不是一个独立的工作站，而是要向端到端靠拢。
slam这个技术栈的重要性在减弱。面对大多数场景，其实不需要高精度的定位（想想人类的定位模式）。在具身智能时代，我们更希望机器人在简单的拓扑地图先验下，使用粗精度（米级）的定位与实时环境感知完成导航与操作任务。

#DMAD

性能跃迁15%！开环端到端SOTA新突破：分合驱动下的运动-语义联合学习框架~

感知环境及其随时间的变化，涉及两种基本但性质不同的信息类型：语义信息和运动信息。以往的端到端自动驾驶研究，将这两种信息都表示在单个特征向量中。然而包含预测和规划等运动任务，往往会损害检测和跟踪性能，这种现象在多任务学习中被称为负迁移。为解决这一问题，我们提出了神经贝叶斯运动解码（Neural-Bayes motion decoding）方法，这是一种新颖的并行检测、跟踪和预测方法，它将语义学习和运动学习分离，类似于贝叶斯滤波器。具体来说，我们采用一组学习得到的运动查询，与检测和跟踪查询并行运行，并共享一组统一的递归更新参考点。此外，我们使用交互式语义解码，来增强语义任务中的信息交换，促进正迁移。在 nuScenes 数据集上的实验表明，该方法在检测性能上提升了5%，跟踪性能上提升了 11%。在不对规划模块做任何修改的情况下，我们的方法在开环规划评估中，实现了当前最优的碰撞率。

论文链接：https://arxiv.org/abs/2502.07631

简介

模块化端到端（E2E）自动驾驶（AD）正受到越来越多的关注，因为它结合了传统流水线方法和严格端到端方法的优点。模块化端到端框架本质上是一个多任务学习挑战。人们期望各种任务能够相互补充，共同提高整个系统的性能。然而设计不佳的多任务学习结构，不仅无法促进相互学习，还可能对单个任务产生不利影响，这种现象被称为负迁移。目前流行的模块化端到端方法通常采用顺序结构（图 1a）。这种结构符合人类在执行驾驶任务时的思维方式，并且在规划性能方面表现出良好的前景。然而，这些方法在目标检测和跟踪方面存在负迁移现象。换句话说，联合训练的端到端模型的感知性能，通常不如那些未进行运动预测和规划任务训练的模型。

我们通过研究学习到的异构信息类型（语义信息和运动信息），分析负迁移的潜在原因。语义信息包括周围物体的类别、车道、路口等，而运动信息描述了环境中随时间发生的变化。顺序方法依次执行这两个过程，首先进行检测和跟踪，然后利用表示物体的特征进行轨迹预测。这种顺序设计迫使特征包含运动信息，损害了最初学习到的语义信息，从而导致感知的负迁移。另一种结构，如图 1b 所示，通过不同的头并行执行大多数任务，例如PARA-Drive和NMP。然而，由于检测和预测仍然是顺序进行的，负迁移问题依然存在。

在这项工作中，我们提出了 DMAD 结构（图 1c），即用于端到端自动驾驶的运动和语义学习的分离与融合。DMAD 通过分离语义学习和运动学习，解决了负迁移问题。此外，它通过融合语义任务，利用了语义任务之间的相关性。

在分离方面，我们提出了神经贝叶斯运动解码器。我们保留一组运动查询，这些查询与目标（检测和跟踪）查询并行地关注鸟瞰图（BEV）特征。运动查询和目标查询的关键区别在于，运动查询被解码为过去和未来的轨迹，而不是带有类别的边界框。运动查询和目标查询共享一组参考点，这些参考点由检测和预测递归更新。这使得两种类型的查询之间，仅通过参考点进行有限的信息交换，且没有梯度流动。此外，我们使用有限差分法，根据预测轨迹计算物体的速度，从而消除了目标查询直接学习速度的需求。通过这种方式，目标查询专注于学习语义和外观特征，而运动查询则专门用于捕捉运动特征。两种类型的异构信息，沿着不同的路径分别学习，有效地防止了负迁移。值得注意的是，据我们所知，DMAD 结构首次将运动学习提升到与语义学习同等的水平，将检测、跟踪和预测视为并发任务。

在融合方面，我们提出了交互式语义解码器，以增强检测和地图分割中语义信息的交换。目标感知和地图感知本质上是相关的任务。以往的方法常常忽略这种联系，通常沿着并行路径执行这两个任务。DualAD 利用了这种相关性，但只允许目标感知从地图中学习。我们的方法使用逐层迭代自注意力机制，实现目标任务和地图任务之间的相互学习，促进正迁移。

基于 UniAD，在 nuScenes 数据集上进行的实验，展示了DMAD结构在减轻负迁移方面的有效性。我们的方法在感知和预测方面，取得了显著的性能提升。在不修改规划模块的情况下，我们展示了改进的感知和预测，如何在开环评估中使规划受益，实现了当前最优的碰撞指标。

总结来说，我们的主要贡献总结如下：

提出了 DMAD，这是一种模块化的端到端自动驾驶范式，它根据任务应学习的信息，对任务进行分离和融合。这种设计消除了不同类型任务之间的负迁移，同时加强了相似任务之间的正迁移。
引入了神经贝叶斯运动解码器，与目标检测和跟踪同时进行轨迹预测，并引入了交互式语义解码器，以增强目标感知和地图感知之间的信息共享。
在nuScenes数据集上，验证了基于 UniAD 的方法的有效性。它在感知和预测结果上有所改进，并在开环规划中实现了当前最优的碰撞率。

#Driving-by-the-Rules

阿里&西交MapDR新基准：填补在线地图空白！万级视频标注+多模态模型~

遵守交通规则行驶是实现自动驾驶系统的必要条件，车道级交通规则通常包含在高精地图中，为自动驾驶系统提供了准确、可靠的规则指导。受限于高精地图的更新频率低、更新成本高的局限，当前自动驾驶系统朝向 “在线感知建图” 的方向发展。而目前的在线建图方法主要关注于车道线、道路拓扑等道路结构的感知，忽视了对于包含更多语义信息的交通规则的理解，这一局限使自动驾驶系统仍然需要依赖离线地图获取交通规则，限制了自动驾驶系统的“在线化”趋势。

交通标牌是道路上的“视觉语言”，在指示交通规则中发挥了关键作用。由人类驾驶过程的启发，从交通标志中理解交通规则需要完成两个任务，首先理解交通标志牌中指示的车道级交通规则内容，同时要明确规则作用于具体哪一条车道（关联到具体的车道中心线）。同时完成上述两个任务，才能为自动驾驶系统提供准确的车道级交通规则作为指导。现有的相关工作往往关注于二者其一，缺乏对此项任务的全面研究。

为了填补当前研究的空白，本文组织了 MapDR 数据集，包含了超过 10,000 个真实驾驶场景以及18,000 条结构化车道级驾驶规则，并且提出了 Integrating traffic regulations into online HD maps 任务以及评测指标。同时，本文提出了一个模块化方法 VLE-MEE 和一个端到端方法RuleVLM，为此项任务提供了有效的 Baseline。数据集以及方法细节请见下文～

论文链接：https://arxiv.org/abs/2410.23780v2

项目主页：https://xuanmaixue.github.io/Driving-by-the-Rules.github.io/

Integrating traffic regulations into online HD maps

本文所提出任务关注于将交通标志中的车道级交通规则整合至在线构建的高精地图中，需要完成两个子任务：

从交通标志中抽取车道级交通规则
建立交通规则与车道中心线之间的关联关系

如下图所示，本文将车道级交通规则定义为多个 key : value 构成的结构化表达，以便于整合至自动驾驶系统中服务于规控等下游步骤。现实场景中一个标志牌中可能包含多条车道级交通规则，同时每条交通规则也可能与多条车道中心线相关联，这也是解决此任务中的难点。

Dataset & BenchmarkMapDR Dataset

MapDR 数据均高德地图的真实采集数据，关注于来自于北京、上海、广州三座城市的常见交通标志牌以及道路信息。数据集包含了超过 10,000 个行车场景，其中超过 18,000 条驾驶规则。

其中每个场景（一个 Clip）包含：

Raw Data

30+ 帧连续前景图像
关注交通标志的位姿（每个场景仅关注于一个标牌）
以标牌为中心 100m * 100m 范围内的矢量化地图（包含矢量线型）
相机内参以及每一帧对应的相机位姿

Annotation
标牌中包含的若干条车道级交通规则以及对应的车道中心线
每条交通规则对应的标牌内区域（以位姿表示）

数据表示如下图所示：

Evaluation Metric & Benchmark

总体任务可以视为一个二分图匹配任务，如上图所示。其中抽取车道级交通规则视作对于图中 Rule Node 的预测，Rule 和 Centerline 之间的关联关系可以视作图中 Edge 的预测。评测时两个子任务分别关注于 Rule Node 和 Edge 的 Precision 和 Recall，总体任务关注于最小子图（由一个Rule Node、一个 Centerline Node 和一条 Edge 组成）的 Precision 和 Recall

示例如下（R.E. 指规则抽取，C.R.指关联关系推理）：

最终方法的评价指标以 F1 Score 为标准

Approach

Modular Approach

模块化方法由三个级联模块构成：

Grouping：融合标牌图像信息和 OCR 信息完成标牌上元素的车道级区域分组
Understanding：依次融合单个分组的 OCR 和标牌图像信息，使用融合后的信息进行分类以预测交通规则中每个 key 对应的 value
Association：对矢量地图进行特征编码并且与交通规则特征进行信息融合，通过二分类完成判定每条车道中心线是否与交通规则关联

其中 MEE 模型专门用于对矢量地图进行特征编码，将每个矢量点进行 tokenize，使用 learnable query 配合 Intra & Inter Instance Attention 进行矢量特征的聚合，融合后每个 query 对应一条矢量的特征信息。通过 CrossAttention 进行矢量特征和交通规则特征的融合，使用融合后的 feature token 进行分类以判定中心线与规则的关联关系。

End-to-End Approach

端到端方法在多模态大模型基础上进行了探索，以 Qwen-VL-Chat 7B 作为基础模型，如图所示分别以不同方式进行了LoRA SFT，令模型生成结构化文本形式的交通规则：

TextPrompt：输入完整前景图像 + 标牌图像，将矢量点坐标以文本形式进行输入。
VisualPrompt：输入包含矢量投影的完整前景图像 + 标牌图像
RuleVLM（best）：输入完整前景图像 + 标牌图像，使用 MEE 对矢量进行特征抽取并且对齐至 LLM

Experiment

在 MapDR 数据集上进行的实验结果如上表所示，启发式方法（OCR 判定 + 最近车道线匹配）难以理解复杂的交通标志牌内容，同时也无法完成复杂场景下的车道-规则关联。VLE-MEE 和 RuleVLM 分别为模块化方法和端到端方法提供了有效的 Baseline.

结论

综上所述，本文的贡献如下：

首次提出了 Integrating traffic regulations into online HD maps 任务，以及用于基准测试的 MapDR 数据集和评测指标。
MapDR 包含 10,000+ clip，涵盖了不同的交通状况，并包括超过 18,000 条人工标注的车道级交通规则。所有数据都是真实采集，并且经过了细致的校验，助力于相关任务的研究。
提出了模块化（VLE-MEE）和端到端（RuleVLM）两种建模方法，为目标任务并和未来的研究提供有效的 Baseline 方法。

#理解视觉or预测未来

到底什么是World Models

paper link：https://arxiv.org/pdf/2411.14499v1

一 Motivation

本文对世界模型进行了系统分类，强调了两个主要功能：（1）构建内部表示来理解世界的机制，（2）预测未来状态以模拟和指导决策。本文首先调研了这两个方向的最新工作进展，然后，探讨了世界模型在关键领域的应用，包括自动驾驶、机器人和社会模拟；最后，概述了关键挑战，并为潜在的未来研究方向提供了见解。

其实，世界模型的定义还是一个正在争论的话题，本文是从目前World models的工作中，world models的功能的角度划分：理解世界和预测未来。“理解世界”侧重于学习并内化世界知识以支持后续决策的模型，而“预测未来”强调从视觉感知增强物理世界中的预测和模拟能力。

二背景

2018年世界模型的概念首次在人工智能领域引入[1]，David Ha等人追溯了世界模型概念的起源，回到1971年建立的“心理模型”的心理原理，提出人类将外部世界抽象为简单的元素及其相互关系来感知它。这一原则表明，当从深度、内部的角度来看，我们对世界的描述通常涉及构建一个足够且不需要详细描述的抽象表示。基于这个概念框架，Ha 引入了一个受人类认知系统启发的代理模型，如上图World Models所示。在这个开创性的模型中，代理接收来自现实世界环境的反馈，然后将其转换为一系列训练模型的输入。该模型擅长模拟外部环境中特定动作后的潜在结果。本质上，它创建了一个潜在未来世界演变的心理模拟，并根据这些状态的预测结果做出决策。赭红方法和基于模型的强化学习很类似。

2022年，Yann LeCun提出Joint Embedding Predictive Architecture (JEPA)，模拟人脑结构的框架。这个框架包括一个处理感官数据的感知模块，然后是一个评估这些信息的认知模块，有效地体现世界模型。该模型允许大脑评估动作并确定最适合实际应用的响应。LeCun的框架结合了“快“”慢”双系统概念。系统 1 涉及直观、本能的反应：没有世界模型做出的快速决策，例如直觉地躲避迎面而来的人。相比之下，系统 2 采用深思熟虑、计算的推理，它考虑了世界的未来状态。在这个框架中，世界模型对于理解和表示外部世界至关重要。它使用潜在变量建模世界状态，这些变量捕捉关键信息，同时过滤冗余信息。这种方法允许世界的高效、简约的表示，促进未来场景的最佳决策和规划。

模型捕获世界知识的能力对于它们在广泛的现实世界任务中的有效性能至关重要。2023年兴起的大语言模型（LLMs）展示出了在世界认知方面的潜力，这些模型捕获了直观的知识，包括空间和时间理解，能够对现实场景进行预测。此外，LLM 能够通过认知图对外部世界进行建模，有研究揭示了嵌入在其中的类似大脑的结构。这些模型甚至可以根据先前的经验预测未来的事件，从而提高它们在现实世界环境中的实用性和适用性。

上面提到的世界模型是对外部世界的隐式理解，2024年2月，OpenAI发布的Sora模型则是一个视频生成模型，被认为是世界模拟器。Sora输入真实世界的视觉数据并输出预测未来世界演化的视频帧。值得注意的是，它展示了卓越的建模能力，例如在相机运动和旋转期间保持 3D 视频模拟的一致性。它还可以产生物理上合理的结果，例如在汉堡上留下位标记；模拟数字环境，例如在 Minecraft 游戏中渲染第一人称视图。这些能力表明，Sora不仅模仿了真实世界场景中的外观，还模拟出了其动态特性，专注于真实建模动态世界变化，而不仅仅是表示静态世界状态。

不管是聚焦在外部世界的内在表示，还是模拟世界的运行法则，这些方法都揭示了世界模型的本质目的是理解世界的动态特性，并且预测未来的场景。

三外部世界的隐式表示

Decision-making里的世界模型

在决策任务中，理解环境是为优化策略生成奠定基础的主要任务。因此，决策中的世界模型应该包括对环境的全面理解。它使我们能够在不影响真实环境的情况下采取假设的动作，从而促进低试错成本。关于如何学习和利用世界模型的研究最初是在model-based RL 领域提出的。此外，LLM 和 MLLM 的最新进展也为世界模型构建提供了全面的主干模型，使用语言作为更一般的表示，基于语言的世界模型可以适应更通用的任务。在决策任务中利用世界模型的两种方案如图所示：

World model in model-based RL

在决策中，世界模型的概念主要是指基于模型的 RL (MBRL) 中的环境模型。决策问题通常被表述为马尔可夫决策过程 (MDP)，用元组（S,A,M,R,）表示，其中S,A,表示状态空间、动作空间和折扣因子。这里的世界模型由状态转换动力学M和奖励函数R组成。由于奖励函数在大多数情况下是定义的，MBRL 的关键任务是学习和利用转移动态（transition dynamics），进一步支持策略优化。

世界模型的学习：为了学习准确的世界模型，最直接的方法是在每个one-step transitions上计算均方误差，

这里的M* 是收集的轨迹数据中的实际转移动态，是学习的参数。除了直接利用确定性转换模型外，Chua等人还使用概率转换模型进一步对任意不确定性进行建模。目标是最小化转换模型之间的 KL 散度：

在这两种情况下，世界模型学习转换为监督学习任务。学习标签是源自真实交互环境的轨迹，也称为模拟数据。

对于更复杂的场景，状态空间是高维的，表征学习就变得很重要。Ha and Schmidhuber采用自动编码器结构通过潜在状态重建图像；Hafner等人提出对于视觉任务学习视觉编码和隐式的动态特性；Samsami等人提出了一个Recall-to-Imaging框架，进一步提升模型学习过程中的记忆能力；最近的另一个趋势是在不同的任务之间进行统一的模型学习，使用transformer结构，将MDP表示为next-token-prediction范式。

用世界模型生成policy：使用理想的优化后的世界模型，生成相应策略最直接的方法是模型预测控制 (MPC)。MPC在给定模型的情况下规划动作序列，如下所示：

Nagabandi等人采用一种简单的蒙特卡罗方法对动作序列进行采样；Chua等人提出了一种新的概率算法，该算法集成了轨迹采样；生成世界模型策略的另一种流行方法是蒙特卡洛树搜索 (MCTS)，通过维护一个搜索树，其中每个节点代表由预定义value function评估的状态，将选择动作，使代理可以处理具有更高值的状态。AlphaGo 和 AlphaGo Zero是代表应用。Moerland等人扩展MCTS来解决连续动作空间中的决策问题。Oh等人提出了一种value预测网络，该网络将MCTS应用于学习的模型，以根据价值和奖励预测来搜索动作。

World model with language backbone

LLMs和MLLMs展示了在决策任务中的巨大潜力。LLMs作为世界模型，主要有两种用法：直接预测动作序列和模块化的使用。直接预测动作比较好理解，就是利用大模型的通识能力，微调大模型，直接输出动作序列；模块化的使用指的是将基于LLM的世界模型作为模块与其他有效的规划算法相结合，可以进一步提高决策质量。Xiang等人在世界模型中部署了一个具身代理，VirtualHome的模拟器，其中相应的具身知识注入到llm中。为了更好地规划和完成特定的目标，他们提出了一种目标条件规划模式，使用蒙特卡罗树搜索 (MCTS) 来搜索真正的任务目标。林等人引入了一个代理 Dynalang，它学习多模态世界模型来预测未来的文本和图像表示，并基于想象的模型输出采取行动。策略学习阶段利用纯粹基于先前生成的多模态表示的 actor-critic 算法。Liu等人进一步将llm的推理转化为贝叶斯自适应马尔可夫决策过程(MDPs)的学习和规划。LLM就像世界模型一样，在MDPs的actor-critic更新中以in-context的方式执行。RAFA框架在多个复杂的推理任务和环境(如ALFWorld)中显示出显著的性能提升。

模型学习的世界知识

这里主要针对分析的是LLM中的世界知识。区别于常识和一般知识，本文从世界模型的角度关注大型语言模型中的世界知识。基于对象和空间范围，大型语言模型中的世界知识可以分为三个部分：1）全球物理世界的知识；2）局部物理世界的知识；3）人类社会的知识。

全球物理世界的知识

Gurnee等人提出了第一个证据，即大型语言模型真正获取世界的时空知识，而不仅仅是收集表面统计数据。他们在LLama2中发现了不同的“空间神经元”和“时间神经元”，这表明该模型在多个尺度上学习空间和时间的线性表示。Manvi等人开发了关于文本地址的有效prompts，以提取关于地理空间的直观真实世界知识，并成功地提高了模型在各种下游地理空间预测任务中的性能。虽然大型语言模型确实获得了现实世界的一些隐含知识，但这些知识的质量仍然值得怀疑，冯等人发现嵌入在大型语言模型中的城市知识通常是粗略和不准确的。为了解决这个问题，他们提出了一个有效的框架来改进大型语言模型中特定城市的城市知识的获取。从这些工作中，我们可以看到，尽管大型语言模型已经证明了捕获现实世界知识的能力，但很明显，需要进一步的努力来增强这些知识，以实现更广泛和更可靠的实际应用。

局部物理世界的知识

与全球物理世界的知识不同，局部物理世界代表了人类日常生活和大多数现实世界任务的主要环境。因此，理解和建模局部物理世界是构建综合世界模型的另一个关键主题。我们首先介绍认知地图的概念，它说明了人类大脑如何对外部世界进行建模。虽然最初是为解释人类学习过程而开发的概念，但研究人员已经在大型语言模型中发现了类似的结构，并利用这些见解来提高人工模型在学习和理解物理世界方面的效率和性能。

最近的研究探索了主动鼓励模型在跨各种环境条件下，用类似认知地图的过程来学习抽象知识。例如，Cornet 等人在简化的 Minecraft 世界中使用视觉预测编码通过空间认知地图的构建来证明学习的有效性。Lin等人通过世界模型学习过程来教模型理解游戏环境，具体的方式是预测环境的下一帧。通过这种方式，该模型可以在动态环境中生成更好的动作。此外，Jin等人发现语言模型可以通过预测下一个token来学习程序语义的涌现表示。

人类社会的知识

除了物理世界之外，理解人类社会是世界模型的另一个关键方面。Theory of Mind解释了个人如何推断他们周围其他人的精神状态。最近的研究广泛探索了大型语言模型如何开发和演示这种社会世界模型。其中一条路线是侧重于评估大型语言模型在各种心理任务理论上的性能，以确定它们的类人行为是否反映了对社会规则和隐性知识的真正理解。例如，Strachan 等人在不同的Theory of Mind能力（例如理解虚假信念和识别讽刺）上对人类和 LLM 性能进行了比较分析。虽然他们的证明了 GPT-4 在这些任务中的潜力，但也确定了其局限性，尤其是在检测 faux pas 方面。

为了解决这些限制，研究人员提出了创新方法来提高大型语言模型在复杂现实应用的Theory of Mind中的能力。Wu等人引入了COKE，它构建了一个知识图来帮助大型语言模型明确地使用认知链中的理论。此外，Alex 等人开发了 SimToM，这是一个两阶段提示框架，以提高大型语言模型在思维任务理论中的性能。

四物理世界的未来预测

World Model as Video Generation

传统的世界模型主要聚焦在预测离散的或者静态的未来状态，然而，通过生成能够捕捉连续空间和时间的动态特性，类似视频的模拟仿真，世界模型已经发展到能够解决更复杂、动态的环境。这种视频生成的突破将世界模型的能力推向了一个新的水平。

迈向视频世界模型

视频世界模型是一个计算框架，旨在通过在视觉上下文中处理过去的观察和潜在动作来模拟和预测世界的未来状态。这个概念建立在世界模型的更广泛想法之上，该模型努力捕捉环境的动态，并使机器能够预测世界如何随着时间的推移而演变。视频世界模型的重点是生成表示这些演化状态的视觉帧序列。

这里主要讲一下Sora，Sora基于文本、图像和视频等各种输入模态，生成高质量的、时间一致的视频序列，长达一分钟。Sora 利用强大的神经网络架构（包括编码器-解码器框架和transformers）的组合来处理多模态输入并生成视觉连贯的模拟。Sora的核心能力在于它能够生成与现实世界物理原理一致的视频，例如光在表面上的反射或蜡烛的熔化。这些属性表明 Sora 有可能充当世界模拟器，根据其对初始条件和模拟参数的理解来预测世界的未来状态。然而，Sora也有一些局限性，比如因果推理，Sora 只能根据观察到的初始状态被动生成视频序列，但不能主动干预或预测动作的变化如何改变事件的过程。另一个限制是它仍然不能一致地再现正确的物理定律。虽然Sora可以生成视觉上逼真的场景，但它很难准确地模拟真实世界的物理，例如物体在不同力、流体动力学下的行为，或者准确描述光和阴影相互作用。

视频世界模型的能力

尽管关于 Sora 等模型是否可以被认为是世界模型的争论还在持续，但毫无疑问，视频世界模型在推进环境模拟和预测方面具有巨大的潜力。这些模型可以通过生成逼真的动态视频序列来提供理解和交互复杂环境的强大方法。下面概述了视频世界模型必须具备的关键能力，以便将它们与传统的视频生成模型区分开来。

Long-Term Predictive Ability。视频世界模型应该能够在很长一段时间内做出符合环境动态规则的长期预测。这种能力允许模型模拟场景如何演变。尽管 Sora 已经实现了具有高质量时间一致性的长视频序列的生成（分钟级别），但它仍然远未能够模拟现实世界环境中复杂、长期的动态。最近的工作探索了扩展视频长度以捕获长期依赖关系并提高时间一致性。

Multi-Modal Integration。除了语言引导的视频生成之外，视频世界模型越来越多地整合其他模态，如图像和动作，以增强真实感和交互性。多模态的集成允许更丰富的模拟，更好地捕捉现实世界环境的复杂性，提高生成场景的准确性和多样性。

Interactivity。视频世界模型的另一个关键能力是它们具有可控性和交互性的潜力。理想的模型不仅要生成真实的模拟，还要允许与环境的交互。这种交互性涉及模拟不同动作的后果并提供反馈，使模型能够用于需要动态决策的应用场景。最近的工作重点是增强对仿真模拟的控制，允许对场景进行更多用户引导的探索。

Diverse Environments。视频世界模型正在适应各种特定场景的模拟，包括自然环境、自动驾驶和游戏。这些模型正在超越基本的视频生成范式，复制真实世界的动态并支持广泛的应用。

World Model as Embodied Environment

具身领域的世界模型的开发对于模拟和预测代理如何与外部世界交互并适应至关重要。最初，生成模型专注于模拟世界的视觉方面，使用视频数据来捕获环境中的动态变化。最近，重点转向创建完全交互和具身化的模拟。这些模型不仅代表了世界的视觉元素，而且还结合了更能反映现实世界动态的空间和物理交互。

作为具身环境的世界模型可以分为三类：室内、室外和动态环境。目前大多数工作都集中在开发静态、现有的室内和室外具身环境。新兴趋势是通过生成模型预测动态的、未来的世界，这些模型产生第一人称视角、动态的基于视频的仿真模拟环境。这样的环境可以为训练具身代理提供灵活和现实的反馈，使它们能够与不断变化的环境交互并提高其泛化能力。最近的工作总结如下所示：

五应用

自动驾驶领域

在生成式的世界模拟器出现之前，自动驾驶中世界模型的概念已经存在了很长时间。现代自动驾驶系统可分为感知、预测、规划和控制四个主要组成部分。整个过程可以看作是一个决策链路。感知和预测阶段代表了学习车辆世界隐式表示的过程。这也可以看作是世界模型的一种形式。因此，我们将从两个角度详细说明自动驾驶中世界模型的应用和发展：学习世界隐式表示的模块和输出车辆感知数据的世界模拟器。

学习隐式表示

自动驾驶汽车通常使用相机、雷达和激光雷达来感知现实世界，通过图像、视频数据和点云数据收集信息。在初始决策范式中，模型通常以感知数据为输入，直接输出自动驾驶汽车的运动规划结果。相反，当人类操作车辆时，他们通常会观察和预测其他交通参与者的当前和未来状态，以确定自己的驾驶策略。因此，通过感知数据学习世界的隐式表示并预测周围环境的未来状态是提高自动驾驶汽车决策可靠性的关键步骤。

在多模态大模型和端到端自动驾驶技术出现之前，自动驾驶汽车的感知和预测任务通常被分配到不同的模块，每个模块都在各自的任务和数据集上进行训练。感知模块从图像、点云和其他来源处理数据以完成对象检测和地图分割等任务，将感知世界投影到抽象几何空间中。此外，预测模块通常会在这些几何空间中操作，以预测周围环境的未来状态，包括交通参与者的轨迹和运动。

近年来，随着多模态大模型的出现和快速发展，许多工作试图将这些模型的一般场景理解能力应用于自动驾驶领域。TOKEN利用语言模型处理长尾预测和规划问题的推理能力，将整个交通场景token化为对象级知识，OmniDrive建立了基于llm的代理，并通过视觉问题回答涵盖了场景描述、反事实推理和决策等多个任务。

世界模拟器

在多模态大模型和基于视觉的生成模型出现之前，交通场景模拟通常在几何空间中进行。这些模拟所依赖的场景数据通常由自动驾驶汽车的感知模块收集或手动构建。这些模拟以几何轨迹的形式表示场景的未来状态，这需要进一步的建模和渲染来产生适合车辆感知的输出。多个模块的级联通常会导致信息丢失并提高模拟的复杂性，使场景控制更具挑战性。此外，逼真的场景渲染通常需要大量的计算资源，这限制了虚拟交通场景生成的效率。

使用基于扩散的视频生成模型作为世界模型部分解决了上述问题。通过对大规模交通场景数据集进行训练，扩散模型可以直接生成与现实非常相似的相机感知数据。此外，扩散模型的固有可控性，结合CLIP等文本图像对齐方法，使用户能够以直接的方式对场景生成施加控制。GAIA-1和DriveDreamer系列是最早使用这种方法构建世界模型的。在此基础上，Drive-WM 引入了规划任务的闭环控制，Vista专注于提高生成结果的分辨率，延长预测持续时间。除了预测视频空间中未来状态的方法外，许多其他工作还探索了不同形式的车辆感知数据。OccWorld和OccSora通过预测3D占用网格来预测世界的未来状态，而Copilot4D通过预测雷达点云数据的变化来构建世界模型。与视频数据相比，这些类型的特征更好地反映了交通场景的空间特征。

机器人

世界模型已成为机器人技术变革性范式，使机器人能够感知、预测和在复杂环境中有效执行。由于神经网络和机器学习算法的进步，机器人能够构建捕获世界关键组件的隐式表示。另一方面，预测模型能够直接预测世界的未来状态，超越了抽象表示，允许机器人预测可能的环境变化并主动做出反应。通过上述强大的技术，机器人直接从现实世界环境中交互和学习变得实用。llm和世界模型被认为是人工智能(AGI)的可能路径之一。

Learning Implicit Representation

传统的机器人任务(如物体抓取)通常在高度结构化的环境中执行，其中关键组件被显式建模，消除了机器人独立学习或适应其对世界的理解的需要。然而，当机器人部署在不熟悉的环境中时，特别是那些没有显式建模关键特征或动力学的任务，以前成功的任务可能会失败，因为机器人很难推广到这些未知特征。因此，使机器人能够学习其环境的隐式表示是实现智能的关键第一步。

RoboCraft将视觉观察转移到粒子中，并通过图神经网络捕获底层系统的结构。此外，还对物理空间的感知进行了其他尝试。PointNet首先用非对称函数对非结构化三维点云进行编码，捕捉环境的空间特征。最近的工作将沿局部探索路径获得的观察结果组装成其潜在空间中物理空间的全局表示，使机器人能够跟踪并接近特定的目标。随着LLM语言理解的进步，实现机器人捕获任务意图的新范式涉及以文本形式描述任务，然后通过llm获得文本表示。BC-Z 利用语言表示作为任务表示，提高了机器人的多任务性能。Text2Motion使用LLM将自然语言指令分为task-level和motion-level的规划，以处理复杂的顺序操作任务。

Predicting Future states of Environment

机器人任务总是顺序的和长期的，当前时刻做出的决策可能会对未来的任务的性能产生深远的影响。因此，通过预测他们的行为如何影响未来的环境状态，机器人可以避免潜在的错误并提高任务性能。传统的机器人使用闭环算法使用当前观察来指导动作选择，导致机器人短视并可能导致不可逆的错误，即使它最终意识到它已经采取了错误的动作。尽管一些方法声称在机器人技术中实现突破性的性能，但它们依赖于基于专家知识的显式动态函数，限制了预测的扩展性和鲁棒性。

MORL 引入了单调双曲线模型来预测更新策略的改进。同时，Trajectron++通过条件变分自动编码器计算未来轨迹的概率分布来预测环境。最近，视频生成模型使用diffusion和transformers作为骨干已经成为未来状态预测的流行选择。例如，UniPi 将动作预测制定为视频预测问题，并训练具有初始状态的约束扩散模型作为显式条件上下文，以实现对未来的准确想象。类似地，VIPER 在专家视频上利用了预训练的自回归转换器，引导机器人正常运行，而 Genie 包括一个动态模型，该模型使用先前的视频帧和动作预测环境的下一个状态。GR-2得益于互联网上数百万未标记的视频，在机器人任务上进行了微调，实现了对机器人未来图像和动作轨迹生成的准确预测。

From Simulation to Real World

深度强化学习在机器人策略学习中表现出色，使机器人能够执行稳定的行走，物体抓取，甚至将鞋带捆绑在一起。然而，深度强化学习在样本效率方面并不好。例如，机器人在现实世界中学习解决 Rubik 的 Cube 需要数万年，这极大地限制了其实际应用。因此，大多数机器人工作都是基于模拟进行的，各种分布式训练技术提高了样本收集的效率。尽管模拟效率很高，但模拟环境中训练有素的机器人在现实世界中经常失败。这种能力是因为模拟不能完全恢复现实世界，并且训练有素的策略在这些分布外场景中可能会失败。另一方面，准确建模现实世界的环境具有挑战性，因为模拟环境通常与现实世界不同，这种差异在长距离决策中累积，导致策略不适应世界的变化。

世界模型在机器人在现实世界中处理通用任务方面显示出巨大的希望。NeBula构建了一个信念空间，机器人执行推理和决策，能够适应不同的机器人结构和未知环境，而DayDreamer从离线数据中泛化了一个世界模型，使机器人能够在几个小时内直接在现实世界中行走。此外，SWIM 从人类视频中学习，并在没有任何任务监督的情况下从机器人环境中进行微调，这只需要不到30分钟的真实世界的交互数据。OpenEQA 进一步展示了对机器人在环境和任务上的理解的基准，提供了对现实世界具身代理的一般评估。

世界模型的另一应用是Social Simulacra，这里不详述了，感兴趣的参考原文。

六开放问题和未来方向