CoLMDriver：基于 LLM 的协商有利于合作自动驾驶-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/146999931

25年3月来自上海交大和上海AI实验室的论文“CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving”。

车对车 (V2V) 协作式自动驾驶通过解决单智体系统固有的感知和预测不确定性，有望在提高安全性方面取得巨大进展。然而，传统的协作方法受到严格的协作协议和对未见过交互场景有限泛化的限制。虽然基于 LLM 的方法提供了广义推理能力，但它们在空间规划方面的挑战和不稳定的推理延迟阻碍它们在协作驾驶中的直接应用。为了解决这些限制，CoLMDriver，是一个基于全流水线 LLM 的协作驾驶系统，可实现有效的基于语言协商和实时驾驶控制。CoLM-Driver 具有一个并行驾驶流水线，包含两个关键组件：(i) 基于 LLM 的参与者-评论家范式下的协商模块，它通过所有车辆先前决策的反馈不断完善合作策略；(ii) 意图引导的航点生成器，它将协商结果转化为可执行的航点。此外，还推出 Inter-Drive，一个基于 CARLA 的模拟基准，包含 10 个具有挑战性的交互式驾驶场景，用于评估 V2V 合作。

该基于 LLM 带批评反馈的协商方式如图所示：对协商输出进行评估

请添加图片描述

CoLMDriver 整体架构如图所示：CoLMDriver 通过并行驾驶流水线运行，旨在解决协商的延迟挑战，而不会中断下游规划器的正常执行。高级指导生成流水线以相对较低的频率进行深度推理，以制定全面的、由共识驱动的驾驶意图，而低级感知-规划-控制流水线则以高频率运行，以确保实时车辆控制。

请添加图片描述

高级流水线，通过两个核心组件协调合作决策：i）基于 LLM 的 Actor-Critic 范式下协商模块，其中 LLM 使车辆之间能够进行多轮协商，以在评估者的反馈指导下就驾驶策略达成共识；ii）基于 VLM 的意图规划器，通过综合多模态环境上下文生成高级驾驶意图。VLM 意图规划器根据当前状态的文本描述、从低级感知模块检测的物体和前置摄像头输入不断细化驾驶意图。如果预测到冲突，LLM 协商模块首先与周围车辆进行动态图分组，形成协商组，然后获取当前驾驶意图，在评估器的指导下进行多轮协商过程。协商结果和意图指导随后反馈到低级航点规划器，以指导精确规划。

低级流水线，遵循感知-规划-控制结构。当接收到传感器数据时，感知模块生成目标级 3D 信息和 BEV 感知特征，进行空间理解作为规划任务的辅助输入。为了将基于语言的信息转化为可操作的航点，关键组件是意图引导的航点规划器，它利用感知特征和高级规划意图来生成航点。这些航点由控制模块转换为控制信号，从而改善协作驾驶结果。

高级指导流水线，负责战略决策和合作协商，通过语义推理和多智体共识增强驾驶适应性。它由两个核心组件组成：基于 VLM 的意图规划器和基于 LLM 的协商模块。协商过程中，协商结果指导低级规划器，而当未激活协商时，VLM 输出优先。

基于 LLM 的协商模块

基于 LLM 的协商模块，与周围的智能车辆进行多轮对话，通过就驾驶策略达成共识来解决预测的冲突。鉴于 LLM 推理中的延迟可以忽略不计，协商系统专注于如何有效地就优化的驾驶策略达成共识。为了确保协商的普遍性，避免施加严格的输出格式或严格的沟通规则。然而，过于不受限制的谈判可能难以达成共识。关键创新在于，在谈判系统中融入Actor- Critics范式。这种范式是一种强化学习方法，其中 “Actor” 根据当前策略选择行动，而“Critics”通过提供其质量反馈来评估所选行动，从而更快地收敛到最佳结果。在本文方法中，基于 LLM 的谈判者充当Actor，评估者充当Critics。通过根据对话质量、安全性和效率期望提供反馈，利用 LLM 的上下文学习能力来促进谈判过程的快速收敛。基于 LLM 的谈判模块，由三个主要组件组成：i）动态图分组机制，识别有谈判需求的智体并在动态交通场景中建立通信；ii）基于 LLM 的谈判器，使用自然语言与分组的智体进行谈判；iii）谈判质量评估器，充当Critics，向谈判者提供反馈以加速达成共识。

整体流程。谈判过程开始后，车辆首先使用动态图分组机制组成谈判组。在每一轮中，车辆按指定顺序轮流“发言”。然后，谈判质量评估器评估情况，提供有关共识、安全性和效率的反馈。基于 LLM 的谈判者将此反馈纳入其输入，相应地调整其驾驶意图，并再次调用评估器。经过几轮协商，当评估者确定已经达成共识时，协商结束，最终的驾驶意图将传递给每辆车的下游规划者。

动态图分组机制。确定与谁以及何时通信对于车辆至关重要。为了应对这一挑战，优先考虑最有可能发生冲突的车辆组，并构建通信图以促进有效协商。假设车辆可以在其硬件范围内自动建立通信，并能够广播基本信息，例如其计划的未来航路点。

为了更好地阐明车辆之间的相互影响，通过构建时空车辆图进行动态分组。每辆车都被视为一个节点，未来可能发生冲突的车辆通过边连接，这些边是根据从其航路点得出的安全分数计算出来的。在任何给定时刻，都会构建空间车辆图并应用深度优先搜索 (DFS) 将所有连接的车辆聚集成组。为了避免由于动态群体不断变化的特性而导致的驾驶策略不一致，保留历史群体并跨时间维度合并相交群体，从而获得全面的分组结果。

在时间 T 的通信图 G 是迭代构建的。然后在每个组内进行协商，从而实现驾驶策略的局部优化，有助于提高整体性能。

基于 LLM 的协商器。基于 LLM 的协商器与组中的其他车辆进行类似人类的语言协商。输入包括自车的当前速度、意图、其他车辆的广播信息、历史对话和 Critics 的建议（如果存在）。由于 LLM 的推理时间与输出长度成正比，设计提示以确保简洁的信息传输，并采用提示缓存技术来保持时效性。基于 LLM 的协商器，整合来自组成员的共享信息，考虑过去的对话，并结合评估者的反馈来输出可能包括自我行动、请求或对他人的回应的信息。

由于所使用的 LLM 不是在特定领域进行训练的，该范式不同于以前的多车辆协同驾驶方法，不需要每辆车配备特定的模型，从而展示 LLM 的多功能性和广泛适用性。

谈判质量评估器。谈判质量评估器充当Critics，根据未来规划评估谈判表现，并生成与共识、安全和效率问题相关的反馈。评估过程遵循三个关键步骤：总结、评分和批评。要启动评估，可以在组内的随机车辆上激活评估器。根据当前轮次对话，评估器首先使用 LLM 总结每辆车的行为，将其转换为驾驶意图格式，然后将结果分发给所有车辆。每辆车的航路点规划器，使用总结的意图作为输入，生成规划航路点，并广播这些规划以协助评估。评估器通过评估三个关键方面（共识、安全和效率）来进行评分过程。共识分数 S_c 由 LLM 判断，表明组中的每辆车是否愿意执行达成的策略。安全分数 S_s 和效率分数 S_e 均来自航路点来计算。

最后，评估者通过分类器 Ψ 提供反馈 R，批评那些不符合要求标准的分数。这种批评被用作下一轮谈判的输入，通过鼓励更快的收敛来引导系统走向最佳驾驶策略。

基于 VLM 的意图规划器

基于 VLM 的意图规划器，利用语言模型中嵌入的广义知识来识别不寻常的物体并处理复杂的场景，提供更全面的决策支持。重点是提供最佳的高级驾驶意图，以准确指导下游规划器。为了全面高效地激活基于 VLM 的意图规划器的理解和决策能力，设计分层的提示生成流程和有限的输出格式。提示包含以易懂格式编写的感知结果，提供准确的环境信息。为了收集不同环境下的合理驾驶意图，用 V2Xverse [8] 平台并聘请专家智体 [1] 记录驾驶数据，捕捉各种城市场景。驾驶意图定义为导航意图和速度意图。导航意图来自地面真实导航指令，而速度意图则从专家的驾驶速度中提取。为了使 VLM 适应驾驶意图评估这一特定任务，利用处理后的驾驶数据进行基于 LoRA 的迁移学习。

低级规划层侧重于实时执行，将高级意图转化为几何上可行的轨迹和控制命令。关键组件是意图引导的航点规划器，它以高频率运行，以驾驶意图为指导进行精确规划。

意图引导的航点规划器

意图引导的航点规划器充当连接高级驾驶意图和低级实施路径的桥梁。挑战在于如何将高级意图精确地映射到特定场景作为可用的航点。设计包括两个主要部分：意图到航点的数据生成和模型结构。

意图到航点的数据生成。为了实现精确的意图引导航点生成，使用专家智体的航点作为参考，并生成与预期动作一致的航点，同时满足实际场景约束。根据加速度受周围物体密度影响的观察，提取参考车辆的实际航路点，并使用环境自适应加速度模型对其进行插值，该模型生成与不同驾驶意图相对应的精细航路点。给定一个真实航路点 W ，数据生成过程可以表示为 W_g = Φ(W, a)。这里，加速度 a = f(I, x, σ) 由意图 I 引导，由环境自适应加速度模型 f 生成，考虑到与最近车辆的距离 x 和车辆密度 σ。生成的航路点 W_g 由函数 Φ 插值，该函数符合驾驶规范并适应环境条件。

模型结构。为了确保航路点与同一场景下的不同驾驶意图保持一致，开发一个基于 Transformer 的意图引导航路点规划器，如图所示。该模型有效地从 BEV 占用图和前几帧的 BEV 特征中获取输入，这些输入由 MotionNet [42] 编码器处理以捕获环境背景。此外，目标导向的输入（包括目标点、导航意图和速度意图）通过 MLP Fuser 融合以形成引导背景。多层 Transformer 解码器在航路点查询和环境/引导背景之间执行交叉注意，然后由航路点解码器生成一系列航路点。然后，这些航路点被传递给控制模块以产生必要的控制信号。

请添加图片描述

为了评估自动驾驶系统处理多车交互的能力，在 V2Xverse 仿真平台上提出 InterDrive 基准测试。该基准测试涵盖 10 种典型的多车场景，每种场景都涉及多辆待测车辆。为这些车辆分配大量重叠的目标路径以鼓励冲突，并随机部署其他交通参与者（车辆、行人、自行车）作为障碍物。这些场景的构建是为了模拟多辆道路车辆自动驾驶的真实交通场景。

实验中，在 0.9.10.1 版 CARLA 模拟器 [30] 上实现并评估方法。除实时消融实验外，所有实验的模拟频率均设置为 5 Hz。对于 CoLMDriver 框架中的低级流水线，部署 PointPillars [44] 来编码点云。出于准确性和效率的考虑，用 Lora 微调 [45] 作为 InternVL2-4B [46] 的 VLM 意图规划器，并使用 Qwen2.5-3B [47] 作为 LLM 协商器。对于意图航点Transformer，使用 256 的嵌入大小和 256 的中等特征大小，并以 5 Hz 的频率输出 20 个航点。