DriveMLM: 自动驾驶中采用行为规划状态对齐多模态大语言模型

本文链接：https://blog.csdn.net/yorkhunter/article/details/139585515

23年12月来自上海AI实验室、香港中文大学、商汤科技、斯坦福大学、南京大学和清华大学的论文”DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving“。

大语言模型（LLM）为智能体开辟了新的可能性，赋予它们类似人类的思维和认知能力。这项工作深入研究大语言模型 (LLM) 在自动驾驶 (AD) 中的潜力。引入DriveMLM，一个基于 LLM 的 AD 框架，可以在现实模拟器中执行闭环自动驾驶。为此，（1）根据现成的运动规划模块标准化决策状态，从而弥合语言决策和车辆控制命令之间的差距。（2）采用多模态LLM（MLLM）对模块化AD系统的行为规划模块进行建模，用驾驶规则、用户命令和来自各种传感器（例如相机、激光雷达）数据作为输入并做出驾驶决策和解释；该模型可以在现有的AD系统（例如Apollo）中即插即用，实现闭环驱动。（3）设计一个有效的数据引擎来收集包含决策状态和相应解释标注的数据集，用于模型训练和评估。该模型在 CARLA Town05 Long 上获得了 76.1 的驾驶分数，在相同设置下超出 Apollo 基线 4.7 分，证明了模型的有效性。

特别说一下，用语言指令描述特殊要求（例如避让救护车或遵守交通规则）来改变 MLLM 规划器的决定。如图所示，顶图：当紧急车辆从后面出现并导致变道时，DriveMLM会接到指令让路。底图：DriveMLM 被指示闯红灯，导致偏离常见交通规则。在这些情况下，驾驶系统会受到驾驶偏好改变的影响，从而导致非常规的控制决策。
在这里插入图片描述

自动驾驶 (AD) 从传统的基于规则的系统，即依赖于一组先验知识提供的预定义规则（见下图a），演变为数据驱动的端到端系统，如下图b所示。由于专家知识的限制或训练数据的多样性，这些系统仍然遇到了限制，在处理极端情况变得具有挑战性，尽管人类驾驶员可能直观地就可以处理。与这些传统的基于规则或数据驱动的 AD 规划器相比，使用网络规模文本语料库训练的大语言模型 (LLM) ，配备了广泛的世界知识、强大的逻辑推理和先进的认知能力。这些功能使它们成为自动驾驶系统中的潜在规划器，为自动驾驶提供类人的方法。

最近的一些研究[13,16,24,39,56,68,72]将LLM集成到自动驾驶系统中，重点是生成基于语言的决策，响应驾驶场景。然而，这些方法在现实环境或现实模拟器中执行闭环驾驶时存在局限性。这是因为LLM的输出主要是语言学和概念性的，不能用于车辆控制。在传统的模块化AD系统中[3,21,22]，高层战略目标和低层动作之间的差距通过行为规划模块连接起来，其决策状态可以很容易地通过后续运动规划和控制转换为车辆控制信号。所以将LLM与行为规划模块的决策状态保持一致，可设计一个基于LLM的闭环AD系统，用对齐的LLM做行为规划，可以在现实环境或现实模拟器上运行，如下图c所示。

在这里插入图片描述
多模态大语言模型的发展。大语言模型 (LLM) [7, 46, 47, 53, 54] 的快速发展最近引发了多模态 LLM (MLLM) 的出现 [1, 2, 12, 17, 23, 26, 29 , 30, 33, 37, 38, 51, 67, 71, 78–80, 83]，它增强了语言模型分析和理解来自不同模态信息的能力。例子包括 GPT-4 [46]、Flamingo [1]、KOSMOS-1 [26]、LLaVA 系列 [37, 38] 和 MiniGPT-4 [83] 以及 InstructBLIP [17]。这些模型集成了视觉指令调整方法，增强 MLLM 遵守规定指令的能力。此外，mPLUG-DocOwl [78] 合并数字文档数据集，扩大了 MLLM 的文档理解能力。同时，Shikra [12]、VisionLLM [67]、KOSMOS-2 [51]、LISA [30] 和 Qwen-VL [2] 增强了 MLLM 的视觉落地能力，能够根据用户提示去检测或分割目标。 VideoChat [33] 和 VideoLLaMA [79] 的引入迎来了视频处理能力与LLMs的集成。此外，NExT-GPT [71]引入了一种用于多模态提示调整的模态-切换指令调整技术，有助于处理文本、图像、视频和音频的任意组合输入和输出。 ASM [29] 和 GPT4RoI [80] 将区域级识别和理解能力引入LLMs。这些努力证明了LLMs的有效性和普遍性，为开放世界任务奠定了基础。

带LLMs的智能体回顾。LLMs的一个新兴应用是在促进智能体（例如机器人、虚拟助理或游戏角色）和各种实体（包括人类、环境，甚至智能体本身）之间的交互和通信方面所发挥的作用。几种基于API 的方法，包括 Visual ChatGPT [69]、MM-REACT [77]、HuggingGPT [59]、InternGPT [40]、ViperGPT [62]、ControlLLM [41] 和 GPT4Tool [76]，试图把不同模态API与LLMs集成，完成开放世界中的复杂任务，例如图像编辑、视频处理和音频合成。这些方法允许语言模型遵循自然语言指令来执行复杂的现实世界任务。与此同时，其他研究计划，如 Camel [31]、AutoGPT [75]、MetaGPT [24] 和 Smallville [50]，研究了LLMs在角色扮演对话或交流游戏背景下的作用。此外，在体现人工智能领域，PaLM-E [19]、EmbodiedGPT [45] 和 RT 系列 [5,6,48] 等利用 LLM 生成自然语言动作，从而控制熟练执行的具身智体在真实或 3D 环境中的导航、操作和交互任务。这些工作展示了LLMs在智能体控制领域取得的显着进步。

大语言模型相关的自动驾驶工作。最近[13,16,39,43,56,68,72]引入LLM进行驾驶规划改变了认知，为自动驾驶领域开辟了新的方向。作为早期探索，一些[56, 68]使用 ChatGPT 和 GPT-4 来预测驾驶决策。仅以语言输入条件，对LLM 模型进行微调，可以预测驾驶信号 [13]、轨迹 [43] 或设计的决策空间 [39]。 DriveGPT4 [72] 微调多模态 LLM 预测控制信号。然而，DriveGPT4 受到单目输入的限制，限制了其构建全面场景信息的能力。上述所有基于LLM的工作都没有在闭环驾驶的真实模拟器上进行评估，因为要么LLM的语言决策很难转化为实际可靠的控制信号，要么LLM对控制信号的直接预测与实时闭环驾驶存在一个很大的差距。

本文的DriveMLM框架将大语言模型（LLM）的世界知识和推理能力集成到自动驾驶（AD）系统中，实现现实模拟器中的闭环驾驶。如图所示，该框架具有三个关键设计： (1) 行为规划状态对齐，这部分将 LLM 的语言决策输出与 Apollo [3] 等成熟的模块化AD系统行为规划模块保持一致。这样，LLM的输出可以很容易地转化为车辆控制信号。 (2) MLLM 规划器，它是多模态token化器和多模态 LLM (MLLM) 解码器的组合。多模态token化器将多视图图像、LiDAR、交通规则和用户需求等不同输入转换为统一tokens，MLLM解码器根据统一的tokens做出决策。 (3)高效的数据收集策略。它为基于LLM的自动驾驶引入了定制的数据收集方法，确保提供包含决策状态、决策解释和用户命令的全面数据集。
在这里插入图片描述

在推理过程中，DriveMLM框架利用多模态数据来做出驾驶决策。这些数据包括：多视点图像I，T表示时间长度，NI表示视点数量，H和W表示图像的高度和宽度。点云L来自激光雷达点云，K代表点的数量。系统消息M，NM表示系统消息token的数量。系统消息是任务定义、交通规则和决策状态定义的集合。用户指令U，NU代表用户指令token的数量。这些输入通过多模态token化器进行token化，产生：XI、XL、XM、XU，分别表示多视图图像、激光雷达点云、交通规则和用户指令的token嵌入。这里，NQ表示输出token数量，由Q-Former[32]的查询数量决定，每个token嵌入具有D维。接下来，这些token输入到MLLM解码器，MLLM解码器生成决策状态tokenS以及相应的解释E。最后，决策状态S被输入到运动规划和控制模块。该模块计算车辆控制的最终轨迹。

下表是系统消息以及用户与 DriveMLM 系统之间的交互示例。系统消息包括驾驶任务的描述、交通规则和决策状态的定义。给定图像和用户提示等驾驶场景，驾驶系统可以推断出图像字幕、路径和速度决策以及附加说明。
在这里插入图片描述