24年2月牛津大学和北京智源AI研究院的论文“RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model”。
由“黑盒子”模型驱动的机器人需要提供可以信任的人类可理解解释。因此,可解释性在值得信赖的自主决策中发挥着关键作用,提高最终用户的透明度和接受度,尤其是在复杂的自动驾驶中。多模态大语言模型(MLLMs)的最新进展表明,产生控制预测和自然语言解释,在增强驾驶智体的可解释性方面具有很好的潜力。然而,由于昂贵的注释成本和不同数据集之间的显著域差距,导致数据严重短缺,这使得开发一个强大且可推广的系统成为一项极具挑战性的任务。此外,MLLM昂贵的训练要求和尚未解决的“灾难性遗忘”问题进一步限制了其部署后的通用性。为了应对这些挑战,提出RAG Driver,这是一种检索增强多模态大语言模型,它利用上下文学习实现高性能、可解释和可推广的自动驾驶。通过检索的专家演示,实证验证RAG-Driver在生成驾驶动作解释、理由和控制信号预测方面实现了最先进的性能。更重要的是,它在没有进一步训练的情况下,对未见的环境表现出了非凡的零样本泛化能力。
如图所示:右边:系统用自然语言描述和证明车辆所采取的行动,并以数字控制信号(速度和转向角)的形式推断驾驶行动。为此,通过多模态大语言模型使用了统一的感知和规划模块。核心贡献是一种检索机制,用于搜索与当前条件相似的驾驶场景,并使用这些场景通过上下文学习来增强当前预测。这带来更好的总体描述和预测,并且在新的部署领域中更具通用性。左边:分布内ID和分布外OOD通用设置中的专家和通用基线(横轴)。与所有基线相比,本文方法实现了更好的性能,在CIDEr测量下,有很大的余地推动行动解释和论证任务。
RAG-Driver是一个检索增强的多模态大型语言模型(MLLM),用于可解释的通用端到端驾驶。它的多任务能力包括三个关键领域:(1)动作解释,提供人类可以理解的驾驶动作描述;(2) 动作理由,阐明具体驾驶动作背后的理由;以及(3)下一控制信号预测,响应于驾驶条件预测即将到来的控制信号。(3)它由两个主要组件组成:一个建立在MLLM主干上的统一感知和规划单元,以及一个构建在混合向量和文本数据库上的记忆单元。这些组件通过检索引擎进行交互,在决策过程中实现强大的多模式上下文学习(ICL)。
如图是RAG- driver的概述:给定一个包含当前驾驶场景视频及其相应控制信号的查询,该过程从输入输入到检索engine开始。它在内存数据库中搜索与当前场景相似的驾驶体验,从而提供相关的上下文学习样本。随后,多模式大型语言模型(MLLM)处理当前查询和检索到的上下文学习样本。基于高级任务指令,该模型参与各种预测任务:动作解释、动作正当性和下一个控制信号预测。
如图是视频编码器架构。视频首先被分割成在时间上串联的k×32×32个补丁,其中这些补丁被线性投影到视频嵌入。然后,用视频语言对比学习(CLIP4clip)[49]对模型进行训练,获得语言对齐的视频表示。
虽然最先进的LLM表现出零样本ICL能力,但几项工作[18]和本文消融研究显示,当对规划的ICL演示进行专门训练时,可得到进一步改进。特别是,基于BDD-X数据集[38]构建了一个多模态指令调优数据集,其中包含结构化的ICL示例,从而生成16K视频问答对。对于具有相关控制信号的8帧驾驶视频序列——速度、航向、加速度和曲率作为当前查询,用检索机制来检索2个相关的驾驶体验,然后将其作为ICL示例前缀到当前查询中。该数据集被定制为支持三个不同的任务,每个任务都通过自然语言的问答对来表示。注意,具备自然表示为自然语言的(1)动作解释和(2)正当性,(3)控制信号预测也形成了语言tokens预测;这是可行的,原因是在语言模型字典中数值到特定tokens的不同映射。
该系统的另一个关键组件是记忆单元,它由数据库和检索引擎组成。该数据库包含矢量化视频嵌入,用前面的视频编码器提取的,并且控制信号直接来自传感器记录。每个向量都与来自训练样本的相应人类专家文本解释和理由唯一相关。
如图是一个查询示例。单个查询包括三个主要组成部分:(1)上下文系统信息,这是所有查询中的一个常量元素,提供高级任务指令;(2) 当前查询,包括所有驾驶信息和特定任务指令,采用自然语言问答格式,但不包括作为视觉输入的驾驶视频(即<video>)。请注意,红色句子是MLLM的预期输出;(3) 从记忆中检索的多个上下文学习示例,作为完整推理过程的类比演示——从驾驶场景中的传感器输入到动作论证和控制预测。
RA-ICL是一种有效的推理方法,可以在无需进一步训练的情况下提高MLLM在可解释驾驶中的性能,实证验证了它在提高模型预测性能和泛化能力方面非常有效。