DriveLM: Driving with Graph Visual Question Answering
https://github.com/OpenDriveLab/DriveLM
摘要
我们研究了如何将在网络规模数据上训练的视觉语言模型(VLM)集成到端到端驾驶系统中,以提高泛化能力并实现与人类用户的交互。虽然最近的方法通过单轮视觉问答(VQA)使VLM适应驾驶,但人类驾驶员在多个步骤中进行决策。从关键对象的定位开始,人类在采取行动之前估计对象交互。关键的见解是,我们提出的任务,图VQA,我们通过感知,预测和规划问答对建模图结构的推理,我们获得了一个合适的代理任务来模仿人类的推理过程。我们实例化基于nuScenes和CARLA构建的数据集(DriveLM-Data),并提出了一种基于VLM的基线方法(DriveLM-Agent),用于联合执行Graph VQA和端到端驱动。实验表明,图形VQA提供了一个简单的,原则性的框架推理驾驶场景,和DriveLM数据提供了一个具有挑战性的基准,这项任务。我们的DriveLM-Agent基准与最先进的驾驶专用架构相比,可在端到端自动驾驶方面具有竞争力。值得注意的是,当它在看不见的物体或传感器配置上进行zero-shot评估时,它的好处是明显的。我们希望这项工作可以成为一个起点,为如何将VLM应用于自动驾驶提供新的思路。为了方便未来的研究,所有的代码,数据和模型都向公众开放。
1.介绍
目前的自动驾驶(AD)堆栈仍然缺乏关键功能[8,11]。一个关键的要求是泛化,这涉及到处理看不见的场景或不熟悉的对象的能力。第二个要求涉及这些模型与人类的交互,例如欧盟法规强调了部署中的可解释性[3]。此外,与当今的AD模型不同,人类并不基于几何精确的鸟瞰图(BEV)表示进行导航[13,26,39]。相反,人类隐含地执行以对象为中心的感知,预测和规划(我们称之为P1 - 3(𝑷𝟏 - Perception 𝑷𝟐 - Prediction 𝑷𝟑 - Planning)):对关键对象进行粗略的识别和定位,然后推理它们可能的运动并将这些信息聚合成驱动动作[49,62]。
与此同时,另一个领域也在向前发展:视觉语言模型(VLM)[40,45,73,83]。这些模型有几个优点。首先,他们从互联网规模的数据中对世界有了基本的了解,这可能有助于AD规划的推广。事实上,这种推广已经通过VLM实现了更简单的机器人任务[18,85]。其次,使用语言表示作为输入和输出提供了一个与这些模型进行人性化交互的平台,不像当前方法中更常见的边界框或轨迹[14,25,41,58]。最后,VLM能够通过逻辑推理在多个步骤中做出决策[4,16,75,77,82,85]。重要的是,尽管它们在多个单独的步骤中进行推理,但VLM是端到端可区分的架构,这是自动驾驶非常需要的特征[8]。
最近的工作,使应用程序的VLM AD系统分为两类:场景级或单一对象级的视觉问题问答(VQA)。场景级VQA是指通过一个或两个支持原因来描述驾驶行为的任务,例如,“这辆车正驶入右车道,因为这样做是安全的。”[34,35]。单对象级VQA通过“什么-哪个-哪里-怎么样-为什么”(“what-which-where-how-why)形式的QA链来阐述自我车辆对单个对象的响应的理解,例如,“自我车辆停下来是因为有一个穿着白色衬衫的行人在自我车辆前面穿过十字路口,它不想撞到行人。”[47,55,59]。不幸的是,这两种范式都没有提供合适的代理任务来模仿人类的P1 - 3推理过程,人类考虑多个对象并在多个步骤中对每个对象进行推理。因此,在本文中,我们提出了一个新的任务,沿着相应的数据集和基线模型架构(图1)。
图1.DriveLM:端到端自动驾驶的新任务、数据集、指标和基线。受[8]的启发,DriveLM考虑了图视觉问答(GVQA),其中问题-答案对通过对象级别的逻辑依赖关系互连,即,对象对之间的交互,以及任务级,例如,感知→预测→规划→行为(用自然语言描述的离散化动作)→运动(连续轨迹)。我们提出了DriveLM-Data用于训练DriveLM-Agent,这是GVQA的基线。我们验证其有效性,使用DriveLM-WARNING具有挑战性的设置,需要zero-shot泛化。
任务。图视觉问答(Graph Visual Question Question Questioning,GVQA)是将P1−3推理公式化为一系列有向图中的问答对(Question-answer Pair,QA)。它与上述AD的VQA任务的主要区别是QA之间的逻辑依赖关系的可用性,这些依赖关系可用于指导回答过程。GVQA还包括有关行为和运动规划的问题,以及专用指标(详见第2节)。
数据集。DriveLM-nuScenes和DriveLM-CARLA由标注的QA组成,排列在一个图形中,通过逻辑推理将图像与驾驶行为联系起来。与现有的基准相比,它们在每帧中提供了更多的文本注释(图2和表1)。我们将这些训练数据集与具有挑战性的测试数据配对,以评估零样本泛化。
图2.(左)注释管线:在DriveLM-nuScenes中,我们采用了基于半规则的QA标记管道,其中使用了nuScenes/OpenLane-V2中的地面实况注释和来自人类注释者的反馈。我们的管道的一个关键部分是多轮质量检查,它以合理的成本保证高数据质量。在DriveLM-CARLA中,我们满足相同的标准,同时利用完全基于规则的QA标签管道。(右)问题分发:我们数据集中的问题涵盖了驾驶任务的各个特定方面,其中大部分都由人类注释者进行注释,使其成为类似人类驾驶推理的合适代理。
表1.DriveLM-nuScenes和-CARLA与现有数据集的比较。表示半基于规则的标注(有人类注释者),DriveLM-Data显著提高了注释的数量、全面性(涵盖感知、预测和规划)和逻辑性(从链到图)。
模型。DriveLM-Agent采用可应用于任何一般VLM的轨迹标记器[40,45,53,83],再加上一个图形提示方案,该方案将逻辑依赖关系建模为VLM的上下文输入。结果是一种简单、优雅的方法,可以有效地将VLM重新用于端到端AD(第3节)。
我们的实验提供了令人鼓舞的结果。我们发现,G