Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

https://github.com/fudan-zvg/Reason2Drive

摘要

大型视觉语言模型(VLM)在自动驾驶领域引起了越来越多的兴趣,因为它们在复杂推理任务中的先进能力对于高度自主的车辆行为至关重要。尽管具有潜力,但由于缺乏带有注释推理链的数据集来解释驾驶中的决策过程,因此对自动驾驶系统的研究受到阻碍。为了弥补这一差距,我们提出了Reason 2Drive,一个基准数据集,超过600 K的视频文本对,旨在促进复杂驾驶环境中可解释推理的研究。我们明确地将自动驾驶过程描述为感知,预测和推理步骤的顺序组合,并且问题-答案对是从各种开源户外驾驶数据集中自动收集的,包括nuScenes,Waymo和ONCE。此外,我们引入了一种新的聚合评估指标,以评估基于链的推理性能在自治系统中,解决现有的指标,如BLEU和CIDER的语义模糊性。基于建议的基准,我们进行实验,以评估各种现有的VLMs,揭示他们的推理能力的见解。此外,我们开发了一种有效的方法,使VLMs在特征提取和预测中利用对象级感知元素,进一步提高其推理精度。将发布代码和数据集。

1.介绍

现代自动驾驶系统面临着与各种场景中的泛化问题相关的挑战,这通常归因于决策过程中对经验和复杂规则的依赖。为了减少对这些规则的依赖,最近开发了端到端方法[19],直接从传感器输入中获取控制信号,将系统视为需要大量数据进行训练的黑盒。然而,这种方法往往会模糊决策的基本逻辑,使实际应用中的故障诊断复杂化。相比之下,大型视觉语言模型(VLM)提供了一个很有前途的替代方案,可能提高这些系统的可解释性和泛化能力。如图1(a)所示,VLM具有广泛的世界知识和先进的推理能力,有可能为可靠的决策提供更透彻的理解和明确的解释。尽管如此,现有的工作[33,40]主要集中在问答任务对自动驾驶的直接适应上;如何利用VLMs来促进自主系统的推理能力仍在探索中。
在这里插入图片描述
图1.(a)自动驾驶中的不同决策过程。(b)基于数据集的比较。

阻碍这一领域研究的一个原因在于数据集的稀缺,特别是那些阐明决策过程的基于链的推理标签。大多数现有的数据集[10,33,41]往往过度简化了驾驶到简单的问答任务的复杂过程,只涵盖了一些特定的任务。如图1(B)所示,它们通常提供约束为布尔值的封闭形式的注释(即,是或否)答案或有限的多项选择回答(例如,停止,停车,移动)。然而,自动驾驶超越了简单的QA过程。它包括一个多步骤的方法,涉及感知,预测和推理,其中每一个都在决策中发挥着不可或缺的作用。因此,它是至关重要的,引入一个新的基准注释详细的决策推理评估当前VLMs的推理能力。

为此,我们引入了Reason 2Drive,这是一个新的基准测试,包括超过600 K的视频文本对,其特点是复杂的驾驶指令和一系列的感知,预测和推理步骤。我们的基准建立在广泛使用的开源驾驶数据集之上,包括nuScenes [2],Waymo [36]和ONCE [26],利用可扩展的注释模式。具体来说,我们提取对象元数据,将其结构化为JSON格式,并将其集成到预定义的模板中,以便在对象和场景级别为VLM创建配对数据。为了提高多样性,GPT-4和人工注释用于验证和富集目的。值得注意的是,Reason 2Drive是迄今为止可用的最广泛的数据集,在规模和推理链的复杂性方面优于现有数据集,这是其他数据集中不存在的独特属性。此外,我们观察到目前对自动驾驶任务的VLM评估存在根本性缺陷,这是由于传统的基于字幕的指标(如BLEU [29]和CIDEr [39])固有的语义模糊性。例如,具有对比意义的句子,如“它将左转”和“它将右转”,可能会在BLEU中获得高分,这在自动驾驶的背景下尤其成问题。为了解决这个问题,我们提出了一个新的聚合评估指标,专门设计用于测量基于链的推理性能在自治系统中,其目的是解决与当前指标相关的语义歧义。

利用所提出的基准,我们进行实验,以评估各种现有的VLMs,从而揭示其推理能力的宝贵见解。我们发现,大多数方法都很难有效地利用感知先验,导致推理性能低于标准。此外,受语言模型仅作为解码器的限制,这些方法通常无法提供准确的感知结果,这是验证模型空间推理能力的关键组成部分。为了缓解这种困境,我们提出了一个简单而有效的框架,增强现有的VLM与两个新的组件:一个事先tokenizer和一个指示的视觉解码器,其目的是分别加强模型的视觉定位能力的编码器和解码器

本文的贡献总结如下:
(i)我们发布了一个新的视觉指令调优数据集,旨在促进可解释的和基于链的推理自治系统。
(ii)我们引入了一种新的评估指标来评估自动驾驶中基于链的推理性能,有效地解决了现有指标中存在的语义模糊性。
(iii)我们进行实验,以评估一系列现有的VLMs,揭示其推理能力的宝贵见解。
(iv)为了解决效率低下的先验特征提取和不准确的感知预测所带来的挑战,我们引入了一种有效的方法将这些整合到VLM中,从而大大提高了推理精度。我们的方法超越了所有基线,特别是在看不见的场景中实现了令人印象深刻的泛化。

2.相关工作

多模态大型语言模型。大型语言模型的当前状态在自然语言理解和生成方面提供了显着的能力([5,6,28,38])。受大型语言模型潜力的启发,出现了许多多模态模型,旨在增强这些模型实现多模态理解的能力。Blip-2 [22]通过利用可学习的Q-former来对齐视觉和语言特征LLaVA [23]和MiniGPT-4 [48]最初对齐图像-文本特征,然后进行指令调整。此外,VideoLLaMA [46]和ImageBind-LLM [16]将多种模态集成到输入中,对齐来自图像,视频,音频和点云等各种来源的特征,将它们整合到语言特征空间中。Koki-2 [31]和Shikra [4]根据指令执行对象检测,并完成接地视觉问题回答。DetGPT [32]根据用户说明将固定多模态LLM与可定制检测器连接。LISA[21]有效地将分割能力嵌入到多模态LLM中,展示了当前感知系统的自我推理。以前的工作已经证明,当前的大规模多模态模型可以实现跨模态对齐,从而实现对图像等的理解和推理。这些模型不仅可以执行感知任务,如检测,但也完成初步的推理。

自动驾驶中的视觉语言任务。目前,VLM在场景感知和理解方面表现出强大的能力。人们在自动驾驶领域做出了大量努力,利用VLM实现全面的场景理解并执行各种任务[12,14,27,42,45]。与此同时,正在进行大量工作,以创建针对各种任务的数据集和模型。Talk 2Car [10]提出了第一个对象引用数据集,用于将自由自然语言中的自动驾驶汽车命令接地到视觉环境中。但它只包含可见物体的信息。虽然DRAMA [25]概述了整体场景风险,但它缺乏精确的感知注释。NuPrompt [41]和Refer-KITTI [40]为驾驶场景提供语言提示集,但主要集中在多对象跟踪任务上。NuScenesQA [33]和DriveLM [8]构建了用于场景理解的可视化问答(VQA)数据集。然而,他们主要强调的是场景中的感知信息,缺乏对整个场景的分析和复杂推理的注释。为了解决现有工作的局限性,我们构建了一个全面的数据集,涵盖感知,预测和复杂推理,此外还改进了视觉语言模型,以更好地分析自动驾驶场景。

3.Reason2Drive dataset

我们介绍了Reason2Drive,这是一个数据集,包括全面的驾驶指令和基于链的决策推理框架。我们的数据集具有以下主要特征:
·数量:它是最大的基于语言的驾驶数据集,从全球知名的公开访问数据集整理而来。
·质量:Reason 2Drive提供了更精确的驾驶活动表示,包括感知,预测和推理,以及可靠的数据收集自动注释模式。
多样性:(i)数据集展示了更广泛的场景,包括对象级和非对象级数据。这种多样性包括对象类型、视觉和运动属性、对象位置以及相对于自我车辆的关系。(ii)它包括更复杂的问答对,由GPT-4增强,沿着更长的文本段落,具有逐步推理的特点。
·协议:引入一种新的评估指标来评估VLM的推理能力。与NLP社区中广泛使用的方法不同,它不仅考虑了感知结果,还考虑了语义歧义,为VLM的自动驾驶场景推理能力提供了更全面的评估。
有关数据收集过程、统计数据分析和基准协议的更多详细信息,请参见后续章节。

3.1. Dataset collection

在这里插入图片描述
图2.Reason 2Drive数据集的示意图。上半部分说明了自动构建数据集的管道下半部分显示了感知、预测和推理的详细实例,以及应用GPT-4进行数据增强后的结果。特殊标记具有不同的定义,<Inst*>表示指定的实例,表示预测的轨迹坐标序列,并表示位置坐标。与这些标记相关联的颜色对应于左上角图像框中突出显示的对象。

如图2所示,我们采用了一个可扩展的注释模式以问答对的形式构建数据。具体来说,我们首先利用在全球不同地区收集的各种公开数据集,包括nuScenes、Waymo和ONCE,然后将其全面的对象元数据解析为JSON结构的条目。每个对象条目都包含与其驱动操作相关的各种详细信息,包括位置、类别、属性等。之后,这些提取的条目被填充到预定义的模板中,这些模板被划分为不同的任务(即,感知、预测和推理)。随后,涉及GPT-4和手动注释,用于验证和富集目的。

由于自动驾驶活动的复杂性,我们将任务分为三个不同的组来获取多样化的数据:感知,预测和推理。这三种类型的任务的具体内容和区别如下:
·感知任务旨在识别驾驶场景中的物体,评估VLM在户外环境中的基本感知能力。
·预测任务需要预测感知范围内关键对象的未来状态,挑战VLM推断具有视频输入的对象的意图。
推理任务提示对当前感知和预测状态的逐步分析,需要通过思想链(COT)方法推导推理推理和决策。

对于每个任务,我们进一步将数据分类为对象级和场景级。更详细地说,
·对象级数据被格式化,以基准测试特定对象的基本功能。对于感知,我们处理对象的位置和属性,如移动状态和到自我的距离,而对于预测,考虑未来的运动和合并/退出状态。
·场景级数据从全局角度组织,面向驾驶环境和自我驾驶指令。它侧重于当前是否有值得注意的对象(感知),未来是否有值得注意的对象(预测)以及为什么(推理)。例如,如图2所示,要求模型识别距离,合并状态和整个场景的其他风险。它验证了智能体感知整个驾驶场景的能力,而不是指定对象,因此更具挑战性和意义。

3.2. Dataset analysis

表1和图3展示了我们的Reason2Drive数据集和现有基准之间的比较。值得注意的是,我们的基准测试是迄今为止最大的数据集,在数据集大小和包含大量基于长文本链的推理引用方面都超过了其他数据集。为了进一步研究Reason2Drive数据集的属性,我们统计了图4中数据集的分布。基准测试呈现出均衡的分布,多目标任务占大多数。此外,感知、预测和推理问题分别占39%、34%和27%。更多细节见附录。
在这里插入图片描述
表1.我们的Reason2Drive数据集和其他基于数据集的数据集之间的比较。■表示数据集未发布。
在这里插入图片描述
图3.数据质量比较。Reason2Drive的规模更大,数据内容更丰富,场景更多样。
在这里插入图片描述
图4.Reason2Drive数据集中不同任务的统计分布,说明了我们提出的数据集的均衡性。

3.3. Benchmark protocol

值得注意的是,以前的作品[11,25,33]只是利用了NLP社区中广泛使用的度量分数,包括BLEU [29],CIDER [39]和METEOR [1]。然而,这些指标主要测量单词级别的性能,而不考虑语义含义,这可能导致意外的评估结果。为了解决语义歧义,受[44]和[15]的启发,我们开发了评估协议来衡量推理链的正确性

初步调查开始,我们将生成的推理步骤表示为假设h = {h1,.,hN},以及作为参考的黄金注释r= {r1, …, rK}。

推理度量的核心是从N步假设h到K步参考的推理对齐向量:
在这里插入图片描述
其中,对齐值αi表示对应的假设步骤和最相似的参考步骤之间的语义相似度:
在这里插入图片描述
αi ∈ [0,1]明确地测量了逐步推理相对于参考的基础,而cos(·)表示相应句子嵌入之间的余弦相似度。基于上述推理对齐向量,我们提出了以下指标来彻底衡量推理步骤的质量。

推理对齐。评估假设推理链正确性的最直接方法是比较假设和参考之间的重叠程度。一种方法是测量它们之间的推理一致性:
在这里插入图片描述
Redundancy冗余。要找到包含解决问题不需要的信息的链(即,冗余步骤),我们识别与参考步骤最不一致的那些假设步骤。该度量使用正确解决方案不需要的步骤来惩罚链。
在这里插入图片描述
缺少步骤。为了确定假设中缺少但可能需要解决问题的步骤,我们查看参考和假设之间的对齐,类似于Reddit。然而,在这里,我们将回顾参考文献中的每一步,并检查假设中是否有类似的步骤:
在这里插入图片描述
最后,汇总的指标得分是上述性能的平均值,即:
在这里插入图片描述
严格的理由。为了进一步适应现实驾驶过程,我们将上述度量推广到具有视觉元素的情况。具体地,当假设步骤hi和参考步骤rk包含可视元素时,即,预测的位置和运动用于进一步推理,相似性得分变为:

在这里插入图片描述
其中M(·)测量两个感知元素之间的均方误差。我们将其归一化为[0,1]以匹配语义级相似度的分布。提升的严格推理度量旨在更精确地评估包含感知元素的推理响应。

4.方法

在本节中,我们将介绍我们的框架。4.1,然后是第4.2节中提供的培训详细信息。4.2.

4.1. Model architecture

我们观察到,大多数VLM难以有效地处理对象级感知信息,包括视觉先验的输入和对象位置的预测,这在自动驾驶场景中是不可或缺的。这种限制主要是由于(i)缺乏有针对性的标记器和(ii)解码器仅由语言模型组成,导致推理性能低于标准。为了解决这一挑战,如图5所示,我们引入了一个简单而有效的框架,该框架通过两个新组件增强了现有的VLM:先验标记器和指令视觉解码器。这些组件旨在加强模型在提取视觉先验和生成感知预测的过程中利用对象级感知元素的能力。
在这里插入图片描述
图5.我们提出的框架的管道。使用视觉编码器和先验标记器对输入视频和感知先验进行标记化。然后,Q-former将它们与文本的特征空间对齐。LLM和指令视觉解码器预测答案与用户查询的精确感知结果。感知结果图像中高亮显示的黄色框和红色曲线分别表示和的可视化。

视觉编码器。我们的模型接受视频帧和文本输入,沿着感知先验,并将它们标记为嵌入。对于视频帧(V1,V2,…,VN),使用预训练的Blip-2视觉编码器[22] Fv提取特征,并通过级联进行聚合:
在这里插入图片描述
Prior tokenizer。我们提出了一种新的标记化策略,专门利用视觉线索。动机是基于承认提取和对齐视觉特征是相当简单,更适合强迫LLM理解模糊的位置描述。对LLM的直接文本输入可能导致诸如信息丢失之类的挑战,因为文本表示可能无法完全捕获图像细节和上下文,特别是在具有动态对象位置和速度的复杂场景中。为了解决这个问题,我们设计了一个新的标记器Fp,实现为一个两层MLP,从视觉先验中独立地提取局部图像特征和位置嵌入:
在这里插入图片描述
其中fr表示根据感知先验P的精确位置从图像级特征fv中提取的区域级特征。使用RoIAlign [17]操作将这些特征对齐到7 × 7大小并融合到单个嵌入fr中。E(·)是将几何位置和运动映射到fr的相同维度的位置编码函数。

LLM。在我们将视频和感知先验标记为嵌入fv和fp之后,采用projectorQ(本工作中的Q-former [22])将非文本特征对齐到文本域:
在这里插入图片描述
然后,为了生成最终的文本输出,我们利用LLM对提取的文本嵌入ft进行进一步的语言处理:
在这里插入图片描述
指令视觉解码器。目前的作品[10,14]将LLM视为一种通用工具,可以在没有中间推理步骤的情况下生成答案和推理,更不用说考虑代理对驾驶场景的感知了。然而,对驾驶场景的代理的感知能力是一个可靠的驾驶过程中不可或缺的一部分。此外,最近的作品[21]已经证明,与使用文本化感知序列进行训练相比,将感知能力纳入多模态LLM带来了显着的改进。为此,受[21]的启发,我们将新的感知能力集成到多模态LLM中。具体来说,我们通过引入新的标记作为占位符(表示为和)来扩展原始LLM词汇表,以表示对感知输出的请求。当LLM旨在生成特定的感知时,输出tokyt应该包括设计的令牌。然后,我们提取对应于特定令牌的最后一层文本特征,并应用MLP投影层来获得隐藏嵌入fh。最后,文本嵌入和视觉特征被馈送到指示的视觉解码器中以解码预测:
在这里插入图片描述
该模块由用于特征对齐的Transformer解码器[3]和设计用于独立生成对象位置和运动的特定任务头组成。

4.2. Training details.

Training objectives使用文本生成损失Ltxt和感知输出损失Lper对模型进行端到端训练:
在这里插入图片描述
其中λper是平衡项。具体地,Ltxt是用于文本生成的自回归交叉熵损失,并且Lper鼓励所指示的视觉解码器生成准确的位置和运动,这类似于传统的检测损失,并且与二进制交叉熵损失和MSE损失的组合一起使用。更多细节见附录。

调整策略我们的调整策略包括两个阶段:预训练阶段和微调阶段。在预训练阶段,我们初始化了来自于LattBLIP [9]的权重,包括预训练的视觉编码器、Qformer和LLM,并冻结了LLM和视觉标记器Fv的参数。我们训练先验标记器Fp和Qformer Q以将视觉先验与文本对齐,沿着指示的视觉解码器D以增强视觉定位能力。微调阶段使用指示的视觉解码器为LLM配备自动驾驶中的推理能力。为了保留预训练的LLM泛化,我们使用LoRA进行有效的微调[18]。视觉编码器和先前的记号化器Fp保持固定,而被指示的视觉解码器D被完全微调。LLM和Q-former的词嵌入也是可训练的。

5.实验

我们对各种基线模型进行了基准测试,并在Reason2Drive数据集上提出了我们的方法。秒5.1包括实施细节。我们评估推理性能,使用我们提出的度量在第二节。第5.2节,进行消融研究。5.3并在附录中提供定性结果。

5.1. Experimental setting

我们的主要实验是在完整的Reason 2Drive基准上进行的。该数据集来自三个不同的源数据集:nuScenes [2],Waymo [36]和ONCE [26]。它根据片段分为训练集和验证集,其中70%分配给训练集,30%分配给验证集,以确保它们之间的场景没有重叠。输入由5帧大小为224×224像素的裁剪图像组成。在训练过程中,我们利用AdamW [24]优化器,权重衰减为0.01。我们采用余弦学习率衰减调度器,最大值为3e-4,前1000次迭代采用线性预热。感知损失的权重λp被设置为1.0。经过经验验证,确定归一化参数τ和β分别为15和10。我们的模型在8个V100 GPU上训练了10个epoch,批量大小为8。

5.2. Reasoning results

如Tab2中所示。我们不仅在我们的基准上评估不同模型的推理得分,而且还使用传统的基于标题的评估指标来评估它们的性能。值得注意的是,我们的方法在推理得分和传统指标方面都全面优于其他方法。具体而言,LLM的性能起着重要作用。我们观察到,一方面,我们的推理分数和传统指标之间存在相关性,而另一方面,性能差距在我们的指标中更为明显。
在这里插入图片描述
表2.Reason2Drive验证集上不同模型的结果。我们评估的推理指标以及字幕指标。

5.3. Ablation study

任务贡献。为了研究不同任务之间的协同作用,我们独立评估任务。如Tab3所示。推理任务训练的贡献最大。同时,感知任务和预测任务的贡献率分别为4.1%和6.8%(第3、4和5行)。
在这里插入图片描述
表3.不同训练任务组合的消融。

tokenizer的作用。为了验证标记器的有效性,我们进行了消融研究,以确定改进的来源(表4).从单帧到多帧的视觉特征带来1.5%的改善。
在这里插入图片描述
表4.对视觉输入和知觉的影响。

感知先验,即,区域级特征和位置嵌入带来2.4%和1.4%的发展。指令视觉解码器的效果。为了验证我们的指令视觉解码器的效率,我们进行了一项消融研究,以比较它与其他方法。如Tab5中所示。预训练和文本嵌入贡献最大(严格意义上为3.5%和2.9%)。
在这里插入图片描述
表5.指示视觉解码器的不同设置上的烧蚀。

通过GPT-4进行评价。为了验证我们的推理分数的合理性,在[14]之后,我们使用GPT-4来验证Tab6中生成的答案。我们可以得出结论,我们的方法仍然取得了上级性能,这也表明我们提出的度量的合理性。
在这里插入图片描述
表6.ChatGPT提示给出的评价结果。

一般化。为了验证该方法的泛化能力,我们仅使用nuScenes数据集在Reason2Drive基准上进行了训练,并在Waymo和ONCE上进行了测试。表7我们将Reason2Drive基准分为两组,nuScenes(记为N)和Waymo + ONCE(记为W + O)。与其他方法相比,我们的方法遭受有限的性能下降(4.6%和4.3%)。
在这里插入图片描述

6.总结

总之,大型视觉语言模型(VLMS)因其先进的推理能力而引发了人们对自动驾驶的兴趣。然而,缺乏解释决策过程的数据集阻碍了进展。为了解决这个问题,我们引入了Reason 2Drive基准测试,包括600 K+视频-文本对,用于复杂驾驶场景中的可解释推理。它在规模、来源和任务分布方面优于现有数据集。我们还提出了一种新的评估协议链为基础的推理,解决现有的语义歧义。为了揭示他们的推理能力,我们的工作评估各种VLM,并提出了一种有效的方法来提高模型的能力,利用对象级感知元素的编码器和解码器。我们希望我们的工作可以推动自治系统可解释推理的进一步发展。将发布代码和数据集。

总结和展望

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值