DME-Driver: 在自动驾驶中集成人类决策逻辑和3D场景感知_驾驶车辆的执行器executor组件-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/138969754

24年1月论文“DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving“，来自澳门大学。

在自动驾驶领域，自动驾驶汽车系统的两个重要特征是决策逻辑的可解释性和环境感知的准确性。本文介绍了一种自动驾驶系统DME-Driver，它提高了自动驾驶系统的性能和可靠性。DME- Driver使用强大的视觉-语言模型作为决策者，使用面向规划的感知模型作为控制信号发生器。为了确保可解释和可靠的驾驶决策，基于大型视觉-语言模型构建了逻辑决策器。该模型遵循经验丰富的人类驾驶员所采用的逻辑，并以类似的方式做出决策。另一方面，精确控制信号的生成依赖于精确和详细的环境感知，这正是3D场景感知模型的优势所在。因此，采用了一个面向规划的感知模型作为信号发生器。它将决策者做出的逻辑决策转化为自动驾驶汽车的精确控制信号。为了有效地训练所提出的模型，作者创建了一个自动驾驶数据集。该数据集涵盖了各种各样的人类驾驶员行为及其潜在动机。通过这个数据集，模型在逻辑思维过程实现了高精度的规划准确性。

DME是Decision-Maker Executor缩写，即决策执行器。DME-Driver自动驾驶系统，融合了LLM和面向规划的感知模型的优势。如图所示是自动驾驶系统中进行比较的结构：（a）描述了一种面向规划的自动驾驶系统，该系统使用规划结果优化整体性能，但缺乏可解释性；（b）显示了一种基于LLM的自动驾驶系统，该系统能够产生合理的控制信号，但不能完全利用感知任务；（c）说明DME-Driver自动驾驶系统，其有效地增强了面向规划的[25]和LVLM[35]模型。

添加图片注释，不超过 140 字（可选）

为了深入研究人类驾驶员的行为逻辑与由此产生的驾驶信号之间的关系，作者的研究集中在四个关键方面。这些方面对于通过理解和模仿类人驾驶行为来增强自动驾驶系统的鲁棒性至关重要。

人类驾驶员在驾驶中的凝视。在路上开车需要实时反应，通常是基于潜意识的反应，而不是深思熟虑的推理。为了理解这些反射性动作，作者将人类的凝视视为一种信息行为信号。在驾驶过程中，人类驾驶员会本能地关注场景中最关键的部分，这些部分通常会直接影响当前场景的驾驶逻辑。这些元素可以包括交通信号或可能很快与车辆交互的其他实体。了解这种凝视行为对于该系统识别驾驶环境的重要方面并确定其优先级至关重要。

人类驾驶员对驾驶场景的理解。人类驾驶员逻辑地描述驾驶场景的方式提供了对场景的丰富、有目的的理解。与提供全局视图的标准图像字幕不同，人类驾驶员关注可能影响驾驶决策的元素及其相互关系。这些逻辑描述甚至使其他人类驾驶员能够对适当的驾驶行为做出准确的判断。例如，描述可能会详细描述十字路口的场景，车辆在左转车道上，红灯指示转弯。

人类驾驶员的决策和原理。人类驾驶员的决策过程具有逻辑性和信息丰富性。它包括驾驶员对各种因素的综合，以确定给定场景的适当行动，以及潜在的思维过程。通过理解和仿真这一点，自动驾驶系统可以模仿类人的决策逻辑。这种能力在训练过程中未遇到或具有挑战性的场景中特别有价值，使系统能够做出安全可靠的判断。

精确控制信号。自动驾驶系统的最终输出应该是直接适用于车辆的结构化控制信号。无论基于自然语言的驾驶逻辑有多正确和可解释，都必须将其转化为具体的控制命令。这种转换对于确保自动驾驶汽车有效、安全地执行源自人类驾驶逻辑的详细理解和决策，至关重要。

为了有效地处理和标记数据，作者采用GPT-4V（vision）预注释和人工更正的组合。如图概述HBD数据集的数据收集流水线：数据集创建有四个关键步骤-数据收集、提示设计、人工更正和对话生成，简化了从原始数据收集到结构化对话形成的过程。

添加图片注释，不超过 140 字（可选）

在DME- Driver自动驾驶系统中，如图所示，分为两个主要组件：决策者和执行者。决策者充当中央决策者，综合车辆状态和当前视觉输入，模拟人类驾驶员的逻辑判断；它的输出以自然语言表达，提供一个逻辑和可解释的驾驶决策叙述。这一功能对于诊断和理解驾驶场景中的“坏情况”特别有价值，因为这些自然语言日志可以深入了解错误决策的原因。然而，由于自然语言无法直接控制车辆，该系统结合执行者网络，起到转换的作用。该网络将决策者的语言输出转换为精确的车辆控制命令。

添加图片注释，不超过 140 字（可选）

DME-Driver系统中的决策器是一个复杂的大型视觉-语言模型（LVLM），旨在模拟人类驾驶员的决策过程。在实验中，作者用LLaVA[35]作为决策者的基线网络。该组件设计用于处理来自三种不同模态的输入：来自当前和以前场景的视觉输入、提示形式的文本输入以及详细说明车辆运行状态的当前状态信息。

这种方法使决策者能够考虑驾驶场景的各个方面，确保对类人决策过程的全面理解和模拟。最后一步是，一个去token化器，将输出token映射回自然语言。

在DME-Driver系统中的执行者网络，是基于Uni-AD[25]面向规划的自动驾驶框架设计的，具有4个不同的组件：

主干网络：执行者网络的初始层是主干网络，负责从多视图视觉输入中提取特征。该网络构成了后续特征处理和解释的基础。在主干网络之后，通过类似于BEVFormer的过程，将提取的图像特征转换为鸟瞰图（BEV）特征。
感知模块：下一阶段由四个专门的感知模块组成，即TrackFormer旨在检测和跟踪驾驶场景中的各种元素，MapFormer在BEV中生成分割地图，提供有关环境的详细空间信息，MotionFormer预测场景中每个元素的运动轨迹；OccFormer负责生成占有信息，指示场景中被占有的区域和空闲的区域。
规划模块：在感知模块之后，规划模块将这些模块的输出token作为其输入。该模块的主要功能是生成车辆的预测控制信号。
驾驶员逻辑编码器：与Uni-AD系统不同，执行者网络为OccFormer和规划模块包含一些附加增强功能。OccFormer结合了来自场景描述和凝视数据的文本信息，而Planning模块则集成了与决策相关的文本。具体来说，其集成了一个基于BERT的文本编码器来处理相应的文本输入，在对文本进行编码后，用名为LogicalFusioner的Transformer融合结构将主干网络生成的BEV特征与相应的文本编码相结合。在这种结构中，BEV特征视为查询，将文本编码视为K和V。在聚合多头注意之后，向原始BEV特征添加了一个短路连接，并产生增强的BEV特征。在执行者网络中包含文本编码器使其能够超越仅处理视觉信息的范围；它允许决策者提供的决策信息和场景理解的集成，模仿人类驾驶员的见解，做出更全面和上下文感知的驾驶决策。

DME- Driver系统的训练简化为两个重要步骤。首先，训练决策者涉及使用多种类型的人类驾驶员决策数据来理解人类驾驶逻辑。其次，训练的重点是执行器，它使用决策者指令、感知标签和控制信号进行训练。利用这些数据，执行器可以学习如何将指令准确地转换为控制信号。

决策者训练：DME- Driver系统中决策者网络的训练包括两个关键阶段：预训练和微调。最初，该模型在不同的数据集上进行预训练，包括来自CC3M[9]的593K个图像-文本对和来自WebVid-10M[2]的100K个视频-文本对，重点是一般的视频-文本对齐。这个阶段包括训练视频token化器，同时保持CLIP编码器和LLM权重固定。然后，微调阶段根据可解释自动驾驶的具体需求对模型进行调整。在这里，LLM与视觉token化器一起使用来自所提出的HBD数据集的30K视频-文本对进行训练，并补充来自LLaVA[35]的80K指令-图像-文本对。

执行器训练：DME- Driver系统中执行器组件的训练主要遵循Uni-AD[25]使用的设置。然而，作者引入了具体的修改，增强系统的一致性。最初，与Uni-AD类似，开始联合训练感知部分，即跟踪和地图模块，为期六个epochs。然后，进入端到端的训练阶段，该阶段持续20个epochs，包括所有感知、预测和规划模块。为了确保规划模块的输出信号与决策者做出的决策之间的一致性，在规划模块的训练过程中引入了一个额外的强化学习组件。每当控制信号偏离决策者的决策时，该组件就会施加惩罚。具体来说，将决策者的决策分为八种不同的类型，如向前、向左、向右等。对于这些决策类型中的每一种，建立特定的规则来确定给定的控制信号是否对应于这些类别中的一个。