通过BEV多模态大模型对自动驾驶的整体理解

硅谷秋水

已于 2024-07-30 21:56:49 修改

阅读量900

点赞数 10

分类专栏：大模型自动驾驶计算机视觉文章标签：自动驾驶人工智能机器学习

于 2024-05-16 03:06:06 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/138933817

版权

大模型同时被 3 个专栏收录

454 篇文章 7 订阅

订阅专栏

计算机视觉

158 篇文章 0 订阅

订阅专栏

自动驾驶

89 篇文章 2 订阅

订阅专栏

24年1月论文“Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models“，来自香港科技大学、华为诺亚和中山大学。

多模态大语言模型（MLLM）激发了人们对基于语言驾驶任务的兴趣。然而，现有的研究通常集中在有限的任务上，往往忽略了关键的多视图和时间信息，这对稳健的自动驾驶至关重要。为了弥补这些差距，NuInstruction，一个数据集，在17个子任务中有91K个多视图视频-QA对，其中每个任务都需要整体信息（例如，时间、多视图和空间），大大提高了挑战难度。为了获得NuInstruction，作者提出了一种基于SQL的方法来自动生成指令-响应对，这是受人类驾驶逻辑进程的启发。进一步作者介绍BEV InMLLM，这是一种端到端的方法，用于有效地推导感知-觉察的BEV特征，该特征与大型语言模型的语言对齐。BEV InMLLM集成了多视图、空间-觉察和时间语义，增强MLLM在NuInstruction任务上的能力。此外，提出的BEV注入模块是现有MLLMs的即插即用方法。在NuInstruction上的实验表明，BEV InMLLM显著优于现有的MLLM。

如下表是作者的NuInstruction与其他数据集的比较：
添加图片注释，不超过 140 字（可选）

研究中，作者提出了一种基于SQL的方法来自动生成四种类型的指令跟从数据，即：感知、预测、风险和带推理的规划。这种方法与人类驾驶员的顺序决策阶段相一致，分类如下：1.感知：识别周围实体的初始阶段。2.预测：预测这些实体的未来行动。3.风险：识别迫在眉睫的危险，例如执行超车操作的车辆。4.理性规划：在逻辑分析的基础上制定安全的旅行规划。

如图是基于SQL的数据生成过程。数据生成公式化为基于SQL的过程，使用不同的任务SQL从场景信息数据库中检索响应。SQL的设计遵循自动驾驶任务的逻辑流程[16]，‘Planning w/ R’用蓝色虚线箭头表示有推理的规划。

具体地，1）滤波器和构建步骤利用图（a）原始标注来生成场景信息数据库（见图（b））；2)采样步骤首先对原始数据集中的三个关键帧进行采样；然后，如图（c）所示，构建了一系列预定义的任务SQL；每个任务SQL由几个子任务组成，每个子任务由一个子任务函数和一个指令提示组成；3)检索步骤使用指令提示和任务SQL从场景数据库中检索相应的响应；4)保存步骤保存所有指令-响应对（见图（d））。5)验证步骤采用人工分析或基于LLM的方法（例如，GPT-4[35]）来消除错误的指令-响应对，从而保证NuInstruction的质量。任务SQL设计是按逻辑顺序进行的，并基于自动驾驶任务的固有关系流，即“感知→ 预测，（感知，预测）→ 风险，（风险，预测）→ 理性规划，其中a→ b表示b SQL是从a SQL派生的（图（c）中的蓝色虚线箭头）。
添加图片注释，不超过 140 字（可选）

如图是数据生成过程中步骤3检索的示例说明。（a）带有注释的采样关键帧：随机采样三个带有注释的关键帧，为了清晰起见，只选择了一个实例，即行人（方框）；（b）采样的子任务SQL：每个子任务SQL由两部分组成，即子任务函数和指令提示；（c）检索的响应：子任务功能接收特定输入并从场景信息数据库检索响应。

添加图片注释，不超过 140 字（可选）

如图是NuInstruction的统计数据。（a）不同任务的比例：圆弧的大小表示每个任务的比例，而相同的颜色表示相同类别的任务；这里任务包括各种各样的任务，包括感知、预测、风险和规划。（b）不同观点下的回复数量：横轴表示不同的视图，纵轴表示需要来自相应视图信息的响应数量。（c）查看不同任务中的百分比：横轴和纵轴分别表示不同视图和任务类的比例。

添加图片注释，不超过 140 字（可选）

现有的MLLM[7，23，25，50]通常由三个部分组成：用于接收视觉输入的视觉编码器；连接模块（例如，Q-Former[24]）用于将视觉表示转移到与语言对齐的视觉tokens；大语言模型（LLM）用于接收视觉和语言指令token以生成响应。由于它们只能接收单个视图输入，作者提出了一个名为多视图MLLM（MV-MLLM）的基线模型，使当前的MLLM能够处理多视图视频。

BEV注入MLLM（BEV-InMLLM）用BEV注入模块（BEV-In）以数据高效和资源轻量的方式获得与LLM对齐的BEV信息。从预训练的BEV提取器[17，38]中获得高质量的BEV特征。BEV-In的两个关键组件是指令-觉察BEV Q-Former和注入模块。

如图是BEV InMLLM的总体流水线。（a）为处理多视图视频而定制的基本多模态大语言模型（MLLM）。（b） BEV注入模块（BEV-In）将BEV表示注入基本MLLM，提高对自动驾驶的理解。

添加图片注释，不超过 140 字（可选）