通过BEV多模态大模型对自动驾驶的整体理解

24年1月论文“Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models“,来自香港科技大学、华为诺亚和中山大学。

多模态大语言模型(MLLM)激发了人们对基于语言驾驶任务的兴趣。然而,现有的研究通常集中在有限的任务上,往往忽略了关键的多视图和时间信息,这对稳健的自动驾驶至关重要。为了弥补这些差距,NuInstruction,一个数据集,在17个子任务中有91K个多视图视频-QA对,其中每个任务都需要整体信息(例如,时间、多视图和空间),大大提高了挑战难度。为了获得NuInstruction,作者提出了一种基于SQL的方法来自动生成指令-响应对,这是受人类驾驶逻辑进程的启发。进一步作者介绍BEV InMLLM,这是一种端到端的方法,用于有效地推导感知-觉察的BEV特征,该特征与大型语言模型的语言对齐。BEV InMLLM集成了多视图、空间-觉察和时间语义,增强MLLM在NuInstruction任务上的能力。此外,提出的BEV注入模块是现有MLLMs的即插即用方法。在NuInstruction上的实验表明,BEV InMLLM显著优于现有的MLLM。

如下表是作者的NuInstruction与其他数据集的比较:
添加图片注释,不超过 140 字(可选)

研究中,作者提出了一种基于SQL的方法来自动生成四种类型的指令跟从数据,即:感知、预测、风险和带推理的规划。这种方法与人类驾驶员的顺序决策阶段相一致,分类如下:1.感知:识别周围实体的初始阶段。2.预测:预测这些实体的未来行动。3.风险:识别迫在眉睫的危险,例如执行超车操作的车辆。4.理性规划:在逻辑分析的基础上制定安全的旅行规划。

如图是基于SQL的数据生成过程。数据生成公式化为基于SQL的过程,使用不同的任务SQL从场景信息数据库中检索响应。SQL的设计遵循自动驾驶任务的逻辑流程[16],‘Planning w/ R’用蓝色虚线箭头表示有推理的规划。

具体地,1)滤波器和构建步骤利用图(a)原始标注来生成场景信息数据库(见图(b));2)采样步骤首先对原始数据集中的三个关键帧进行采样;然后,如图(c)所示,构建了一系列预定义的任务SQL;每个任务SQL由几个子任务组成,每个子任务由一个子任务函数和一个指令提示组成;3)检索步骤使用指令提示和任务SQL从场景数据库中检索相应的响应;4)保存步骤保存所有指令-响应对(见图(d))。5)验证步骤采用人工分析或基于LLM的方法(例如,GPT-4[35])来消除错误的指令-响应对,从而保证NuInstruction的质量。任务SQL设计是按逻辑顺序进行的,并基于自动驾驶任务的固有关系流,即“感知→ 预测,(感知,预测)→ 风险,(风险,预测)→ 理性规划,其中a→ b表示b SQL是从a SQL派生的(图(c)中的蓝色虚线箭头)。
添加图片注释,不超过 140 字(可选)

如图是数据生成过程中步骤3检索的示例说明。(a) 带有注释的采样关键帧:随机采样三个带有注释的关键帧,为了清晰起见,只选择了一个实例,即行人(方框);(b) 采样的子任务SQL:每个子任务SQL由两部分组成,即子任务函数和指令提示;(c) 检索的响应:子任务功能接收特定输入并从场景信息数据库检索响应。

添加图片注释,不超过 140 字(可选)

如图是NuInstruction的统计数据。(a) 不同任务的比例:圆弧的大小表示每个任务的比例,而相同的颜色表示相同类别的任务;这里任务包括各种各样的任务,包括感知、预测、风险和规划。(b) 不同观点下的回复数量:横轴表示不同的视图,纵轴表示需要来自相应视图信息的响应数量。(c) 查看不同任务中的百分比:横轴和纵轴分别表示不同视图和任务类的比例。

添加图片注释,不超过 140 字(可选)

现有的MLLM[7,23,25,50]通常由三个部分组成:用于接收视觉输入的视觉编码器;连接模块(例如,Q-Former[24])用于将视觉表示转移到与语言对齐的视觉tokens;大语言模型(LLM)用于接收视觉和语言指令token以生成响应。由于它们只能接收单个视图输入,作者提出了一个名为多视图MLLM(MV-MLLM)的基线模型,使当前的MLLM能够处理多视图视频。

BEV注入MLLM(BEV-InMLLM)用BEV注入模块(BEV-In)以数据高效和资源轻量的方式获得与LLM对齐的BEV信息。从预训练的BEV提取器[17,38]中获得高质量的BEV特征。BEV-In的两个关键组件是指令-觉察BEV Q-Former和注入模块。

如图是BEV InMLLM的总体流水线。(a) 为处理多视图视频而定制的基本多模态大语言模型(MLLM)。(b) BEV注入模块(BEV-In)将BEV表示注入基本MLLM,提高对自动驾驶的理解。

添加图片注释,不超过 140 字(可选)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值