VLM视觉语言大模型在智能驾驶中的应用

目录

VLM在自动驾驶中的任务

Datasets

参考文献


VLM在自动驾驶中的任务

 single or multiple Object Referring

即带条件的目标检测,用语言指示模型识别图像中特定目标。

Referred Object Tracking

和Object Referring相比,Object Referring Tracking会根据自然语言描述在连续帧中对目标进行跟踪。

Open-Vocabulary 3D Object Detection

开放式3D目标检测,利用VLM的zero-shot能力检测场景中在白名单之外的目标类型。

Visual Question Answering

交通场景视觉问答,这需要vlm的高维场景理解能力。自动驾驶领域的问答可以划分为感知、规划、空间推理、时序推理、因果逻辑推理。感知问题可以用来识别交通参与者,如外观描述、存在性、数量、状态等。planning问题则可用于基于当前交通状态做决策。空间推理可以确定目标的相对、绝对位置。时序推理则可以过去或未来的目标行驶轨迹、行为。因果推理则可以通过逻辑推理分析事件的原因。

Captioning

 生成一个对于环境的文本描述。和VQA任务不同之处,captioning更关注于特定的任务如场景描述重要性排序、行为解释。Captioning也可以理解为固定问题的VQA。

captioning和VQA的metrics评测指标都是open-ended VQA。在选择题VQA任务中,正确答案出现次数除以总问题数即为accuracy。在开放式问题形式中BLEU、METEOR、ROUGE、CIDEr等评测指标作为评估预测结果和答案的相关性、正确性。

Language-Guided Navigation

根据语言指令指示VLM找到目标位置并给出到达目标位置的规划结果。

Conditional Autonomous Driving Data Generation

即可控的自动驾驶数据生成,应用大模型合成真实的驾驶场景图片。可控的数据生成可以加入prompts控制,可以让他生成BEV图像,可以让他有特定的行为等等。

相关端到端文章DriveGPT4、DriveMLM、VLP

Datasets

BDD-X

《Textual Explanations for Self-Driving Vehicles》Berkeley DeepDrive eXplanation

下载链接:https://drive.google.com/open?id=1Na-jxLK7VxOc6wcT5lnLQytfFi6rqhTF(谷歌网盘)

使用方法:https://github.com/JinkyuKimUCB/BDD-X-dataset

概览:77小时共计6970个驾驶视频,约8.4M帧数据,这些视频有很多场景,如白天/黑夜,高速/城区/乡村,夏季/冬季等。每个视频平均40秒长度,涵盖了3-4个actions,如加速、减速、右转等,所有的标注都是有action描述+解释(每个行为都是有标记起始终止时间戳)。同时数据中还有自车的速度、GPS定位等。

 Talk2Car

 《Talk2Car: Taking Control of Your Self-Driving Car》

使用方法:GitHub - talk2car/Talk2Car: The official Talk2Car dataset repo

 概览:数据集是基于nuScenes数据集(1000个20秒长的视频片段,1.4M图像)建立,给出一个图像+一个指令,目标是让模型能够定位指令中所指的目标。Talk2Car为nuscenes训练集提供了11959条指令,这些指令都是符合视频中车的行驶轨迹并且和一个关键目标相关的。

 BDD-OIA

Explainable Object-induced Action Decision for Autonomous Vehicles》

数据概览:从BDD100K中筛选包括至少5个行人或骑行者并且有超过5辆车,以加强数据集中场景复杂度。最终有22924个5秒的视频片段。每个片段都标注了4个可能采取的action(前进、减速、左拐、右拐)和21个对于行为的explanation(直行原因Traffic ligth is green,Follow traffic,Road is clear,减速原因Traffic light, traffic sign,Obstacle:car,Obstacle: person,Obstacle:rider, Obstacle:others,不能向左变道No lane one the left,Obstacles on the left lane, Solid line on the left,允许左转one the left-turn lane,traffic light allows front car turnining left, 不能右变道no lane on the right,Obstacles on the right lane,Solid line on the right,右转原因on the right-turn lane、traffic light allows,front car turning right.

使用方法:GitHub - Twizwei/bddoia_project

 SUTD-TrafficQA

《SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events》

下载链接:GitHub - sutdcv/SUTD-TrafficQA: [CVPR2021] SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events

数据概览:主要目的是用于视频的交通事件识别和推理,10080个开放场景视频,62535个QA对,涉及6个推理任务。场景理解、事件推理、避免方法推理、假设推理、事件预测、反推事件发生原因。

 NuPrompt

《Language Prompt for Autonomous Driving》

下载链接:https://github.com/wudongming97/Prompt4Driving/tree/master

数据概览:基于nuScenes建立,数据集中有13004 语言要素(目标的属性之类的),用这些文本要素组成了22363统一的描述,最后数据集总共有35367个语言prompt。他是对图像中目标进行描述的文本,如下图所示,橙色框目标对应prompt是“在超车中的汽车”。

NuScenes-QA 

《NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario》

下载链接:https://github.com/qiantianwen/NuScenes-QA?tab=readme-ov-file

introduction:基于VQA数据集训练的模型已经取得了很大的进展,但是在解决自动驾驶复杂场景时还是有问题。这个问题主要是由于已有的VQA数据集和自动驾驶场景数据有很大的不同。例如,回答“已停靠的公交车前是否有移动的行人?”,这就有必要精准地识别定位公交车、行人和他们的状态,需要模型有效地利用图像、点云中有效的补充信息来理解复杂的场景,从多帧视频流中捕捉目标的动态信息。

数据集概览:基于NuScenes建立,将nuscenes中每一个keyframe当作scene,为这些目标设计了不同的问题模板,包括计数、对比、存在性问题。最终获得34k场景总计460k问答对,其中377K训练集,83K测试集。

如上图,通过nuscenes的annotation构建目标间的图,再设计问题模板将图提取为问题文本,并给出答案。

Talk2BEV

《Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving》

下载链接:https://github.com/llmbev/talk2bev

 数据集概要:基于nuscenes,1000个场景,20000个问题和标准答案。其中问题主要涉及目标属性、目标个数、视觉推理、决策规划、空间推理。比如会问“自车左边是什么”、“前车颜色”、“前车数量”、“场景中天气条件”。

 OmniDrive

《OmniDrive: LLM-Agent for Autonomous Driving with 3D Perception, Reasoning and Planning》

下载链接:https://github.com/NVlabs/OmniDrive

数据概览:基于nuScenes建立的高质量VQA数据,涵盖3D领域的感知、推理和规划。VQA数据集包含集中类型的问答数据:

1)scene description,包含场景描述、天气、时间、场景类型和其他图像内容,理解每个视角图像的方向,避免提及某个视角的内容(用相对自车的位置来替代)。

2)attention,给出仿真或专家规划轨迹,问他识别会影响自车的目标。

3)counterfactual reasoning,给出方针轨迹,问他是否会违反交通规则或造成碰撞。

4)decision making and planning,提供高维的决策和专家轨迹,问他为什么这个轨迹是安全的。

5)通用对话,包含目标数量、颜色、相对位置等。

TOD3CAP

《TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes》

数据下载链接:https://drive.google.com/drive/folders/1LGimA3Il-9J1eJ3FYSzASnfD2Gcls_W1

数据集概述:提供了室外场景2.3M描述和63.4k个目标。

 MAPLM-QA

《MAPLM: A Real-World Large-Scale Vision-Language Dataset for Map and Traffic Scene Understanding》

链接:https://github.com/LLVM-AD/MAPLM

 数据集概述:腾讯提供的开源数据集,每一帧数据包括BEV点云数据、周视摄像头(前视、左后、右后)数据,14k场景、61k文本。会涉及到场景、道路相关的问题。

NuScenes-MQA

《NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations》

链接:https://github.com/turingmotors/NuScenes-MQA

数据集概览:1,459,933个QA对,34149个场景。

 

参考文献

LLM4Drive: A Survey of Large Language Models for Autonomous Driving.

Vision Language Models in Autonomous Driving: A Survey and Outlook.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值