目录
VLM在自动驾驶中的任务
single or multiple Object Referring
即带条件的目标检测,用语言指示模型识别图像中特定目标。
Referred Object Tracking
和Object Referring相比,Object Referring Tracking会根据自然语言描述在连续帧中对目标进行跟踪。
Open-Vocabulary 3D Object Detection
开放式3D目标检测,利用VLM的zero-shot能力检测场景中在白名单之外的目标类型。
Visual Question Answering
交通场景视觉问答,这需要vlm的高维场景理解能力。自动驾驶领域的问答可以划分为感知、规划、空间推理、时序推理、因果逻辑推理。感知问题可以用来识别交通参与者,如外观描述、存在性、数量、状态等。planning问题则可用于基于当前交通状态做决策。空间推理可以确定目标的相对、绝对位置。时序推理则可以过去或未来的目标行驶轨迹、行为。因果推理则可以通过逻辑推理分析事件的原因。
Captioning
生成一个对于环境的文本描述。和VQA任务不同之处,captioning更关注于特定的任务如场景描述重要性排序、行为解释。Captioning也可以理解为固定问题的VQA。
captioning和VQA的metrics评测指标都是open-ended VQA。在选择题VQA任务中,正确答案出现次数除以总问题数即为accuracy。在开放式问题形式中BLEU、METEOR、ROUGE、CIDEr等评测指标作为评估预测结果和答案的相关性、正确性。
Language-Guided Navigation
根据语言指令指示VLM找到目标位置并给出到达目标位置的规划结果。
Conditional Autonomous Driving Data Generation
即可控的自动驾驶数据生成,应用大模型合成真实的驾驶场景图片。可控的数据生成可以加入prompts控制,可以让他生成BEV图像,可以让他有特定的行为等等。
相关端到端文章DriveGPT4、DriveMLM、VLP
Datasets
BDD-X
《Textual Explanations for Self-Driving Vehicles》Berkeley DeepDrive eXplanation
下载链接:https://drive.google.com/open?id=1Na-jxLK7VxOc6wcT5lnLQytfFi6rqhTF(谷歌网盘)
使用方法:https://github.com/JinkyuKimUCB/BDD-X-dataset
概览:77小时共计6970个驾驶视频,约8.4M帧数据,这些视频有很多场景,如白天/黑夜,高速/城区/乡村,夏季/冬季等。每个视频平均40秒长度,涵盖了3-4个actions,如加速、减速、右转等,所有的标注都是有action描述+解释(每个行为都是有标记起始终止时间戳)。同时数据中还有自车的速度、GPS定位等。
Talk2Car
《Talk2Car: Taking Control of Your Self-Driving Car》
使用方法:GitHub - talk2car/Talk2Car: The official Talk2Car dataset repo
概览:数据集是基于nuScenes数据集(1000个20秒长的视频片段,1.4M图像)建立,给出一个图像+一个指令,目标是让模型能够定位指令中所指的目标。Talk2Car为nuscenes训练集提供了11959条指令,这些指令都是符合视频中车的行驶轨迹并且和一个关键目标相关的。
BDD-OIA
《Explainable Object-induced Action Decision for Autonomous Vehicles》
数据概览:从BDD100K中筛选包括至少5个行人或骑行者并且有超过5辆车,以加强数据集中场景复杂度。最终有22924个5秒的视频片段。每个片段都标注了4个可能采取的action(前进、减速、左拐、右拐)和21个对于行为的explanation(直行原因Traffic ligth is green,Follow traffic,Road is clear,减速原因Traffic light, traffic sign,Obstacle:car,Obstacle: person,Obstacle:rider, Obstacle:others,不能向左变道No lane one the left,Obstacles on the left lane, Solid line on the left,允许左转one the left-turn lane,traffic light allows front car turnining left, 不能右变道no lane on the right,Obstacles on the right lane,Solid line on the right,右转原因on the right-turn lane、traffic light allows,front car turning right.
使用方法:GitHub - Twizwei/bddoia_project
SUTD-TrafficQA
《SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events》
数据概览:主要目的是用于视频的交通事件识别和推理,10080个开放场景视频,62535个QA对,涉及6个推理任务。场景理解、事件推理、避免方法推理、假设推理、事件预测、反推事件发生原因。
NuPrompt
《Language Prompt for Autonomous Driving》
下载链接:https://github.com/wudongming97/Prompt4Driving/tree/master
数据概览:基于nuScenes建立,数据集中有13004 语言要素(目标的属性之类的),用这些文本要素组成了22363统一的描述,最后数据集总共有35367个语言prompt。他是对图像中目标进行描述的文本,如下图所示,橙色框目标对应prompt是“在超车中的汽车”。
NuScenes-QA
《NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario》
下载链接:https://github.com/qiantianwen/NuScenes-QA?tab=readme-ov-file
introduction:基于VQA数据集训练的模型已经取得了很大的进展,但是在解决自动驾驶复杂场景时还是有问题。这个问题主要是由于已有的VQA数据集和自动驾驶场景数据有很大的不同。例如,回答“已停靠的公交车前是否有移动的行人?”,这就有必要精准地识别定位公交车、行人和他们的状态,需要模型有效地利用图像、点云中有效的补充信息来理解复杂的场景,从多帧视频流中捕捉目标的动态信息。
数据集概览:基于NuScenes建立,将nuscenes中每一个keyframe当作scene,为这些目标设计了不同的问题模板,包括计数、对比、存在性问题。最终获得34k场景总计460k问答对,其中377K训练集,83K测试集。
如上图,通过nuscenes的annotation构建目标间的图,再设计问题模板将图提取为问题文本,并给出答案。
Talk2BEV
《Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving》
下载链接:https://github.com/llmbev/talk2bev
数据集概要:基于nuscenes,1000个场景,20000个问题和标准答案。其中问题主要涉及目标属性、目标个数、视觉推理、决策规划、空间推理。比如会问“自车左边是什么”、“前车颜色”、“前车数量”、“场景中天气条件”。
OmniDrive
《OmniDrive: LLM-Agent for Autonomous Driving with 3D Perception, Reasoning and Planning》
下载链接:https://github.com/NVlabs/OmniDrive
数据概览:基于nuScenes建立的高质量VQA数据,涵盖3D领域的感知、推理和规划。VQA数据集包含集中类型的问答数据:
1)scene description,包含场景描述、天气、时间、场景类型和其他图像内容,理解每个视角图像的方向,避免提及某个视角的内容(用相对自车的位置来替代)。
2)attention,给出仿真或专家规划轨迹,问他识别会影响自车的目标。
3)counterfactual reasoning,给出方针轨迹,问他是否会违反交通规则或造成碰撞。
4)decision making and planning,提供高维的决策和专家轨迹,问他为什么这个轨迹是安全的。
5)通用对话,包含目标数量、颜色、相对位置等。
TOD3CAP
《TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes》
数据下载链接:https://drive.google.com/drive/folders/1LGimA3Il-9J1eJ3FYSzASnfD2Gcls_W1
数据集概述:提供了室外场景2.3M描述和63.4k个目标。
MAPLM-QA
《MAPLM: A Real-World Large-Scale Vision-Language Dataset for Map and Traffic Scene Understanding》
链接:https://github.com/LLVM-AD/MAPLM
数据集概述:腾讯提供的开源数据集,每一帧数据包括BEV点云数据、周视摄像头(前视、左后、右后)数据,14k场景、61k文本。会涉及到场景、道路相关的问题。
NuScenes-MQA
《NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations》
链接:https://github.com/turingmotors/NuScenes-MQA
数据集概览:1,459,933个QA对,34149个场景。
参考文献
LLM4Drive: A Survey of Large Language Models for Autonomous Driving.
Vision Language Models in Autonomous Driving: A Survey and Outlook.