这篇23年9月份来自北理工、澳门大学、旷视科技和北京AI研究院的论文“Language Prompt for Autonomous Driving“。该文采用大模型chatGPT中采取的语言提示方法,去完成一个自动驾驶的轨迹预测任务。其中创建语言提示数据集时,需要语言大模型。
计算机视觉领域的一个新趋势,是跟从自然语言提示表示的人类命令捕获感兴趣的目标。然而,由于提示-实例配对数据的稀缺,在驾驶场景中采用语言提示的进展陷入瓶颈。为了应对这一挑战,本文提出第一个以目标为中心的语言提示集,用于在3D、多视图和多帧空间内的驾驶场景,名为NuPrompt。它通过构建总共 35367 种语言描述来扩展 Nuscenes 数据集,每种描述平均涉及 5.3 个目标轨迹。基于新基准的目标-文本对,制定了一个新的基于提示的驾驶任务,即用语言提示来预测所描述的目标跨视图和帧的轨迹。此外,提供了一个基于Transformer的简单端到端基线模型,名为PromptTrack。实验表明,PromptTrack在NuPrompt上取得了不错的性能。
语言提示建模是一个广泛的概念,涵盖了各种视觉任务,如目标检测[12,37],引用分割[35]和文本图像生成[27]。在驾驶场景中人类命令使系统能够从人类的角度理解驾驶系统,从而促进人类对驾驶程序的控制。Talk2Car [9]是自动驾驶汽车语言提示的开创性基准工作,建立在Nuscenes [2]的基础上。但是,其标注仅包含吸引标注者的关键帧。Cityscapes-Ref [31] 标注了驾驶数据集 Cityscapes [7] 中每个视频序列的语言表达和关注记录。但是,部署在Talk2Car和Cityscapes-Ref中的提示倾向于表示单个目标。为了解决这个问题,Refer-KITTI [34] 进一步发展了 KITTI [10],其中每个提示都可以引用一个参考目标集。这使得Refer-KITTI成为第一个使用语言提示来指定任意数量的目标预测数据集。最近,Nuscenes-QA [25]开辟了一条新途径,即视觉问答(VQA),用于理解场景级驾驶场景。基于 Nuscenes 的 34149 个视觉场景 [2],共包含 459941 个问答对。
下表是NuPrompt和其他提示数据集的比较:
如图是语言提示标注过程的流水线,包括三个步骤:语言元素搜集、语言元素组合和描述生成。首先,在语言元素收集阶段将每个语言标签与引用目标配对。在此之后,在语言元素组合阶段选择和组合某些语言元素。最后,通过获得的组合,采用大语言模型(LLM)在描述生成阶段创建语言描述。
给定多帧多视图图像和提示,任务的目标是跟踪所描述的目标。它不仅需要跨帧的时域关联,还需要跨模态语义的全面对齐。为了实现这两个目标,提出了PromptTrack,一个端到端的框架。它修改了基于查询的方法 PF-Track [24] ,可适应提示输入。
如图所示,对于每一帧,视觉特征和查询首先被馈送到Transformer解码器中,生成解码的查询,就像原始 DETR 框架一样。然后,以往的推理通过处理历史查询来增强和完善策略,而未来的推理则有利于使用预测位置进行跨帧查询传播。最后,提示推理分支预测提示引用的轨迹。模型通过在线模式进行评估,而训练是端到端可微分的。