自动驾驶的语言提示

三谷秋水

已于 2024-07-30 21:16:04 修改

阅读量543

点赞数 8

分类专栏：大模型自动驾驶文章标签：自动驾驶人工智能机器学习语言模型

于 2024-07-16 00:39:20 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140409206

版权

大模型同时被 2 个专栏收录

721 篇文章

订阅专栏

自动驾驶

157 篇文章

订阅专栏

这篇23年9月份来自北理工、澳门大学、旷视科技和北京AI研究院的论文“Language Prompt for Autonomous Driving“。该文采用大模型chatGPT中采取的语言提示方法，去完成一个自动驾驶的轨迹预测任务。其中创建语言提示数据集时，需要语言大模型。

计算机视觉领域的一个新趋势，是跟从自然语言提示表示的人类命令捕获感兴趣的目标。然而，由于提示-实例配对数据的稀缺，在驾驶场景中采用语言提示的进展陷入瓶颈。为了应对这一挑战，本文提出第一个以目标为中心的语言提示集，用于在3D、多视图和多帧空间内的驾驶场景，名为NuPrompt。它通过构建总共 35367 种语言描述来扩展 Nuscenes 数据集，每种描述平均涉及 5.3 个目标轨迹。基于新基准的目标-文本对，制定了一个新的基于提示的驾驶任务，即用语言提示来预测所描述的目标跨视图和帧的轨迹。此外，提供了一个基于Transformer的简单端到端基线模型，名为PromptTrack。实验表明，PromptTrack在NuPrompt上取得了不错的性能。

语言提示建模是一个广泛的概念，涵盖了各种视觉任务，如目标检测[12,37]，引用分割[35]和文本图像生成[27]。在驾驶场景中人类命令使系统能够从人类的角度理解驾驶系统，从而促进人类对驾驶程序的控制。Talk2Car [9]是自动驾驶汽车语言提示的开创性基准工作，建立在Nuscenes [2]的基础上。但是，其标注仅包含吸引标注者的关键帧。Cityscapes-Ref [31] 标注了驾驶数据集 Cityscapes [7] 中每个视频序列的语言表达和关注记录。但是，部署在Talk2Car和Cityscapes-Ref中的提示倾向于表示单个目标。为了解决这个问题，Refer-KITTI [34] 进一步发展了 KITTI [10]，其中每个提示都可以引用一个参考目标集。这使得Refer-KITTI成为第一个使用语言提示来指定任意数量的目标预测数据集。最近，Nuscenes-QA [25]开辟了一条新途径，即视觉问答（VQA），用于理解场景级驾驶场景。基于 Nuscenes 的 34149 个视觉场景 [2]，共包含 459941 个问答对。

下表是NuPrompt和其他提示数据集的比较：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9aTuO9u9-1721061544528)(https://i-blog.csdnimg.cn/direct/6c3db6307d64450f86dee7c7b2c700b6.png)]

如图是语言提示标注过程的流水线，包括三个步骤：语言元素搜集、语言元素组合和描述生成。首先，在语言元素收集阶段将每个语言标签与引用目标配对。在此之后，在语言元素组合阶段选择和组合某些语言元素。最后，通过获得的组合，采用大语言模型（LLM）在描述生成阶段创建语言描述。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qrS8UDw1-1721061544531)(https://i-blog.csdnimg.cn/direct/490dae33b0f94cca82f6d70e33ef3621.png)]

给定多帧多视图图像和提示，任务的目标是跟踪所描述的目标。它不仅需要跨帧的时域关联，还需要跨模态语义的全面对齐。为了实现这两个目标，提出了PromptTrack，一个端到端的框架。它修改了基于查询的方法 PF-Track [24] ，可适应提示输入。

如图所示，对于每一帧，视觉特征和查询首先被馈送到Transformer解码器中，生成解码的查询，就像原始 DETR 框架一样。然后，以往的推理通过处理历史查询来增强和完善策略，而未来的推理则有利于使用预测位置进行跨帧查询传播。最后，提示推理分支预测提示引用的轨迹。模型通过在线模式进行评估，而训练是端到端可微分的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sXd3GQWW-1721061544532)(https://i-blog.csdnimg.cn/direct/91560f611d0146759ab4a7fd97bcd166.png)]