自动驾驶的语言提示

这篇23年9月份来自北理工、澳门大学、旷视科技和北京AI研究院的论文“Language Prompt for Autonomous Driving“。该文采用大模型chatGPT中采取的语言提示方法,去完成一个自动驾驶的轨迹预测任务。其中创建语言提示数据集时,需要语言大模型。

计算机视觉领域的一个新趋势,是跟从自然语言提示表示的人类命令捕获感兴趣的目标。然而,由于提示-实例配对数据的稀缺,在驾驶场景中采用语言提示的进展陷入瓶颈。为了应对这一挑战,本文提出第一个以目标为中心的语言提示集,用于在3D、多视图和多帧空间内的驾驶场景,名为NuPrompt。它通过构建总共 35367 种语言描述来扩展 Nuscenes 数据集,每种描述平均涉及 5.3 个目标轨迹。基于新基准的目标-文本对,制定了一个新的基于提示的驾驶任务,即用语言提示来预测所描述的目标跨视图和帧的轨迹。此外,提供了一个基于Transformer的简单端到端基线模型,名为PromptTrack。实验表明,PromptTrack在NuPrompt上取得了不错的性能。

语言提示建模是一个广泛的概念,涵盖了各种视觉任务,如目标检测[12,37],引用分割[35]和文本图像生成[27]。在驾驶场景中人类命令使系统能够从人类的角度理解驾驶系统,从而促进人类对驾驶程序的控制。Talk2Car [9]是自动驾驶汽车语言提示的开创性基准工作,建立在Nuscenes [2]的基础上。但是,其标注仅包含吸引标注者的关键帧。Cityscapes-Ref [31] 标注了驾驶数据集 Cityscapes [7] 中每个视频序列的语言表达和关注记录。但是,部署在Talk2Car和Cityscapes-Ref中的提示倾向于表示单个目标。为了解决这个问题,Refer-KITTI [34] 进一步发展了 KITTI [10],其中每个提示都可以引用一个参考目标集。这使得Refer-KITTI成为第一个使用语言提示来指定任意数量的目标预测数据集。最近,Nuscenes-QA [25]开辟了一条新途径,即视觉问答(VQA),用于理解场景级驾驶场景。基于 Nuscenes 的 34149 个视觉场景 [2],共包含 459941 个问答对。

下表是NuPrompt和其他提示数据集的比较:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9aTuO9u9-1721061544528)(https://i-blog.csdnimg.cn/direct/6c3db6307d64450f86dee7c7b2c700b6.png)]

如图是语言提示标注过程的流水线,包括三个步骤:语言元素搜集、语言元素组合和描述生成。首先,在语言元素收集阶段将每个语言标签与引用目标配对。在此之后,在语言元素组合阶段选择和组合某些语言元素。最后,通过获得的组合,采用大语言模型(LLM)在描述生成阶段创建语言描述。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qrS8UDw1-1721061544531)(https://i-blog.csdnimg.cn/direct/490dae33b0f94cca82f6d70e33ef3621.png)]

给定多帧多视图图像和提示,任务的目标是跟踪所描述的目标。它不仅需要跨帧的时域关联,还需要跨模态语义的全面对齐。为了实现这两个目标,提出了PromptTrack,一个端到端的框架。它修改了基于查询的方法 PF-Track [24] ,可适应提示输入。
如图所示,对于每一帧,视觉特征和查询首先被馈送到Transformer解码器中,生成解码的查询,就像原始 DETR 框架一样。然后,以往的推理通过处理历史查询来增强和完善策略,而未来的推理则有利于使用预测位置进行跨帧查询传播。最后,提示推理分支预测提示引用的轨迹。模型通过在线模式进行评估,而训练是端到端可微分的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sXd3GQWW-1721061544532)(https://i-blog.csdnimg.cn/direct/91560f611d0146759ab4a7fd97bcd166.png)]

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值