VisionTrap：基于文本描述的视觉增强轨迹预测

硅谷秋水

于 2024-07-19 11:36:07 发布

阅读量482

点赞数 22

分类专栏：大模型自动驾驶文章标签：自动驾驶语言模型人工智能深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/140544769

版权

大模型同时被 2 个专栏收录

338 篇文章 1 订阅

订阅专栏

自动驾驶

77 篇文章 1 订阅

订阅专栏

24年7月来自朝鲜大学、德州奥斯丁分校、普渡大学和现代汽车公司的论文“VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions”。

预测其他道路智体的未来轨迹是自动驾驶汽车的一项基本任务。现有的轨迹预测方法主要使用检测和跟踪系统生成的智体轨迹和高清地图作为输入。这项工作提出一种方法，结合来自环视摄像头的视觉输入，模型能够利用视觉线索，例如人类注视和手势、道路状况、车辆转向信号等，这些线索在先前的方法中通常对模型隐藏。此外，使用由视觉语言模型 (VLM) 生成并由大语言模型 (LLM) 细化的文本描述作为训练期间的监督，指导模型从输入数据中学习什么。尽管使用这些额外的输入，该方法仍实现 53 毫秒的延迟，从而可以实现实时处理，这比以前具有类似性能的单智体预测方法要快得多。实验表明，视觉输入和文本描述都有助于提高轨迹预测性能，定性分析强调模型如何能够利用这些额外的输入。最后，创建并发布 nuScenes-Text 数据集，该数据集为每个场景添加了丰富的文本注释，增强了已建立的 nuScenes 数据集，展示了利用 VLM 对轨迹预测的积极影响。

预测智体未来的姿态（或轨迹）对于在密集而复杂的城市环境中安全导航至关重要。要成功完成此类任务，需要对以下方面进行建模：（i）了解个人的行为背景（例如，动作和意图），（ii）智体与智体之间的交互，以及（iii）智体与环境之间的交互（例如，人行横道上的行人）。最近的研究 [5,12,13,24,25,33,52,53] 取得了显著进展，但它们的输入通常有限——它们主要使用高清 (HD) 地图和来自检测和跟踪系统的智体过去轨迹作为输入。

高清地图本质上是静态的，仅提供预定义信息，这限制了它们对不断变化的环境条件（如施工区域附近的交通或天气条件）的适应性。它们也无法提供视觉数据来理解智体的行为背景，例如行人的注视、方向、动作、手势和车辆转向信号，所有这些都会显著影响智体的行为。因此，需要视觉背景理解的场景可能需要比非视觉输入更多的信息，才能获得更好、更可靠的性能。

如图所示：现有方法通常仅以智体过去的轨迹和高清地图为条件来预测未来轨迹。利用摄像机图像和从图像中获得的文本描述，将高级语义信息纳入预测过程，更好地了解智体的行为背景和智体与环境的交互，例如“行人携带堆叠的物品，预计会静止不动”。

请添加图片描述

如图所示，提出的轨迹预测模型由四个主要模块组成：（i）每个智体的状态编码器，（ii）视觉语义编码器，（iii）文本驱动的指导模块，以及（iv）轨迹解码器。每个智体状态编码器将一系列状态观测（通常由检测和跟踪系统提供）作为输入，从而产生每个智体的上下文特征。在视觉语义编码器中，将多视角图像（捕捉自车周围的景色）编码为统一的鸟瞰图 (BEV) 特征，然后与路段的密集特征图连接起来。鉴于此 BEV 特征，每个智体状态嵌入在场景-智体交互模块中更新。用文本驱动的指导模块来监督模型理解或推理详细的视觉语义，从而产生更丰富的语义。最后，给定具有丰富视觉语义的每个智体特征，轨迹解码器会在固定时间范围内预测场景中所有智体的未来位置。

请添加图片描述

视觉语义编码器简化了场景的视觉推理，专注于显着的可见特征，导致轨迹预测的性能不佳。例如，该模型可能主要关注车辆本身，而忽略其他语义细节，例如“一辆车辆在路口前等待，转向灯亮起，预计左转”。因此，引入文本驱动的指导模块来监督模型，使模型能够使用详细的视觉语义来理解智体的上下文。为此，采用多模态对比学习，将正对拉到一起，将负对推得更远。然而，驾驶领域预测任务的文本描述在表达上多种多样，在描述之间形成负对时造成歧义。

如图所示是文本驱动指导模块概述。用预训练的 BERT [9] 作为文本编码器提取单词级嵌入，然后用注意模块将这些单词嵌入聚合为复合句子级嵌入。基于这些嵌入之间的余弦相似度，应用对比学习损失将文本描述嵌入到智体的状态嵌入中。

请添加图片描述

为了加快推理速度并与以自车为中心的图像兼容，在状态编码器和场景语义交互中采用了以自车为中心的方法。然而，正如 Su [45] 所指出的，与以智体为中心的方法相比，自车为中心的方法通常表现不佳，因为需要学习场景元素之间变换和旋转的不变性。这意味着具有相似未来运动的智体特征不是标准化的。因此，在利用文本驱动的指导模块并预测每个智体的未来轨迹之前，用转换模块来标准化每个智体的方向，旨在减轻与学习旋转不变性相关的复杂性。这能够有效地应用文本驱动的指导模块，因为处于类似情况下的智体特征相似。如图所示，转换模块将智体的特征和旋转矩阵 R 作为输入，并使用多层感知器 (MLP) 将旋转矩阵传播到智体的特征。通过这种转换可以确定智体的特征沿 y 轴面临哪些情况。

请添加图片描述

如图所示，采用三步流程从图像生成智体的文本描述。首先，用预训练的视觉语言模型 (VLM) BLIP-2 [19]。然而，它在驾驶相关的图像转文本任务中往往表现不佳。为了解决这个问题，用 DRAMA 数据集 [28] 对 VLM 进行微调，其中包含驾驶场景中智体的文本描述。分离代表感兴趣智体的边框区域，将其与原始图像连接起来，并利用微调后的 VLM 在 nuScenes 数据集 [3] 中为每个智体单独生成描述，作为图像的生成字幕任务。然而，生成的描述通常缺乏正确的动作相关细节，从而为预测提供了不必要的信息。为了解决缺点，用著名的大语言模型 (LLM) GPT [1] 来细化生成的文本。输入包括生成的文本、智体类型和操作。基于规则的逻辑决定智体的操作（例如，静止、变道、右转）。用提示来纠正不恰当的描述，旨在生成提供与智体类型、操作和原理相关的预测信息的文本。

请添加图片描述

如下图提供了一些示例：图 a 以文本形式表示了智体随时间变化的上下文信息。此属性有助于准确预测行为上下文变化下的目标轨迹。在图 b 中展示了可以捕捉每个目标的独特特征（例如，“等待过马路的行人”、“坐在草坪上的建筑工人”）并为每个目标生成三个独特的文本描述，展示不同的视角。此外，当 VLM 生成不正确的智体类型、行为预测或有害信息（例如“从左侧到右侧”）时，为了增强文本描述，由于 BEV 的方向变化取决于摄像机的方向，这些信息可能会产生误导，用 LLM 细化文本。此细化过程旨在提高通过环绕图像识别驾驶场景的文本质量。图 c 说明了这一改进过程，通过删除不相关的细节（用红色表示）并添加相关信息（用青色表示）来确保文本的相关性和准确性。

请添加图片描述

硅谷秋水

关注

22
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
VisionTrap：基于文本描述的视觉增强轨迹预测

24年7月来自朝鲜大学、德州奥斯丁分校、普渡大学和现代汽车公司的论文“VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions”。
复制链接

扫一扫