Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving-CSDN博客

本文链接：https://blog.csdn.net/weixin_46254816/article/details/135545253

Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

摘要

摘要

这项工作介绍了Talk 2BEV，这是一个大型视觉语言模型（LVLM）（指预处理微调的视觉语言模型;即，可以将文本和图像作为输入，并根据视觉上下文输出文本的模型）接口，用于自动驾驶环境中的鸟瞰图（BEV）地图。虽然现有的自动驾驶场景感知系统主要集中在预定义的（封闭的）对象类别和驾驶场景集合上，但Talk 2BEV将通用语言和视觉模型的最新进展与BEV结构化地图表示相结合，消除了对特定任务模型的需求。这使得单个系统能够满足各种自动驾驶任务，包括视觉和空间推理，预测交通参与者的意图以及基于视觉线索的决策。我们广泛评估Talk 2BEV大量的场景理解任务，依赖于解释自由形式的自然语言查询的能力，并在接地这些查询嵌入到语言增强的BEV地图的视觉环境。为了进一步研究自动驾驶场景中的LVLM，我们开发并发布了Talk 2BEV-Bench，这是一个包含1000个人类注释BEV场景的基准测试，其中包含来自NuScenes数据集的20，000多个问题和地面真实响应。我们鼓励读者在我们的项目页面上查看演示：https://llmbev.github.io/talk2bev/

attention:
多项选择题（MCQ）

1、介绍

为了在没有人为干预的情况下安全导航，自动驾驶（AD）系统需要了解周围的视觉世界，以便做出明智的决策。这不仅需要识别特定的对象类别，还需要将其当前和未来与环境的潜在互动联系起来。现有的AD系统依赖于每个场景理解任务的特定领域模型，例如检测交通参与者和标志或预测可能的未来事件。另一方面，最近在大型语言模型（LLM）[4]-[8]和大型视觉语言模型（LVLM）[2]，[3]，[9]，[10]方面的进展已经证明了一种有希望的替代方案来思考AD的感知;在网络规模的数据上预先训练的单个模型，能够执行所有上述任务以及更多（特别是处理不可预见场景的能力）。在这项工作中，我们问，我们如何最有效地将LLM的这些功能与传统上用于自动驾驶的场景表示相结合？

为此，我们推出了Talk2BEV，这是AD的语言增强型map，能够在广泛的道路场景中实现整体场景理解和推理。我们的框架将LVLMS与鸟瞰(BEV)地图(在AD系统[11]-[14]中广泛使用的道路平面和交通参与者的自上而下的语义地图)相结合，以支持视觉推理、空间理解和决策。我们为场景中的每个对象使用对齐的图像语言特征来增强BevMap。然后，这些功能可以直接作为(可视)上下文传递给LVLM，使模型能够回答有关场景的广泛问题，并使用LVLM在培训期间获得的大量知识库做出有关未来潜在场景的决策。我们发现，这些模型能够解释对象语义、材料属性、提供度和空间概念，是领域特定模型的理想替代方案。

值得注意的是，我们的方法不需要任何专门针对BEV或视觉语言的培训/微调；并使用现有的预先培训的LLM和LVLM。这使得我们的方法可以灵活和松散地部署在广泛类别的域和任务上，并随着新的和更好的型号出现而轻松适应更新的LLM和LVLM。

为了客观地评估LVLMS在AD环境下的感知能力，并加快进一步的研究，我们还开发了Talk2BEV-BENCH：一个基准，用于评估自动驾驶系统在一系列任务上的大视觉和语言模型，包括对象级和场景级视觉理解。

总之，我们的贡献如下：

我们开发了Talk 2BEV，这是第一个用语言增强BEV地图的系统，可以为AD场景提供通用的视觉语言推理。
我们的框架不需要任何训练或微调，而是依赖于预先训练的图像语言模型。这允许泛化到模型、场景和任务的不同集合。
我们开发了Talk2BEV-Bench，这是一个用于评估AD应用LVLM的基准测试，它具有人类注释的对象属性，语义，视觉推理，空间理解和决策的地面实况。

图1：Talk 2BEV使用（a）由车辆传感器（多视图图像，LiDAR）构建的BEV表示和（b）每个对象的对齐视觉语言特征来构建语言增强的鸟瞰图（BEV）地图，这些特征可以直接用作大型视觉语言模型（LVLM）中的上下文，以查询场景中的对象并与之交谈。这些地图嵌入了有关对象语义、材料属性、启示和空间概念的知识，可以查询视觉推理、空间理解以及对未来潜在场景做出决策，这对自动驾驶应用至关重要。此外，我们开发了第一个基准Talk 2BEV-Bench，用于评估AD应用程序的LVLM，这些应用程序跨越了具有人类注释的地面事实的各种问题类别。

2、相关工作

大型视觉语言模型。在过去的几个月里，大型语言模型（LLM）[4]-[8]和大型视觉语言模型（LVLM）[2]，[3]，[9]，[10]的最新进展已经出现。评估和基准测试这些模型仍然具有挑战性，有几个建议通过使用现成的LLM管理问题-响应对来探索LVLM基准测试[15]-[17]，这会损害客观性。为了解决这个问题，SEEDBench [18]引入了一个标准，每个问题有四个潜在的答案，LVLM排名最佳答案。我们采用这种评估方法是出于其客观性。

3D视觉语言模型。LVLM也开始应用于场景理解任务，例如对象定位[19]-[21]，场景字幕[22]，[23]，利用多视图图像[24]，[25]或点云[26]，[27]的3D视觉问题搜索。3D-LLM [28]将LLM集成到多视图图像的点云中，将2D模型连接到3D。相比之下，Point-LLM [29]仅在点云上训练，绕过了对图像的需求。

自动驾驶的视觉语言模型。与这项工作相关的另一个最近的趋势是采用LVLM进行自动驾驶[30]-[32]。CityScapesRef [33]，Talk 2Car [31]分别使用CityScapes [34]和NuScenes [35]数据集执行语言基础任务。ReferKITTI [36]利用时间数据来引用KITTI数据集上的对象检测和跟踪。NuPrompt [32]使用RoBERTA [37]作为其语言编码器利用3D点云信息。我们的工作通过将最先进的LLM和LVLM与BEV地图混合在一起，同时不需要培训或微调，从而提供了实质性的改进。

Concurrent Work（同时工作）：我们简要回顾了最近和未出版的预印本，已浮出水面后，这项工作已经完成。NuScenes-QA [38]通过制作场景图和问题模板来解决自动驾驶中的视觉问题查询（VQA）。他们的评估需要端到端的培训和准确的答案匹配。其他的努力集中在训练端到端的视觉-语言-动作模型[39]上，这些模型是基于大量对齐的多模态数据。与早期的方法相比，我们使用LVLM的泛化提供零拍摄场景理解，并引入更广泛的基准Talk 2BEV-Bench，以评估LVLM在自动驾驶中通过BEV进行场景理解。

3、TALK2BEV

Talk 2BEV的关键思想是使用来自预训练LVLM的通用视觉语言特征来增强鸟瞰图（BEV）。BEV地图，表示为O，是对语义信息进行编码的top-view多通道网格（在本工作中，仅车辆和道路）2（我们使用车辆类来提取LVLM特征，道路类仅用于可视化目的。）。自我车辆位于原点，假设为BEV的中心。给定多视图RGB图像I和LiDAR点云X，可以使用许多现成的方法[11]，[12]，[14]，[40]，[41]获得BEV。
在这里插入图片描述
图2：Talk2BEV总体流程：我们首先从图像和LiDAR数据生成鸟瞰图（BEV）。然后，我们构建语言增强的地图，通过增强所生成的BEV与对齐的图像语言功能，为每个对象从大型视觉语言模型（LVLM）。这些特征可以直接用作LVLM的上下文，用于回答对象级和场景级查询。对于BEV中的每个对象，我们将其投影到图像（使用LiDAR相机extrinsics），提取边界框，并使用现成的LVLM为裁剪的边界框添加标题。语言增强地图中的每个对象现在编码几何线索（位置，面积，质心）和语义线索（对象和图像描述）。

我们的三阶段流水线（见图2）如下进行：

1）我们首先使用现成的BEV预测模型[11]使用车载车辆传感器（多视图图像）估计BEV地图。
2)对于这个BEV映射中的每个对象，我们使用LVLM生成对齐的图像语言特征[1]，[2]，[10]。然后将这些特征传递到LVLM的语言模型中以提取对象元数据。对象数据与封装在BEV中的几何信息一起形成语言增强的映射L（O）。
3)最后，给定一个用户查询，我们提示一个LLM（例如。GPT-4 [9]），它解释这个查询，根据需要解析语言增强的BEV，并生成对这个查询的响应。

A、语言增强地图

BEV-图像对应。首先，我们在用于产生BEV图的多视图图像上定位估计的BEV中的每个对象。对于BEV地图中的每个对象，我们计算LiDAR扫描中的一组k个最近点（点云）;并使用逆单应性将它们投影到相机帧中。

地图表示。我们的语言增强地图通过计算与对象对应的图像区域并导出空间和文本描述来增强BEV中的对象集。对于每个对象 i，我们计算（a）沿着BEV X轴和Y轴（以m为单位）从自车的位移，（b）对象面积（以m2为单位），（c）对象的文本描述，以及（d）背景的文本描述。LVLM被特别提示生成对象的详细描述，其输出通常编码车辆的类型，颜色和实用性，车辆指示灯的状态，车辆上显示的任何文本等3。（All prompts we used are made available on our webpage.）

语言增强。然后，我们使用一个点可查询的分割模型，例如FastSAM [42]，带有一个点Prompt（图像裁剪的中心）来生成实例分割掩码。k个反向投影点用作点提示符的正标签。对于每个分割掩码，我们裁剪一个紧密贴合的边界框，并将其传递给LVLM以生成裁剪的描述。在这个阶段，我们只通过视觉编码器传递裁剪的边界框，以获得图像语言特征，这些特征稍后可以作为上下文tokens传递到语言解码器中。每个对象的描述都包含对象级和场景级的详细信息。然后，这些生成的元数据以文本条目的形式添加到BEV映射中（参见下面的JSON结构化条目示例和图4）。
在这里插入图片描述

B. 响应生成

查询类型。Talk2BEV系统可以处理多种用户查询。在这项工作中，我们将它们分为自由形式的文本查询，多项选择题（MCQ）与一个正确答案，和空间推理查询（通过文本指定）。自由形式和空间推理查询模拟Talk2BEV的自然最终用户界面，而MCQ允许我们按照SEEDBench [18]中概述的协议进行客观评估。

回复格式：与直接生成自由形式的文本输出相反，我们指示Talk 2BEV中使用的LLM生成JSON格式的输出，其中包含四个字段：（i）推断查询，首先重新表述用户查询，从而提供其对该查询的内部解释;（ii）查询可实现，指示查询是否可实现。(iii)空间推理功能，表示是否需要空间推理功能，以及（iv）解释，包含LLM如何解决所提供的任务的简要解释。图3指定了提供给LLM的系统提示（本例中为GPT-4）。这种格式提供了双重优势：首先，它确保LLM提供组织成键值对的信息。其次，它通过概述导致最终响应的中间步骤来实现思维链推理[45]。
在这里插入图片描述
图3：LLM系统提示：（a）LLM的通用问题生成提示[9]。(b)系统提示生成响应。©详细介绍了为生成沿着每个评估维度的问题而添加的特定于类型的命令。(d)显示响应格式JSON，并向LLM提供关于如何填充JSON的每个键的简要说明。
在这里插入图片描述
表I：空间运算符列表：这里objs是BEV中的对象列表，oid指对象id为id的对象。不接受对象id作为输入的运算符在自我车辆上操作。

空间运算符Operators为了使LLM能够准确地执行空间推理，我们提供了对原始空间运算符的API的访问，如下[46]。每当用户查询涉及空间推理（位置、距离、方向）时，指示模型生成直接调用这些空间运算符之一的API调用，而不是直接尝试产生输出。这些空间运算符的完整列表见表 I。图6中示出了空间算子的示例使用，其中我们能够捕获施工车辆与运载材料的卡车之间的距离。重要的是，这些车辆永远不会在同一个摄像头中共同可见，并且需要BEV地图来共同推理它们。
在这里插入图片描述
图6：空间运算符：为了计算推土机和白色卡车之间的距离，对象的语言增强映射由LLM（如GPT4）解释，以调用我们框架中的相关空间运算符，并将适当的对象ID作为参数。

C.实现细节

为了从多视图图像生成BEV图，我们使用Lift-Splat-Shoot模型[11]。每个BEV是一个200 × 200的网格，每个单元格的分辨率为0.5米。我们所有的地面实况BEV地图（用于评估）具有相同的分辨率和网格尺寸。我们实验了许多LVLM来计算视觉语言特征- BLIP-2 [1]，MiniGPT-4 [2]和InstructBLIP-2 [10]。这些特征稍后被用作LVLM的语言解码器的上下文以输出对象描述。对于BLIP-2，我们使用Flan 5XXL [47]语言解码器，对于InstructBLIP-2和MiniGPT-4，我们使用维库纳-13 b语言解码器[48]。对于所有实验，我们使用LVLM的默认温度值0.7。我们在NVIDIA DGX A100上执行推理。

4、TALK2BEV基准测试

为了评估我们的语言增强地图的质量并评估我们框架的空间理解和视觉推理能力，我们提出了Talk 2BEV-Bench-用于评估自动驾驶应用LVLM的第一个基准。我们从NuScenes数据集[35]中为1000个场景生成地面实况语言增强地图，并在SEEDBench [18]格式中生成超过20，000个人类验证的问答对4(每个问题有多个答案选项，只有一个正确答案)。这些问题评估对象属性，实例计数，视觉推理，决策和空间推理的理解。为了生成问题和回答，我们首先从NuScenes数据集中提取地面实况BEV地图，并获得地图中每个对象的标题。注释人员对标题进行了优化，之后我们使用GPT-4生成问题和每个问题的初始响应。这些问题和响应再次由人工注释者验证，以产生基准测试中使用的最终MCQ集。这种问答策展方法在图5中示出，其中给出了一组示例生成的问题，给出了地面实况语言增强的BEV地图。
在这里插入图片描述
图五：Talk 2BEV-Bench创建：为了开发这个基准，我们使用NuScenes Ground Truth BEV注释，并使用密集的Captioners（GRiT [43]）和文本识别（PaddleOCR [44]）模型生成对象和场景级描述。然后，地面实况BEV被传递到LLM（如GPT 4）以生成各种问题，包括但不限于空间推理，实例属性，视觉推理和实例计数。

A.Ground-truth language-enhanced maps 地面实况语言增强地图

我们首先使用作为NuScenes地面实况数据的一部分提供的BEV地图来识别感兴趣的对象，并通过LiDAR相机投影获得它们的图像crops。对于每个对象，我们提取其前景和背景上下文的标题。

Crop captions：我们采用密集字幕模型（GRiT [43]）来生成文本描述，在每个对象边界框内封装细粒度的细节。我们还利用现成的文本识别模型（PaddleOCR [44]），提取任何前景文本，以增强对对象类型和类别的理解。

背景信息：除了对象级（前景）字幕，我们还提取信息的场景上下文（背景）功能的图像字幕。这可以捕获其他上下文，例如街道标志、障碍物、天气条件、一天中的时间和独特的场景元素。人工注释者在此阶段验证并细化组合的前景和背景字幕，如图5所示。

B.Question Generation and Evaluation Metrics问题生成和评估

我们的评估涵盖了四种类型的视觉和空间理解任务-实例属性（与对象及其属性有关的问题），实例计数（计算与文本查询对应的对象数量），视觉推理（评估其他类别中未直接捕获的一般视觉理解问题的问题）和空间推理（与位置，距离或方向信息有关的问题）。对于每个场景和评估维度，我们提示GPT-4五次，以在每个维度生成五个这样的问题，从而每个场景生成20个问题。对于所有类别（除了空间运算符），我们报告了一个准确性度量（因为问题是多项选择）。对于空间推理查询，我们以Jaccard索引（对于期望一组对象作为输出的查询）和距离错误（对于需要距离值作为输出的查询）的形式报告回归度量。

5.结果

在本节中，我们根据Talk 2BEV-Bench的问题对Talk 2BEV进行了定量评估，发现
1）Talk 2BEV通过利用语言增强的地图解决了广泛的视觉和空间理解任务
2）访问b的API显著提高了空间推理任务的性能b
3）Talk 2BEV的zero-shot特性允许无缝切换LVLM，从而可以轻松集成到性能更高的LVLM中。
我们还提供了NuScenes [35]中具有挑战性的场景的定性结果，表明Talk 2BEV能够以允许预测潜在风险驾驶操作和追索权的粒度解释BEV布局。

A.Quantitative Results定量结果

我们首先评估了Talk 2BEV的性能，并对Talk 2BEV-Bench提出的问题进行了评估。在表II中，我们报告了跨任务子集和跨所用LVLM的性能。为了描述源自不正确的BEV预测与不准确的LVLM标题的错误，我们还呈现了利用地面实况BEV地图的Oracle方法的结果。当使用LSS [11]输出的BEV映射时，我们发现与BLIP-2和MiniGPT-4相比，InstructBLIP-2在实例属性识别和视觉推理方面实现了最佳性能。相比之下，例如计数，基于MiniGPT-4的L（O）图实现了最佳准确性。总的来说，我们注意到MiniGPT-4在不同类型的问题中实现了最佳的平均性能。我们注意到，与其他问题类别相比，实例属性和视觉推理任务对LVLM标题的质量更敏感，这是预期的，因为这些任务的复杂性与实例计数相比。我们还注意到，BEV中的错误对性能的影响很小（3%）;这意味着随着更多性能LVLM的发布，Talk 2BEV的性能有望进一步提高。
在这里插入图片描述
表II：MCQ的总体准确度（qmcq）。使用不同LVLM（BLIP-2、InstructBLIP-2、MiniGPT-4）和BEV变体（LSS和GT）构建的语言增强映射的Talk 2BEV在多项选择题（MCQ）上的表现。

B.定性结果(Qualitative Results)

在图7中，我们示出了与Talk 2BEV的自由形式的交互式对话，其中用户打算前进20米并询问潜在的障碍物。在自我车辆的前面是另一辆倒车进入停车位的车辆。Talk 2BEV利用车辆的停车灯和位置信息来推断意图并建议谨慎。LLM的预测与车辆从t = 0到t = 3s的未来活动一致。在图8中，我们比较了多个LVLM对来自Talk 2BEV-Bench的MCQ查询的性能。
在这里插入图片描述
图7：Talk2BEV与用户进行自由形式的对话。在自我车的前面有一辆车（用红色突出显示），它正在倒车停在停车位上。Talk2BEV识别出停车灯亮着，根据这些视觉信息和前面汽车的空间位置，Talk2BEV认为继续前进是不安全的。
在这里插入图片描述
图8：定性结果：BEV对应于在立交处具有多个车辆的场景。Talk 2BEV能够识别紧急车辆（例如此处显示的警车）。使用不同的LVLM（BLIP-2，InstructBLIP-2，MiniGPT-4）构建的语言增强地图中的警车和工程车辆的字幕已经可视化。我们展示了各种LVLM产生的相应BEV字幕及其在Talk 2BEV-Bench中与这2个对象相关的4个问题中的表现。每个问题的正确答案以绿色突出显示。

C .Impact of Spatial Operators.

为了评估通过API对我们的模型可用的显式空间运算符的影响，我们在表III中评估了具有和不具有空间运算符的系统的性能。请注意，空间推理查询是使用Jaccard索引或距离误差基于查询的性质进行评估的，如第2节所述。IV-B.作为参考，我们实现了一个基线方法Random，它统一随机猜测距离和相关对象。虽然与随机基线相比，没有空间运算符的Talk 2BEV表现出明显更好的性能，但该模型似乎难以进行空间推理查询，经常遇到大的错误。我们看到，与直接使用LLM（这里是GPT-4 [9]）进行空间推理相比，我们的空间运算符集成的Talk 2BEV实现了显着的性能飞跃（Jaccard指数提高了58%，距离误差减少了0.09 m）。
在这里插入图片描述
表III：空间运算符的影响：当直接依赖LLM的能力来推理距离、方向和区域时，我们注意到显著的性能下降（Talk 2BEV w/o SO）。通过API调用提供对基本空间运算符的访问，可以在Jaccard索引（越高越好）和距离误差（越低越好）度量方面实现强大的性能。
在这里插入图片描述

D.跨对象类别的性能Performance across Object Categories

为了评估对象类别之间的性能差异，我们在表IV中报告了每个类别的统计数据。我们注意到，2-轮车辆，包括自行车和摩托车，一贯表现出较低的性能相比其他类别。这主要是由于他们较小的BEV分割预测，使得在预测位置存在微小不一致时更难以准确地反向投影。相反，卡车和工程车辆等大型车辆在大多数情况下的表现始终优于汽车。这可以归因于它们更大的BEV分割，这使得能够进行更准确的反投影。
在这里插入图片描述

总结

在这项工作中，我们提出了Talk 2BEV，一种用于自动驾驶系统的BEV地图的语言接口。通过借鉴LLM和LVLM的最新进展，Talk 2BEV迎合了各种AD任务，包括但不限于视觉和空间推理，预测不安全的交通交互和绘制追索权。我们还介绍了Talk 2BEV-Bench，这是一个用于评估AD应用LVLM后续工作的基准。在我们继续将大型预训练模型集成到AD堆栈中的同时，我们还强调在将这些模型部署到安全关键的AD堆栈之前，需要进行安全性和对齐研究。