论文阅读：NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

最新推荐文章于 2025-01-29 20:26:35 发布

帅你一脸的臭宝

最新推荐文章于 2025-01-29 20:26:35 发布

阅读量1.3k

点赞数 2

文章标签：论文阅读语言模型人工智能

本文链接：https://blog.csdn.net/weixin_45800242/article/details/134385035

版权

本文引入NavGPT，一种基于大型语言模型（LLM）的视觉和语言导航智能体。它能处理多模态输入，通过视觉观察、导航历史等推理当前状态并决策。实验表明，LLM具备复杂导航规划能力，但NavGPT零样本性能受视觉描述和跟踪能力限制，未来可探索LLM与下游模型交互。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：NavGPT：使用大型语言模型进行视觉和语言导航的显式推理

摘要

ChatGPT 和 GPT-4 等大型语言模型 (LLM) 经过前所未有的数据规模训练，通过模型扩展展现出显着的推理能力。这种趋势凸显了用无限语言数据训练LLM的潜力，推动了通用具身智能体的开发。

在这项工作中，我们引入了 NavGPT，一种纯粹基于 LLM 的指令跟踪导航智能体，通过对视觉和语言导航（VLN）执行零样本顺序动作预测来揭示 GPT 模型在复杂具体场景中的推理能力。在每一步中，NavGPT 都会将视觉观察、导航历史和未来可探索方向的文本描述作为输入来推理智能体的当前状态，并做出接近目标的决定。

通过全面的实验，我们证明 NavGPT 可以明确地执行高级导航规划，包括将指令分解为子目标、整合与导航任务解决相关的常识知识、从观察到的场景中识别地标、跟踪导航进度以及通过计划适应异常情况调整。此外，我们还表明，LLM 能够根据路径上的观察和动作生成高质量的导航指令，并根据代理的导航历史绘制准确的自上而下的度量轨迹。尽管使用 NavGPT 执行零样本 R2R 任务的性能仍然低于训练模型，但我们建议采用 LLM 的多模态输入作为视觉导航代理，并应用 LLM 的显式推理来使基于学习的模型受益。

引言

在大型语言模型 (LLM) 训练方面取得的显着进步 [54,3,9,67,61,8,4,40]，我们注意到将 LLM 集成到具身机器人任务中的转变，例如 SayCan [1] 和 PaLM- E [13]。这种趋势源于两个主要考虑因素：训练数据的规模和模型的规模。首先，文本信息处理技术的发展为学习跨学科和通用知识提供了丰富的自然语言训练数据来源。此外，通过访问无限的语言数据，在扩展模型时观察到显着的涌现能力[62]，从而在解决跨领域问题时推理能力显着增强。因此，用无限的语言数据训练LLM被视为实现通用具身智能体的可行途径。

这种见解促使LLM融入视觉和语言导航（VLN）[2]，这是一项旨在实现现实世界中遵循指令的具身智能体的探索性任务。最新的研究尝试利用 GPT 模型 [40, 3] 来促进导航。例如，使用LLM作为不同语言输入的解析器[50]——从指令中提取地标以支持视觉匹配和规划，或者利用LLM的常识推理能力[68, 11]结合对象间相关性的先验知识来扩展代理人的感知并促进决策。然而，我们注意到LLM在导航中的推理能力仍处于探索之中，即LLM能否理解文本形式的交互世界、行为和结果，并使用所有信息来解决导航任务？

有鉴于此，我们推出了 NavGPT，这是一种基于 LLM 的全自动系统，专为语言引导视觉导航而设计，能够处理多模态输入、不受约束的语言引导、与开放世界环境的交互以及通过导航历史记录进行进度跟踪。 NavGPT 通过阅读视觉基础模型（VFM）生成的观察描述，并以明确的文本形式协同推理和决策来感知视觉世界。在极端程度上，我们使用 NavGPT 来执行零样本 VLN，以清楚地揭示 LLM 在导航过程中的推理过程。

通过综合实验，我们发现LLM具备执行复杂导航规划的能力。这包括将指令解构为不同的子目标、吸收与导航任务相关的常识知识、在观察到的环境中识别地标、持续监控导航进展以及通过修改初始计划来响应异常情况。上述现象体现了理解和解决导航问题的惊人推理能力。此外，我们还表明，LLM有能力在度量地图中绘制导航轨迹，并根据导航历史重新生成导航指令，揭示了LLM对导航任务的历史和空间意识。然而，与微调模型相比，当前开源LLM在VLN中的零样本性能仍然存在显着差距，其中NavGPT的瓶颈在于将视觉信号翻译成自然语言和观察结果总结为历史信息时产生的信息丢失。因此，我们建议将通用 VLN 代理构建为具有多模态输入的LLM或利用LLM的高级导航规划、历史和空间意识的导航系统的未来方向。

本文贡献：

（1）我们引入了一种新颖的遵循指令的 LLM 代理，用于视觉导航，并具有与环境交互并跟踪导航历史的支持系统。

（2）我们调查了当前LLM做出导航决策的推理能力和局限性。

（3）通过观察LLM的思想，揭示LLM在高级导航规划中的能力，使导航代理的规划过程易于理解和解释。

本文方法

NavGPT

导航系统原理

导航系统原理将 LLM 的行为表述为 VLN 代理。它明确定义了VLN任务以及NavGPT在每个导航步骤的基本推理格式和规则。例如，NavGPT 应该通过识别唯一的视点 ID 在预定义环境图的静态视点（位置）之间移动。 NavGPT 不应伪造不存在的 ID。（其实就是制定一些导航规则）

视觉基础大模型

NavGPT 作为 LLM 代理，需要 VFM 的视觉感知和表达能力，将当前环境的视觉观察转化为自然语言描述。 VFM 在这里扮演翻译者的角色，用自己的语言翻译视觉观察结果，例如：自然语言、对象的边界框和对象的深度。通过及时管理的过程，视觉感知结果将被重新格式化并翻译成纯自然语言供LLM理解。

导航历史

导航历史记录对于 NavGPT 评估指令完成进度、更新当前状态并做出以下决策至关重要。

提示管理器M

使用LLM作为VLN代理的关键是将上述所有内容转换为LLM可以理解的自然语言。这个过程是由提示管理器完成的，它收集来自不同组件的结果并将它们解析为单个提示，供 LLM 做出导航决策，如第 3.4 节中讨论的。

NavGPT的视觉感知

本节我们介绍NavGPT的视觉感知过程。我们将视觉信号视为外部的语言，并使用不同的视觉基础模型处理视觉输入，将其翻译成自然语言，如图 2 所示。

对于站在环境中任何视点的代理来说，观察都是由不同方向的以自我为中心的视点组成的。总视图数由每个视图图像的视野和每个视图的相对角度定义。在我们的工作中，我们将每个视图的视野设置为45，并将每个视图的航向角θ 为45，从0转动到360，总共8个方向。此外，我们对每个视图观测上中下个30°，总共 3 个级别。结果，我们为每个视点获得 3*8 =24 个以自我为中心的观测。

为了将视觉观察转化为自然语言，我们首先使用 BLIP-2 [31] 模型作为翻译器。借助LLM强大的文本生成能力，BLIP-2可以实现令人惊叹的零样本图像到文本生成质量。通过仔细设置视觉观察的粒度（每次观察的视野和总视图数），我们促使 BILP-2 为每个视图生成合适的语言描述，并详细描述物体的形状和颜色，以及场景，同时避免来自较小视场的无用的视图标题，从中可以进行部分观察，即使对于人类来说也很难识别。

请注意，对于航向方向，旋转间隔等于视野，因此每个方向之间没有重叠。对于立面图，上、中、下视角之间有15°的重叠。在NavGPT中，我们主要关注代理在导航过程中的航向角度，因此，我们提示GPT-3.5将每个方向的顶部、中间和底部视图的场景总结为描述句子。

除了BLIP-2对场景的自然语言描述之外，我们还挖掘了其他视觉模型提取的低层特征。这些视觉模型充当辅助翻译器，将视觉输入翻译成它们自己的“语言”，例如对象类别和相应的边界框。检测结果将由提示管理器汇总到法学硕士的提示中。在这项工作中，我们利用 Fast-RCNN [18] 提取每个自我中心视图中对象的边界框。定位物体后，我们计算每个对象和代理之间相对的航向角。我们还提取了 Matterport3D 模拟器 [2] 提供的物体中心像素的深度信息。根据深度、对象的相对方向和类别，我们通过将对象留在距当前视点 3 米的范围内来过滤检测结果。 VFM 的结果将由提示管理器处理为自然语言中当前视点的观察。

具体的实现

1、将视觉感知转化为语言描述

对于每个视点，给定航向 θ，我们使用仰角 ´-30˝、0˝ 和 30˝ 从下、中、上捕捉三个以自我为中心的图像，形成对该方向的观察。每幅图像的视场为 45˝，因此同一方向上的图像有 15˝ 的重叠。每个方向的视觉感知过程包括两个步骤，包括使用 BILP-2 [31] 为三个图像做说明，然后由 GPT-3.5 总结描述。

（1）BILP-2 Prompt

给出来自某个视点的图像，我们尝试了各种方法来提示 BILP-2 模型。如果没有提示，则提示“详细描述场景”，或“这是一个场景”。最终，我们选择“这是一个场景”作为 BILP-2 为每个图像生成描述的首选提示。不使用提示可能会导致描述长度不一致，有时会使描述过于简短。当应用提示“详细描述场景”时，得到的描述主要集中在房间类型上，忽略了对象细节。相比之下，我们选择的提示产生的语言描述与室内场景高度相关，并强调对象描述。字幕结果示例如图5所示。

（2）GPT-3.5总结prompt

BILP-2 的描述可能存在大量冗余，因为同一对象可能同时出现在三幅图像中。我们采用 GPT-3.5 总结器，按照模板将它们总结为一句话，如图 5 所示。

（3）观察描述的示例

已知了每个方向的总结性描述（一共8个方向，应该是一共8句），对象检测器（fast-RCNN）所检测到的物体、深度图和可导航点的信息。

以当前智能体所对的方向视为“Front”方向，计算智能体当前的方向与被检测物体之间的角度和可导航点，并将每个方向的描述顺时针连接起来，单个视点的整体观察结果如图6所示。

形成的当前时间步（论文说是单个视点，我感觉是错的，因为一共有8条）的总体描述有8条，其中每一条都包括：（1）观测点的范围；（2）ChatGPT形成的对当前视点的最终的描述；（3）3m内有没有物体；（4）有没有可导航的点。

LLM在推理和行动中的协同作用

在VLN任务中，智能体需要学习策略π，这很困难，因为动作和观察是隐式的联系，并且需要密集的计算。为了在导航过程中明确地访问和增强智能体对当前状态的理解，我们按照ReAct论文[66]将智能体的动作空间扩展到A～“A(\in)R，其中R(\in)L在整个语言空间L中，R表示智能体的思考或者推理痕迹。

智能体的推理轨迹 R 不会触发与外部环境的任何交互，因此智能体在每个导航步骤中输出推理时不会返回任何观察结果。我们通过在每一步输出推理轨迹后提示 NavGPT 做出导航决策来协同 NavGPT 的行动和推理。引入推理轨迹旨在从两个方面引导LLM：

1、首先，促使LLM在选择行动之前进行思考，使LLM能够在规划和制定策略时进行复杂的推理，以遵循新观察下的指示。例如，如图3所示，NavGPT可以通过分析当前的观测和指令来生成长期导航计划，执行更高级别的规划，例如分解指令和规划之前从未明确看到的子目标。

（1）短指令进度跟踪，可以把推理的过程描绘出来

子目标：绿色；

整合常识知识：紫色；

从观测到的场景中识别地标：蓝色；

跟踪导航进展：橙色；

进行异常处理：红色

（2）短指令子目标规划（包含了导航进展、还有分解的子目标）

（3）整合常识信息

(4)长指令的异常处理

（5）长指令的指令跟踪

2、其次，在导航历史记录H中包含推理轨迹 R，可以增强NavGPT 解决问题的能力。通过将推理轨迹注入导航历史记录，NavGPT继承了之前的推理轨迹，通过步骤一致地达到高层规划的子目标，并可以通过调整计划等异常处理能力来跟踪导航进度。

NavGPT Prompt manager

LLM的输入：包含四部分，以prompt的形式作为输入。

具体来说，对于导航系统原理 P，NavGPT 提示管理器将创建一个提示来传达 LLM 的规则，声明 VLN 任务定义，定义 NavGPT 的模拟环境，并以给定的推理格式限制 LLM 的行为。

对于VFMs F的感知结果，提示管理器收集各个方向的结果，并以NavGPT的当前方向为前面对语言描述进行排序，如图2所示，将8个方向的描述通过顺时针连接的方式排列成提示。

对于导航历史，观察、推理和动作三元组存储在历史缓冲区中，如图 1 所示。直接提取缓冲区中的所有三元组会产生太长的提示，让 LLM 无法接受。为了处理历史的长度，提示管理器利用 GPT-3.5 总结轨迹中各个视点的观察结果，将总结的观察结果插入到提示中的观察、推理和动作三元组中。

Navigation System Principle

定义VLN任务、基本推理格式、每一步的导航规则

History with Summarizer

直接用图6上面的内容是非常长的，因此采用GPT-3.5把观测总结成一个句子，去替换在H中的O。模板是“给出一个视点的描述。用一个简洁的句子概括从该视点看到的场景。\n描述：\n{描述}\n 总结：从视点看到的场景是 a”。其中“{description}”被观点的文本描述替换。视点的总结观察如图 6 所示。历史 Oăt`1 中的观察是视点的总结观察，而当前视点观察 Ot`1 是完整的描述。

实验

实现细节

我们在 R2R-VLN 数据集上基于 GPT-4 和 GPT-3.5 评估 NavGPT。R2R数据集由7189条轨迹组成，每条轨迹对应三个细粒度指令。数据集分为训练集、已见验证集、未见验证集和未见验证集，分别有 61、56、11 和 18 个室内场景。我们在所有实验中应用了 11 个未见环境中的 783 个轨迹，并与之前的监督方法进行比较。我们利用 BLIP-2 ViT-G FlanT5XL作为图像转换器，使用 Faster-RCNN [18] 作为目标检测器。通过获取边界框中中心像素的深度，从 Mattport3D 模拟器中提取对象的深度信息。

评估指标

NavGPT 的评估利用 R2R 数据集的标准化指标。其中包括轨迹长度（TL），表示智能体行驶的平均距离；导航误差（NE），表示智能体最终位置到目的地的平均距离；成功率（SR），表示智能体在 3 米误差范围内成功到达目标位置的导航事件比例； Oracle Success Rate (OSR)，智能体在其轨迹上最接近目标点停止的成功率；成功率按路径长度的归一化倒数 (SPL) 加权，这是一种更细致的衡量标准，通过根据最佳路径长度与代理预测路径长度的比率调整成功率来平衡导航精度和效率。

定性的结果

GPT-4的推理能力

如图3所示，借助GPT-4，NavGPT可以在导航过程中执行各种类型的推理和高级规划。对于简短的指令，NavGPT 可以通过步骤跟踪导航进度，以完成指令中描述的单个操作，类似于自我监控 VLN 代理 [37, 70]。对于长指令，NavGPT 可以将其分解为子目标，类似于之前关于细粒度 R2R 数据的工作 [24,22,71]，并通过有效识别观测中的地标来计划到达目的地，类似于利用对象信息以在 VLN 中执行跨模态匹配 [17,45,44]。当导航到具有意外观察的视点时，NavGPT 可以计划探索环境并使用常识知识来辅助决策，类似于 VLN 方法结合外部知识[35,17,34]。

LLM在导航过程中的历史和空间相对关系感知

我们通过使用 GPT-4 描绘导航历史轨迹并使用 pyplot 构建访问视点地图来检查 NavGPT 对历史和空间关系的感知。该过程涉及专门提取动作 $A_{t+1}$ 、观察 $O_{t+1}$ 和整个导航历史 $H_{t+1}$ 。

我们选择 NavGPT 成功遵循地面真实轨迹的情况，NavGPT 的历史如图 8 所示。GPT-4 的提示如图 9 所示。我们在图 11-17 中进一步显示了本示例中每个步骤的提示细节和 NavGPT 的响应。每个提示的开头，“{Navigation sysytem principles}”被替换为导航系统原理提示，如图7所示。

如图4所示，我们观察到GPT-4可以有效地从冗余的观察描述中提取地标，并生成带有动作的导航历史描述。这可能是为 VLN 生成新轨迹指令的潜在方法。此外，结果表明GPT4可以全面了解导航历史，从而可以在导航过程中执行必要的进度跟踪。此外，如图 4 所示，GPT-4 可以成功捕获视点之间的相对位置关系，并为访问过的视点绘制轨迹的自顶向下视图。通过提供智能体所采取动作的语言描述，包括转动角度和视点之间的相对距离，GPT-4 显示了令人惊叹的空间关系意识。这种令人印象深刻的推理能力支持 NavGPT 执行如图 3 所示的高层规划，突显了LLM在具体导航任务方面的巨大潜力。

有监督方法上的对比

我们将使用 NavGPT 与 GPT-4 进行零样本序列导航任务的结果与之前在 R2R 数据集上训练的模型进行比较。如表 1 所示，可以看出存在显着差异。我们认为，限制LLM在解决 VLN 方面的性能的局限性主要归因于两个因素：基于语言的视觉场景描述的精度和对象的跟踪能力。

NavGPT 的功能很大程度上依赖于 VFM 生成的字幕质量。如果指令中描绘的目标对象在观察描述中不存在，则 NavGPT 被迫探索环境。理想的情况是根据指令所有目标对象都是可见的。然而，语言描述固有的粒度不可避免地会导致信息丢失。此外，NavGPT 必须管理导航历史记录的长度，以防止随着步骤的增加而出现过于冗长的描述。为此，实施了Summarizer，尽管代价是进一步丢失信息。这削弱了 NavGPT 的跟踪能力，随着轨迹的延长，阻碍了对整个环境的无缝感知的形成。

视觉模块的影响

我们进行了额外的实验来研究 NavGPT 中视觉组件的有效性，我们使用 GPT-3.5 构建基线，以使其更容易访问和预算友好的成本。为了评估各种环境中的零样本能力，我们从原始训练集和未见过的验证集构建了一个新的验证分割采样。训练和验证未见过的场景分别为 61 个和 11 个，总共 72 个场景。我们从 72 个环境中随机挑选 1 个轨迹，每个轨迹与 3 个指令相关联。我们总共抽取了 216 个样本来进行消融研究。

视觉观察描述中粒度的影响

图像的视场 (FoV) 严重影响 BILP-2 的字幕能力，过大的 FoV 会导致广义的房间描述，而极小的 FoV 由于内容有限而阻碍对象识别。如表 2 所示，我们从一个角度研究了视觉表示的 3 个粒度。具体来说，变体 #1 使用具有 60 FoV 的图像，顺时针转动航向角 30 度，从一个视点获得 12 个视图，而变体 #2 和 #3 使用具有 30、45 FoV 的图像，将仰角转动 30 度。从上到下，顺时针转动航向角度30度、45度，分别形成36视图、24视图。从结果中，我们发现使用具有 24 个视图的 FoV 45 作为视点可以生成最适合从 BILP-2 模型进行导航的自然语言描述。在这种粒度下使用描述分别超过变体#1和#2 6.48%和2.78%。

语义场景理解和深度估计的效果

除了环境自然语言描述的粒度之外，NavGPT 还与其他视觉基础模型（如对象检测器和深度估计器）协作，以增强对当前环境的感知。我们研究添加对象信息以及代理与检测到的对象之间的相对距离的有效性。我们基于 BILP-2 的字幕结果构建了一个基线方法，并由 GPT-3.5 提供支持。如表3所示，通过添加对象信息，SR与基线相比增加了4.86%，因为附加的对象信息强调了场景中的显着对象。此外，我们观察到一个现象，即智能体无法到达目的地，因为他们不知道距离目的地有多近。一旦目标视点出现在视线中，他们往往会立即停下来。因此，通过添加深度信息，智能体可以更好地了解当前位置，并将 SR 进一步提高 0.7%，SPL 提高 1.29。

总结

在这项工作中，我们探索了在具体导航任务中利用LLM的潜力。我们推出了 NavGPT，这是一种专为语言引导导航而设计的自主 LLM 系统，具有处理多模式输入和不受限制的语言引导、参与开放世界环境并维护导航历史的能力。受限于视觉场景的语言描述质量和物体的跟踪能力，NavGPT 在 VLN 上的零样本性能仍然与训练方法不兼容。然而，GPT-4 的推理轨迹阐明了LLM在具体导航规划中的潜在潜力。 LLM 与下游专业模型的交互或用于导航的多模式 LLM 的开发，预示着多功能 VLN 代理的未来。