视觉与语言导航的现状与未来：基础模型时代综述

三谷秋水

于 2025-05-21 00:15:00 发布

阅读量1.7k

点赞数 52

分类专栏：大模型计算机视觉智能体文章标签：计算机视觉语言模型机器人人工智能深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/148062587

版权

大模型同时被 3 个专栏收录

735 篇文章

订阅专栏

智能体

499 篇文章

订阅专栏

计算机视觉

449 篇文章

订阅专栏

24年12月来自密歇根州立、密歇根大学、UNC Chapel Hill 和澳大利亚阿德莱德大学的论文“Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models”。

近年来，视觉与语言导航 (VLN) 备受关注，并涌现出众多方法以推动其发展。基础模型的卓越成就塑造 VLN 研究的挑战和方法。本综述自上而下地回顾具身规划和推理的原则性框架，并重点介绍利用基础模型应对 VLN 挑战的现有方法和未来机遇。我们希望我们的深入讨论能够提供宝贵的资源和见解：一方面，记录基础模型在该领域的进展并探索其机遇和潜在作用；另一方面，为基础模型研究人员梳理 VLN 面临的不同挑战和解决方案。

本次综述的目标有两个：首先，推进该领域的进展，并探索基础模型在该领域的机遇和潜在作用；其次，在一个系统框架内，将视觉语言导航（VLN）中面临的不同挑战和解决方案整理。为了建立这种联系，采用 LAW 框架 (Hu & Shu, 2023)，其中基础模型作为世界模型和智体模型的主干。该框架提供基础模型中推理和规划的总体概况，并与 VLN 的核心挑战密切相关。

具体而言，在每个导航步骤中，AI 智体会感知视觉环境，接收来自人类的语言指令，并根据其对世界和人类的表征进行推理，从而规划行动并高效地完成导航任务。如图所示，世界模型是智体维护的一个抽象概念，用于理解其周围的外部环境以及其行为如何改变世界状态 (Ha & Schmidhuber, 2018; Koh et al., 2021)。该模型是更广泛的智体模型的一部分，该模型还包含一个人类模型，该模型可以解释其人类伙伴的指令，从而告知智体的目标（Andreas，2022；Ma，2023）。

请添加图片描述

下表是对现有 VLN 基准的总结，根据几个关键方面进行分类：导航发生的世界、所涉及的人机交互类型、分配给 VLN 智体的动作空间和任务以及数据集收集方法。

请添加图片描述

如图呈现一个层次化的细粒度分类法，以基于基础模型讨论每个模型面临的挑战、解决方案和未来发展方向。为了组织本次综述，首先简要概述背景和相关研究工作，以及该领域的现有基准。围绕所提出的方法如何应对上述三个关键挑战展开综述：世界模型、人类模型和 VLN 智体）。最后，讨论了当前的挑战和未来的研究机遇，特别是考虑到基础模型的兴起。

请添加图片描述

VLN 任务定义。典型的 VLN 智体会在指定位置接收来自人类指导员的（一系列）语言指令。智体使用以自我为中心的视觉视角在环境中导航。其任务是遵循指令，通过一系列离散视图或低级动作和控制（例如，向前 0.25 米）生成一条轨迹，以到达目的地。如果智体到达目的地指定距离（例如，3 米）以内，则视为成功。此外，智体可以在导航过程中与指导员交换信息，例如请求帮助或进行自由形式的语言交流。此外，人们越来越期望 VLN 智体能够集成其他任务，例如操作（Shridhar，2020）和物体检测（Qi，2020b）以及导航。

基准测试。与 VQA 等其他具有相对固定任务定义和格式的多模态任务不同，VLN 涵盖广泛的基准和任务公式。这些区别为解决更广泛的 VLN 任务带来了独特的挑战，必须清楚地理解这些区别，将其作为开发具有适当基础模型的有效方法的先决条件。如上表所示，现有的 VLN 基准可以根据 LAW 框架中的几个关键方面进行分类：(1) 导航发生的世界，包括领域（室内或室外）和环境的具体情况。(2) 所涉及的人机交互类型，包括交互轮次（单轮或多轮）、沟通格式（自由对话、受限对话或多条指令）和语言粒度（行动导向或目标导向）。 (3) VLN 智体，包括其类型（如家用机器人、自动驾驶汽车或自主飞行器）、动作空间（基于图的、离散的或连续的）以及其他任务（操作和物体检测）。(4) 数据集收集，包括文本收集方法（人工生成或模板化）和路线演示（人工执行或规划器生成）。具有代表性的是，Anderson (2018) 基于 Matterport3D 模拟器 (Chang et al., 2018) 创建了 Room-to-Room (R2R) 数据集，其中智体需要遵循细粒度的导航指令才能到达目标。Room-across-Room (RxR) (Ku et al., 2020) 是一种多语言变体，包括英语、印地语和泰卢固语指令。它提供了更大的样本量，并为虚拟姿势提供了时间对齐的指令，丰富了任务的语言和空间信息。 Matterport3D 允许 VLN 智体在离散环境中运行，并依赖预定义的连接图进行导航，其中智体通过在相邻节点之间进行远程传送在图上移动，称为 VLN-DE。为了使简化的设置更贴近现实，Krantz (2020)；Li (2022c)；Irshad (2021) 提出了连续环境中的 VLN (VLN-CE)，即将离散的 R2R 路径迁移到连续空间 (Savva，2019)。Robo-VLN (Irsha人，2021) 通过引入具有连续动作空间的 VLN，进一步缩小了模拟与现实之间的差距，这些动作空间在机器人环境中更加贴近现实。

世界模型帮助 VLN 智体理解其周围环境，预测其行为将如何改变世界状态，并使其感知和行为与语言指令保持一致。现有关于学习世界模型的研究强调了两个挑战：将当前场景中观察的视觉历史编码为记忆，以及实现对未知环境的泛化。

历史与记忆

与视觉问答 (VQA) (Antol et al., 2015)、视觉蕴涵 (Xie et al., 2019) 等其他视觉语言任务不同，VLN 智体需要将过去动作和观察的历史信息融入当前步骤的输入中来确定动作，而不是在单机制 (Tan et al., 2019; Wang et al., 2019) 或辅助任务 (Ma et al., 2019; Zhu et al., 2020)，以改进编码历史与指令之间的一致性。

历史编码。目前已提出了不同的技术来使用基础模型对导航历史进行编码。多模态 Transformer 建立在编码指令和导航历史之上，用于决策制定，通常由基于领域内指令轨迹数据预训练的模型初始化，例如 Prevalent (Hao et al., 2020)。一些方法将导航历史编码为循环更新的状态 token。Hong et al. (2021) 建议使用上一步的单个 [CLS] token 来编码历史信息，而 Lin et al. (2022a) 引入了一个可变长度记忆框架，将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。尽管这些方法有效，但它们受限于需要逐步更新 token，因此难以有效地检索导航轨迹中任意步骤的历史编码，这可能会阻碍预训练的可扩展性。

另一项工作直接使用多模态 Transformer 将导航历史编码为序列。其中，Pashevich et al. (2022a) 提出了一种可变长度记忆框架，该框架将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。尽管这些方法有效，但它们受限于需要逐步更新 token，因此难以有效地检索导航轨迹中任意步骤的历史编码，这可能会阻碍预训练的可扩展性。另一项工作直接使用多模态 Transformer 将导航历史编码为序列。其中，Pashevich et al. (2022a) 提出了一种可变长度记忆框架，将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。 (2021) 对轨迹中每一步的单视图图像进行编码。Chen (2021b) 进一步提出一个全景编码器，用于对每个时间步的全景视觉观测进行编码，然后由一个历史编码器对所有过去的观测进行编码。这种分层设计分别处理全景视图中的空间关系和导航历史中跨全景图的时间动态。此外，该方法消除了历史编码对循环更新状态标记的依赖，从而促进了对指令路径对的高效和大规模预训练。后续研究用图像均值池化 (Kamath，2023) 或前视图图像编码 (Qiao，2022) 取代全景编码器，两者都保持了有效的导航性能。随着基于 LLM 导航智体的出现，一些工作 (Zhou，2024b) 专注于将视觉环境转换为文本描述，用文本解释世界成为趋势。然后将导航历史记录编码为这些图像描述的序列，以及航向、海拔和距离等相对空间信息。HELPER（Sarch，2023）设计了一个语言-程序对的外部存储器，通过检索增强的 LLM 提示，将自由形式的人机对话解析为动作程序。

基于图的历史记录。另一项研究利用图信息增强了导航历史记录建模。例如，其中一些技术利用结构化 Transformer 编码器来捕获环境中的几何线索 (Chen et al., 2022c; Deng et al., 2020; Wang et al., 2023b; Zhou & Mu, 2023; Su et al., 2023; Zheng et al., 2024b; Wang et al., 2021; Chen et al., 2021a; Zhu et al., 2021a)。除了编码中使用的拓扑图之外，许多方法还建议将自上而下的视图信息（例如，网格图（Wang et al., 2023g；Liu et al., 2023a）、语义图（Hong et al., 2023a；Huang et al., 2023a；Georgakis et al., 2022；Anderson et al., 2019；Chen et al., 2022a；Irshad et al., 2022）、局部度量图（An et al., 2023））和局部邻域图（Gopinathan et al., 2023））纳入导航过程中的观察历史建模中。基于 LLM 导航智体的最新进展引入了使用地图构建记忆的创新方法。例如，Chen et al. （2024a）提出了一种基于地图引导的新型GPT智体，该智体利用语言形成的地图来存储和管理拓扑图信息。MC-GPT（Zhan，2024b）引入拓扑地图作为记忆结构，用于记录视点、物体及其空间关系的信息。

跨环境泛化

VLN 的一个主要挑战是如何从有限的可用环境中学习，并将其泛化到新的、未见过的环境。许多工作表明，从语义分割特征 (Zhang et al., 2021a)、训练期间在环境中使用 dropout 信息 (Tan et al., 2019) 以及最大化来自不同环境的语义对齐图像对之间的相似性 (Li et al., 2022a) 中学习，可以提高智体在未见过环境中的泛化性能。这些观察结果表明，需要从大规模环境数据中学习，以避免在训练环境中过拟合。
预训练视觉表征。大多数工作从在 ImageNet 上预训练的 ResNet 获取视觉表征 (Anderson et al., 2018; Tan et al., 2019)。Shen et al. (2022) 用 CLIP 视觉编码器 (Radford，2021) 替换了 ResNet，该编码器使用图像-文本对之间的对比损失进行预训练，可以自然地更好地将图像与指令对齐，从而提升 VLN 的性能。Wang (2022b) 进一步探索了将从视频数据中学习到的视觉表征迁移到 VLN 任务，表明从视频中学习的时间信息对于导航至关重要。

环境增强。一项主要研究方向是使用自动生成的合成数据来增强导航环境。EnvEdit (Li，2022b)、EnvMix (Liu ，2021)、KED (Zhu 等人，2023) 和 FDA (He 等人，2024a) 通过更改 Matterport3D 中的现有环境来生成合成数据。具体来说，他们将不同环境中的房间混合在一起，改变环境的外观和风格，并在环境中插入高频特征。Pathdreamer（Koh 等人，2021）和 SE3DS（Koh 等人，2023）在未来的步骤中根据当前观察进一步合成环境，并探索利用合成视图作为 VLN 训练的增强数据。

随着基础模型的进步，从收集到的环境中进行学习的范式也发生了变化。在基础模型中预训练流行之前，大多数工作直接使用自动收集的新环境来增强训练环境，并对基于 LSTM 的 VLN 智体进行微调（Li，2022b；Liu，2021；Koh，2021；2023；Zhu，2023）。预训练已被证明对基础模型至关重要，因此在预训练阶段从收集到的环境中学习也已成为 VLN 的标准做法 (Li & Bansal, 2024; Kamath et al., 2023; Chen et al., 2022b; Wang et al., 2023h; Lin et al., 2023b; Guhur et al., 2021a; He et al., 2024a)。使用增强领域内数据进行大规模预训练，对于缩小智能体与人类之间的性能差距至关重要。领域内预训练的多模态 Transformer 已被证明比基于 VLM 初始化的多模态 Transformer（例如 Oscar (Li et al., 2020) 和 LXMERT）更有效。

人类模型：解释并与人类沟通

除了学习和建模世界之外，视觉语言导航 (VLN) 智体还需要一个能够理解人类根据具体情况提供的自然语言指令的人类模型，以完成导航任务。主要面临两大挑战：解决歧义问题以及在不同视觉环境中泛化基础指令。

歧义指令

歧义指令主要出现在单转弯导航场景中，在这种情况下，智体会遵循初始指令，而无需进一步与人类交互进行澄清。这些指令缺乏灵活性，无法训练智体使其语言理解和视觉感知适应动态环境。例如，指令可能包含在当前视图中不可见的地标，或从多个视图中可见但难以区分的地标 (Zhang & Kordjamshidi, 2023)。在基础模型应用于 VLN 之前，歧义指令问题几乎没有得到解决。尽管 LEO（Xia et al., 2020）尝试聚合多条指令，从不同视角描述同一轨迹，但它仍然依赖于人工标注的指令。然而，来自基础模型的全面感知语境和常识性知识，使智体能够利用外部知识解读模糊指令，并寻求其他人类模型的帮助。

感知语境与常识性知识。像 CLIP 这样的大规模跨模态预训练模型能够将视觉语义与文本匹配。这使得 VLN 智体能够利用来自视觉对象及其当前感知状态的信息来解决模糊性问题，尤其是在单转弯导航场景中。例如，VLN-Trans（Zhang & Kordjamshidi, 2023）利用从 CLIP 获得的可见且独特的对象构建易于理解的子指令，从而预训练一个翻译器，将原始模糊指令转换为易于理解的子指令表示。 LANA+ (Wang et al., 2023f) 利用 CLIP 查询包含全景视觉观测数据的地标语义标签文本列表，并选择排名靠前的检索文本线索作为要跟踪的显著地标的表示。KERM (Li et al., 2023a) 提出了一种知识增强推理模型来检索事实，其中知识通过导航视图的语言描述来描述。NavHint (Zhang et al., 2024b) 构建了一个提示数据集，提供详细的视觉描述，帮助 VLN 智体全面理解视觉环境，而不是仅仅关注指令中提到的对象。另一方面，LLM 的常识推理能力可用于澄清或纠正指令中模棱两可的地标，并将指令分解为可操作的项目。例如，Lin et al. (2024b) 使用 LLM 提供有关开放世界地标共现的常识，并据此进行 CLIP 驱动的地标发现。SayCan (Ahn et al., 2022) 将指令分解为预定义可接受动作的排序列表，并将它们与可供性函数相结合，该函数为当前场景中出现的对象分配更高的权重。

信息搜寻。虽然模糊指令可以根据视觉感知和情境背景来解决，但另一种更直接的方法是向沟通伙伴（即生成指令的人类说话者）寻求帮助 (Nguyen & Daumé III, 2019; Paul et al., 2022)。这项工作面临三个关键挑战：(1) 决定何时寻求帮助 (Chi et al., 2020)； (2) 生成信息搜索问题，例，2022 年)；(3) 开发一个提供查询信息的预言机，该预言机可以是真人 (Singh，2022 年)、规则和模板 (Gao，2022 年)，也可以是神经模型 (Nguyen & Daumé III，2019 年)。LLM 和 VLM 可能适合该框架中的两种角色：要么作为信息搜索模型，要么作为人类助手或信息提供模型的智体。初步研究探索了使用 LLM 作为信息搜索模型，以确定何时询问以及询问什么。这是借助包括共形预测 (CP)（Ren，2023）或上下文学习 (ICL)（Chen 等2023c）在内的技术实现的。对于后者，基础模型扮演着助手的角色，能够获取任务执行者无法获取的预言机信息，例如目的地位置和环境地图。最近，VLN-Copilot（Qiao，2024）使智体能够在遇到困惑时主动寻求帮助，其中 LLM 充当副驾驶，辅助导航。

已落地指令的泛化

导航数据的规模和多样性有限是影响 VLN智体理解各种语言表达并有效遵循指令能力的另一个重要问题，尤其是在未见过的导航环境中。尽管语言风格本身在已见过和未见过的环境中都具有良好的泛化能力 (Zhang et al., 2021a)，但鉴于训练指令的规模有限，如何将指令与未见过的环境进行扎根可能是一项艰巨的任务。基础模型通过预训练表示和指令生成来增强数据，有助于解决这些问题。

预训练文本表示。在基础模型出现之前，许多研究依赖于文本编码器（例如 LSTM）来表示文本指令 (Anderson et al., 2018; Tan et al., 2019)。基础模型通过预训练表示显著增强了 VLN 智体的语言泛化能力。例如，PRESS (Li et al., 2019b) 对预训练语言模型 BERT (Kenton & Toutanova, 2019) 进行微调，以获得能够更好地泛化至先前未见过的指令的文本表示。多模态 Transformer (Tan & Bansal, 2019; Lu et al., 2019) 增强了 VLN-BERT (Majumdar et al., 2020) 和 PREVALENT (Hao et al., 2020) 等方法，通过在从网络收集的大规模文本-图像对上进行预训练，获得更通用的视觉-语言表示。Airbert (Guhur et al., 2021b) 训练类似 ViLBERT 的架构，从从互联网收集的图像-字幕对中学习文本表示。 CLEAR（Li et al., 2022a）学习跨语言的语言表征，以捕捉指令背后的视觉概念。ProbES（Liang et al., 2022）通过采样轨迹自我探索环境，并通过将CLIP检测到的动作和对象短语填充到指令模板中，自动构建相应的指令。此外，它利用基于提示的学习来促进语言嵌入的快速自适应。NavGPT-2（Zhou et al., 2025）探索利用预训练的VLM（InstructBLIP（Dai et al., 2024）与Flan-T5（Chung et al., 2024）或Vicuna（Zheng et al., 2023））的视觉和语言表征来增强导航和导航推理的策略学习。

指令合成。另一种提升智体泛化能力的方法是合成更多指令。早期研究采用说话人-跟随者框架 (Fried，2018；Tan，2019；Kurita & Cho，2020；Guhur 等人，2021a)，使用人工标注的指令-轨迹对来训练离线说话人（指令生成器）。然后，它会根据沿给定轨迹的全景图序列生成新的指令。然而，Zhao 等人 (2021) 观察到这些生成的指令质量较低，在人工寻路评估中表现不佳。Marky (Wang 等人，2022a；Kamath 等人，2023) 解决了这一限制，使用多语言 T5 模型 (Xue 等人，2020) 的多模态扩展，该模型具有文本对齐的视觉地标对应关系，在未见过的环境中，在 R2R 风格的路径上实现了接近人类的质量。 PASTS (Wang et al., 2023c) 引入了一种具有进度感知的时空 Transformer 扬声器，以更好地利用序列化的多视觉和动作特征。SAS (Gopinathan et al., 2024) 利用来自环境的语义和结构线索生成具有丰富空间信息的指令。SRDF (Wang et al., 2024c) 构建了一个具有迭代自训练能力的强大指令生成器。此外，一些近期研究（Liang et al., 2022; Lin et al., 2023b; Zhang & Kordjamshidi, 2023; Wang et al., 2023e; Magassouba et al., 2021）并未训练离智体，它不仅可以执行导航指令，还可以提供路线描述。

视觉语言导航 (VLN) 智体：学习具身智体进行推理和规划

虽然世界模型和人类模型增强了视觉和语言理解能力，但视觉语言导航 (VLN) 智体需要发展具身推理和规划能力来支持其决策。

落地与推理

与其他视觉语言任务（例如视觉问答 (VQA) 和图像字幕）不同，主要关注图像与相应文本描述之间的静态对齐，而 VLN 智体需要根据其操作推理指令和环境中的空间和时间动态。具体而言，智体应该考虑先前的操作，识别要执行的子指令部分，并将文本与视觉环境进行基础关联，以相应地执行操作。先前的方法主要依赖于显式语义建模或辅助任务设计来获得此类能力。然而，随着基础模型的出现，使用专门设计的任务进行预训练已成为主流方法。

显式语义落地。先前的研究通过在视觉和语言模态中进行显式语义建模来增强智体的落地能力，包括对运动和地标进行建模 (Hong et al., 2020b; He et al., 2021; Hong et al., 2020a; Zhang et al., 2021b; Qi et al., 2020a)，利用指令中的句法信息 (Li et al., 2021)，以及空间关系 (Zhang & Kordjamshidi, 2022b; An et al., 2021)。很少有研究（Lin ，2023a；Zhan ，2024a；Wang ，202，2021；Zhu，2020；Raychaudhuri，2021；Dou & Peng，2022；Kim，2021）。此类方法在具有基础模型的 VLN 智体中探索较少，因为它们的预训练已经在导航之前提供了对空间和时间语义的一般理解。已经提出了各种具有专门设计任务的预训练方法来提高智体的接地能力。Lin (2021) 介绍专门为场景和目标接地而设计的预训练任务。LOViS (Zhang & Kordjamshidi, 2022a) 制定了两个专门的预训练任务，分别用于增强方向和视觉信息。HOP (Qiao et al., 2022; 2023a) 引入了一种历史和顺序感知的预训练范式，强调历史信息和轨迹顺序。Li & Bansal (2023) 建议增强智体预测未来视图语义的能力，有助于智体提高更长路径导航性能。Dou (2021) 提出了一种具有历史和顺序感知能力的预训练范式，强调历史信息和轨迹顺序。 (2023) 设计了一个掩码路径建模目标，用于在给定随机掩码子路径的情况下重建原始路径。Cui (2023) 提出了实体-觉察预训练方法，通过预测基础实体并将其与文本对齐。

规划

动态规划使 VLN 智体能够适应环境变化并动态改进导航策略。除了利用全局图信息增强局部动作空间的基于图的规划器之外，基础模型（尤其是 LLM）的兴起将基于 LLM 的规划器带入了 VLN 领域。这些规划器利用 LLM 丰富的常识知识和高级推理能力来创建动态规划，从而改进决策。

基于图的规划器。VLN 的最新进展强调通过全局图信息增强导航智体的规划能力。其中，Wang (2021)；Chen (2022c)；Deng (2020)；Zheng (2024b) 利用来自所访问节点图边界的全局动作步骤增强局部导航动作空间，以实现更好的全局规划。Gao (2023) 通过区域选择的高级规划和节点选择的低级规划进一步增强导航决策。此外，Liu (2023a) 通过网格级动作丰富了基于图边界的全局和局部动作空间，以实现更准确的动作预测。在连续环境中，Krantz (2021)；Hong (2022)；Anderson (2021) 采用分层规划方法，通过从预测的局部可导航性图中选择局部航点，利用高级动作空间而不是低级动作空间。CM2 (Georgakis et al., 2022) 通过将指令置于局部地图中来促进轨迹规划。扩展此策略，An (2024; 2023); Wang (2023g); Chang (2024); Wang (2022c) 构建了全局拓扑图或网格地图，以促进基于地图的全局规划。此外，Wang (2023a; 2024a) 使用视频预测模型或神经辐射表征模型预测多个未来航点，并根据预测候选航点的长期影响规划最佳行动。
基于 LLM 的规划器。与此同时，一些研究利用 LLM 中的常识性知识生成基于文本的规划 (Huang，2022; 2023b)。LLM-Planner (Song，2023) 创建由子目标组成的详细规划，并通过根据预定义的程序模式集成检测目标来实时动态调整这些规划。类似地，Mic（Qiao et al., 2023b）和 A2Nav（Chen et al., 2023b）擅长将导航任务分解为详细的文本指令，其中 Mic 从静态和动态角度生成分步规划，而 A2Nav 使用 GPT-3 将指令解析为可操作的子任务。ThinkBot（Lu et al., 2023）采用思维链推理，利用交互对象生成缺失的动作。VL-Map（Huang et al., 2023a）使用代码编写的 LLM（遵循 Code-as-Policy（Liang et al., 2023）框架）将导航指令分解为代码格式的顺序目标相关函数，并利用动态构建的可查询映射来指导这些目标的执行。此外，SayNav（Rajvanshi，2024）构建探索环境的 3D 场景图，作为 LLM 的输入，从而为导航员生成可行且符合情境的高级规划。

基础模型作为 VLN 智体

随着基础模型的出现，VLN 着他的架构发生了重大转变。VLN 着他最初由 Anderson（2018）概念化，是在 Seq2Seq 框架内构建的，采用 LSTM 和注意机制来模拟视觉和语言模态之间的交互。随着基础模型的出现，智体后端已从 LSTM 过渡到 Transformer，最近又过渡到这些大规模预训练系统。

VLM 作为智体。主流方法利用单流 VLM 作为 VLN 智体的核心结构 (Hong，2021；Qi，2021；Moudgil，2021；Zhao，2022)。这些模型在每个时间步同时处理来自语言、视觉和历史 token 的输入。它对这些跨模态 token 执行自注意力机制，以捕捉文本-视觉对应关系，然后用于推断动作概率。在零样本 VLN 中，CLIP-NAV (Dorbala，2022) 利用 CLIP 获取描述目标对象的自然语言指涉表达式，并做出顺序导航决策。 VLN-CE 智体 (Krantz，2020) 与 VLN-DE (Anderson，2018) 智体的区别在于其动作空间，它们在连续环境中执行低级控制，而不是基于图的视图选择等高级动作。尽管早期研究 (Krantz，2020；Raychaudhuri，2021) 使用 LSTM 来推断低级动作，但航点预测器的引入使得方法从 DE 迁移到 CE 成为可能 (Krantz，2021；Krantz & Lee，2022；Hong，2022；Anderson，2021；An，2022；Zhang & Kordjamshidi，2024)。所有这些方法都使用航点预测器来获取局部可导航性图，从而使 DE 中的基础模型能够适应连续环境。具体来说，航点检测过程主要涉及使用视觉观测（例如，全景 RGBD 图像）从智体当前位置预测可导航的候选相邻航点作为可能的目标。根据预测的航点，智体选择一个作为当前目的地。

LLM 作为智体。由于 LLM 具有强大的推理能力和对世界的语义抽象，并且在未知的大规模环境中也表现出强大的泛化能力，因此 VLN 领域的最新研究已开始直接使用 LLM 作为智体来完成导航。通常，视觉观测会被转换为文本描述，并与指令一起输入 LLM，然后 LLM 执行动作预测。NavGPT（Zhou et al., 2024a）和 MapGPT（Chen et al., 2024a）等创新证明了零样本导航的可行性，其中 NavGPT 使用 GPT-4 自主生成动作，而 MapGPT 则将拓扑地图转换为全局探索提示。 DiscussNav（Long，2024b）扩展了这种方法，通过部署多个特定领域的 VLN 专家来自动化导航任务并减少人工干预。它包括指令分析专家、视觉感知专家、完成评估专家和决策测试专家。使用多个领域特定的 VLN 专家将任务分配给专门的智体，从而减轻单个模型的负担，并实现针对特定任务的优化处理。这种多专家方法通过利用多个大型模型的集体优势，增强了鲁棒性、透明度和整体性能。MC-GPT（Zhan ，2024b）使用记忆拓扑图和人类导航示例来多样化策略，而 InstructNav（Long，2024a）使用多源值图将导航分解为子任务，以实现有效执行。与零样本使用方法相比，一些研究（Zheng，2024a；Zhang，2024a；Pan，2024）对 LLM 进行了微调，以有效地解决具身导航任务。一些研究已引入思维链 (CoT) (Wei，2022) 推理机制来改进推理过程。Nav-CoT (Lin，2024a) 将 LLM 转化为世界模型和导航推理智体，通过模拟未来环境来简化决策。这证明了微调语言模型在模拟和现实世界场景中的灵活性和实用潜力，标志着其相对于传统应用的显著进步。