在机器人学的基础模型：应用、挑战和未来_foundation models in robotics pplication challenge-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/138857426

23年12月来自斯坦福大学、普林斯顿大学、德州奥斯丁分校、NV、Scaled Foundation、谷歌、柏林工大和上海交大的综述论文“Foundation Models in Robotics: Applications, Challenges, and the Future“。

添加图片注释，不超过 140 字（可选）

本文调查预训练基础模型在机器人学领域的应用。机器人领域的传统深度学习模型是在针对特定任务定制的小型数据集上进行训练的，这限制了它们在不同应用程序中的适应性。相比之下，在互联网规模数据上预训练的基础模型似乎具有卓越的泛化能力，并且在某些情况下为训练数据中不存在的问题找到零样本解决方案。基础模型可能具有增强机器人自主平台从感知到决策和控制各个组件的潜力。例如，大语言模型可以生成代码或提供常识推理，而视觉语言模型可以实现开放词汇视觉识别。然而，重大的开放研究挑战仍然存在，特别是在机器人相关训练数据、安全保证和不确定性量化以及实时执行方面的缺乏。该综述研究了最近已经使用或者构建基础模型来解决机器人问题的论文，探索基础模型如何有助于提高机器人在感知、决策和控制领域的能力。另外讨论了阻碍机器人自主平台采用基础模型所面临的挑战，并为未来的进步提供了机会和潜在途径。

预训练的大语言模型 (LLM)、大型视觉语言模型 (VLM)、大型音频语言模型 (ALM) 和大型视觉导航模型 (VNM) 可用于改进机器人设置中的各种任务。

与特定任务模型相比，基础模型的知识迁移可以减少训练时间和计算资源。特别与机器人技术相关的是，多模态基础模型可以将各种传感器多模态异构数据融合并对齐为紧凑同质的表征，面对机器人理解和推理[9]。这些学习的表示有可能用于自主平台的任何部分，包括感知、决策和控制。此外，基础模型提供零样本能力，这是指人工智能系统在没有先前示例或特定任务的专用训练数据的情况下，其执行任务的能力。这将使机器人能够将其学到的知识推广到新的案例中，从而增强机器人在非结构化环境中的适应性和灵活性。

将基础模型集成到机器人系统中可以增强机器人感知环境并与环境交互的能力来实现上下文感知机器人系统。例如，在感知领域，大型视觉语言模型（VLM）被发现可以学习视觉和文本数据之间的关联来提供跨模态理解，从而帮助完成零样本图像分类、零样本目标检测[10]和3D分类[11]。另一个例子，3D 世界中的语言落地 [12]（将 VLM 的上下文理解与 3 维（3D）现实世界保持一致）可以将单词与3D 环境中特定目标、位置或动作相关联，增强机器人的空间意识。

在决策或规划领域，LLM 和 VLM 可以协助机器人进行高层规划的任务规范 [13]。机器人可以利用操作、导航和交互中的语言线索来执行更复杂的任务。例如，对于模仿学习[14]和强化学习[15]等机器人策略学习技术，基础模型似乎提供了提高数据效率和增强上下文理解的可能性。特别是，语言驱动的奖励可以通过提供塑造的奖励来指导 RL 智体 [16]。此外，研究人员还利用语言模型为策略学习技术提供反馈[17]。一些研究表明，VLM 模型的视觉问答 (VQA) 功能可以在机器人用例中利用。例如，研究人员用 VLM 来回答与视觉内容相关的问题，帮助机器人完成任务 [18]。此外，研究人员表示利用 VLM 为视觉内容生成描述性标签来帮助数据标注 [19]。

尽管基础模型在视觉和语言处理方面具有变革能力，但针对现实世界机器人任务的基础模型泛化和微调仍然具有挑战性。这些挑战包括：
1）数据稀缺：如何获取用于机器人操纵、运动、导航和其他机器人任务的互联网规模数据，以及如何利用这些数据进行自监督训练，
2）高变化：如何处理物理环境、物理机器人平台和潜在机器人任务的巨大多样性，同时仍然保持基础模型所需的通用性，
3）不确定性量化：如何处理（i）实例级不确定性，例如语言歧义或 LLM 幻觉； (ii) 分布水平的不确定性； (iii) 分布漂移，特别是由闭环机器人部署引起的，
4) 安全评估：如何严格测试基于基础模型的机器人系统， (i) 在部署之前，(ii) 在其整个生命周期中更新， (iii) 当机器人在其目标环境中运行时，该基础模型的安全性。
5）实时性能：如何处理某些基础模型推理时间过长的问题，这可能会阻碍其在机器人上的部署，以及如何将基础模型的推理速度加快在线决策的速度。

如图所示，该综述把以往工作分成以下三类：
1）背景论文：没有明确与机器人技术相关的论文，但仍然是理解基础模型所必需的。
2）机器人论文：以即插即用的方式将基础模型集成到机器人系统中的论文，为机器人系统适应或微调基础模型的论文，或构建新的机器人特定基础模型的论文。
3）机器人相关论文：提出应用于机器人相关领域（例如计算机视觉、嵌入式人工智能）的方法或技术论文，并为机器人技术的未来应用提供清晰的路径。

添加图片注释，不超过 140 字（可选）

基础模型拥有数十亿个参数，并在大规模互联网规模数据集上进行预训练。如此规模和复杂性的训练模型需要大量成本。获取、处理和管理数据的成本可能很高。训练过程需要大量的计算资源，需要 GPU 或 TPU 等专用硬件，以及用于模型训练的软件和基础设施。此外，训练基础模型非常耗时，这可能会导致更高的成本。因此，这些模型通常用作即插即用模块（指将基础模型集成到各种应用程序中，而不需要进行大量定制）。下表提供了有关常用基础模型的详细信息。

添加图片注释，不超过 140 字（可选）

基础模型的背景知识

Transformer架构。模型的大小通常通过（i）上下文窗的大小，（ii）每层注意头的数量，（iii）每个头中注意向量的大小以及（iii）堆叠的注意层数等进行量化。例如，GPT-3的上下文窗有2048个token（相当于大约1500个文本单词），每个注意层有96个头，每个头有128维的注意向量，模型中有96个堆叠的注意层。基本的多头注意机制不会在数据中强加任何固有的序列感或方向性。然而，Transformer（尤其是在自然语言应用中）通常对输入token序列施加位置编码用作序列预测器。然后，以自回归方式应用于token序列，这意味着可以预测序列中的下一个token，将其添加到上下文窗中，然后重复下去。

自回归模型。自回归的概念已应用于许多领域，作为随机过程的表示，其输出因果关系取决于先前的输出。自回归模型用过去数据窗来预测序列中的下一个数据点。然后该窗向前滑动一个位置，递归地将预测的数据点引入窗并从窗中排挤出最旧的数据点。该模型再次预测序列中的下一个数据点，无限重复此过程。经典线性自回归模型，例如自回归移动平均 (ARMA) 和有外源输入的自回归移动平均 (ARMAX) 模型，是标准统计工具 [80]。这些建模概念首先适用于 RNN 的深度学习模型，后来适用于 LSTM，这两种模型都是可学习的非线性自回归模型。 Transformer 模型虽然本质上不是自回归的，但通常适用于文本预测任务的自回归框架。

掩码自动编码（Masked Autoencoder）。为了解决 GPT 系列的单向限制并允许模型进行双向预测，BERT [1] 等使用掩码自动编码。这是通过架构更改（即添加双向编码器）以及称为掩码语言建模 (MLM) 的预训练目标来实现的。 MLM 任务只是掩码语料库中一定比例的tokens，并要求模型预测这些tokens。通过此过程，鼓励模型学习单词周围的上下文，而不仅仅是序列中下一个可能的单词。

对比学习。诸如 CLIP [4] 之类的视觉语言基础模型通常依赖于与大语言模型所用的不同训练方法，后者鼓励明确的预测行为。视觉语言模型用对比表征学习，其目标是学习输入模态之间的联合嵌入空间，其中相似的样本对，比不相似的样本对更接近。在 CLIP [4] 中，采用对称交叉熵损失，这意味着最终损失是两个损失分量的平均值，其中每个损失分量的权重相等。

视觉Transformer（ViT）。ViT[98]-[100]是一种用于计算机视觉任务包括图像分类分割和目标检测的Transformer架构。 ViT 将图像视为一系列图像块（称为token）。在图像token化过程中，图像被划分为固定大小的块。然后将补丁展平为一维向量，这称为线性嵌入。为了捕获图像块之间的空间关系，将位置信息添加到每个token中。这个过程称为位置嵌入。与位置编码相结合的图像tokens被馈送到Transformer编码器中，自注意机制使模型能够捕获输入数据中的长期依赖性和全局模式。ViT-G [101]放大了ViT模型并具有2B参数。此外，ViT-e [102] 有 4B 参数。 ViT-22B [103] 是具有 220 亿个参数的视觉Transformer模型，用于 PaLM-E 和 PaLI-X [104]，有助于完成机器人任务。

DINO[105]是一种自监督学习方法，用于训练ViT。 DINO 是一种没有标签的知识蒸馏形式。知识蒸馏是一种学习框架，其中较小的模型（学生网络）经过训练以模仿较大且更复杂的模型（教师网络）行为。两个网络共享相同的架构，但具有不同的参数集。给定固定的教师网络，学生网络通过最小化其相对学生网络参数的交叉熵损失来学习。神经网络架构由 ViT 或 ResNet主干和包含多层感知（MLP）层的投影头组成。用 DINO 学习的自监督 ViT 特征包含有关图像语义分割的明确信息，包括场景布局和目标边界，其清晰度是用监督 ViT 或convnets无法实现的。

DINOv2 [107] 提供了各种预训练的视觉模型，这些模型在 [107] LVD-142M 数据集上用不同的视觉Transformer（ViT）进行训练。在配备 8 个 V100-32GB GPU 的 20 个节点计算集群上使用判别性自监督方法进行训练。 DINOv2 在图像（例如检测）或像素级别（例如分割）提供各种视觉特征。 SAM [59]提供零样本可提示图像分割。

多模态视觉-语言模型。多模态是指模型接受不同“模态”输入的能力，例如图像、文本或音频信号。视觉语言模型 (VLM) 是一种同时接收图像和文本的多模态模型。机器人应用中常用的 VLM 是对比语言图像预训练 (CLIP) [4]。 CLIP 提供了一种比较文本描述和图像之间相似性的方法。 CLIP 用互联网规模的图像文本对数据来捕获图像和文本之间的语义信息。 CLIP模型架构包含一个文本编码器[92]和一个图像编码器（视觉Transformer的修改版），它们经过联合训练最大化图像和文本嵌入的余弦相似度。 CLIP 将对比学习与语言模型和视觉特征编码器结合使用，包括零样本图像分类模型。

BLIP [108]在预训练期间联合优化三个目标来关注多模态学习。这些目标包括图像-文本对比损失、图像-文本匹配损失和语言建模损失。该方法引导字幕利用含噪的网络数据，从而增强训练过程。 CLIP2 [109] 旨在构建良好对齐且基于实例的文本-图像点代理（proxy）。它用跨模态对比目标来学习语义和实例级对齐的点云表示。 FILIP [110] 专注于在多模态学习中实现更精细的对齐。它采用了跨模态晚交互机制，利用视觉和文本token之间的 token最大相似性。这种机制指导对比目标并改善视觉和文本信息之间的一致性。 FLIP [111]提出一种简单且更有效的 CLIP 训练方法。 FLIP 在训练过程中随机掩码并删除图像补丁的大部分。这种方法旨在提高 CLIP 的训练效率，同时保持其性能。

具身多模态模型。一个具身智体是一种与虚拟或物理世界交互的人工智能系统。示例包括虚拟协助或机器人。具身语言模型是将现实世界的传感器和驱动模态纳入预训练大语言模型的基础模型。典型的视觉语言模型是针对一般视觉语言任务（例如图像字幕或视觉问答）进行训练的。 PaLM-E [6] 是一种多模态语言模型，不仅在互联网规模的通用视觉语言数据上进行了训练，而且还同时在具身机器人数据上进行了训练。为了将模型连接到现实世界的传感器模态，PaLM-E 架构将图像、低级状态或 3D 神经场景表示等（连续）输入注入到纯解码器语言模型的语言嵌入空间中，实现联合推理文本和其他模态的模型。主要的 PaLM-E 版本是由 PaLM LLM [96] 和 ViT [103] 构建的。 ViT 将图像转换为一系列嵌入向量，这些向量通过仿射变换投影到语言嵌入空间中。整个模型从预训练的 LLM 和 ViT 模型开始进行端到端训练。 PaLM-E 还探索了不同的策略，例如冻结 LLM 并仅训练 ViT，导致表现更差。给定多模态输入，PaLM-E 的输出是自回归文本解码。为了将此输出连接到机器人进行控制，可以使用语言为条件的短距策略。在这种情况下，PaLM-E 充当高级控制策略。实验表明，单个 PaLM-E 除了成为视觉语言通才以外，还能够在多个机器人具身中执行许多不同的机器人任务。该模型表现出正向迁移，即与在单一任务上训练模型相比，同时对互联网规模语言、通用视觉语言和具身域进行训练，会带来更高的性能。

视觉生成模型。OpenAI 的 DALL-E [112] 和 DALL-E2 [88] 中网络规模扩散模型提供了零样本文本-到-图像的生成。其接受来自互联网的数亿个图像-字幕对的训练。这些模型学习图像上的语言条件分布，可以用给定的提示生成图像。 DALL-E2 架构包括从文本字幕生成 CLIP 图像嵌入的先验器，以及生成以图像嵌入为条件的图像解码器。

机器人学

主要是机器人的决策、规划和控制。在这个领域中，大语言模型（LLM）和视觉语言模型（VLM）可能有潜力成为增强机器人能力的有价值工具。例如，LLMs可以促进任务规范的过程，允许机器人接收和解释来自人类的高级指令。 VLM 专注于视觉数据分析。这种视觉理解是机器人做出明智决策和执行复杂任务的关键组成部分。机器人现在可以利用自然语言提示来提高其在涉及操作、导航和交互的任务中的表现。视觉-语言目标为条件的策略学习，无论是通过模仿学习还是强化学习，都有望利用基础模型进行改进。语言模型在为策略学习技术提供反馈方面也发挥着作用。这种反馈循环促进了机器人决策的持续改进，因为机器人可以根据LLMs收到的反馈来完善其行为。

与感知部分（IV）或具身人工智能部分（V）等其他部分相比，这部分工作要么依赖于硬件实验，在低级控制和规划栈中使用不易转移到其他硬件或其他实验设置的自定义元素，要么利用基于非物理学的模拟器，允许忽略自主平台的这些低层操作部分，但留下了不同硬件实现之间的不可迁移性问题。还有需要解决的，是缺乏基准测试和可重复性。

机器人的决策和控制

模仿学习的挑战是：（i）获得足够数量的演示和条件标签来训练策略，（ii）闭环策略下的分布迁移——策略的反馈可以引导机器人进入状态空间的区域。其在训练数据中未充分被覆盖，会对性能产生负面影响。

强化学习（RL）是一系列方法，使机器人能够通过优化奖励函数与环境交互来优化策略。这些交互通常在模拟环境中进行，有时会用来自物理机器人硬件的数据进行增强，实现模拟到真实的迁移。强化学习与最优控制有着密切的联系。

与模仿学习不同，强化学习不需要人类演示，并且（理论上）有潜力获得超人的表现。在强化学习问题中，使用从环境交互中收集的展开数据最大化策略的预期回报。从环境中以奖励信号的形式收到反馈，引导机器人了解哪些行为会带来有利的结果，哪些行为不会。

语言-图像目标为条件的价值学习

在价值学习中，目标是构建一个价值函数，该函数能够以不同的方式调整目标，并由于价值函数的递归性质而保持时间连贯性。

采用大语言模型的机器人任务规划

语言指令做任务说明，采用语言模型的代码生成做任务规划。

代码即策略（Code-as-Policy） [42] 使用代码编写的LLM，探索基于自然语言命令生成机器人策略代码。这项工作考虑现实世界移动机械手机器人来执行机器人操纵和导航任务。该研究表明，LLMs可以表达能处理感知输出和调用控制原语 API 的函数或反馈循环，重新编写策略代码。为了实现这一目标，作者利用了少样本提示，其中提供了注释格式的示例语言命令以及相应的策略代码。无需对这些数据进行任何额外的训练，它们就可以使模型自主地编写 API 调用，并在给出新命令时生成新策略代码。该方法利用经典的逻辑结构并引用 NumPy 和 Shapely 等第三方库来执行算术运算。通过链接这些结构并使用上下文信息（行为常识），LLMs可以生成展示空间几何推理的机器人策略，推广到新指令，并为诸如“更快”之类的模糊描述提供精确值（例如速度）。 “代码即策略”的概念使用语言模型生成程序（LMP）形式化地生成机器人策略。这些策略可以表示阻抗（impedance）控制器等反应性策略，以及基于路径点的策略，例如基于视觉的拣取和放置或基于轨迹的控制。这种方法的有效性在多个真实的机器人平台上得到了证明。这种方法的一个关键方面是分层代码生成过程，其中涉及递归地定义函数。这使得LLMs能够生成更复杂的代码结构来满足所需的策略要求。

采用上下文学习做决策

上下文学习（ICL）[130]的运行不需要参数优化，而是依赖于提示中包含的一组示例（提示的概念）。这种学习方法与提示工程密切相关，并在自然语言处理中得到广泛应用。思维链方法[131]是上下文学习中的一项突出技术。它执行一系列中间步骤以获得复杂的多步问题最终解决方案。这项技术允许模型产生与人类认知过程平行的逐步解释。然而，尽管 ICL 具有众多优势，但也面临着某些挑战，包括歧义和解释、特定领域知识、透明度和可解释性相关的问题。上下文学习在广义上对LLMs领域产生了重大影响，许多机器人学都利用它来将LLMs应用到特定领域。

机器人Transformer

基础模型可提供结合感知、决策和动作生成的集成框架来用于机器人的端到端控制，比如RT-1/-2/-X【44-46】。

开发词汇的机器人导航和操作

开放词汇导航解决了在未见过环境中导航的挑战。开放词汇能力意味着机器人具有理解和响应语言提示、指令或语义信息的能力，而不受预定义数据集的限制。一些工作以即插即用的方式采用LLM、VLM 或两者的组合在机器人导航任务中集成。另外一些工作也可以构建专门针对机器人导航任务定制的基础模型。

开放词汇操作是指在以前未见过的环境中操作任何目标的问题。下表报告了一些特定于机器人的基础模型以及有关其大小和架构、预训练任务、推理时间和硬件设置的信息。

添加图片注释，不超过 140 字（可选）

感知

与周围环境交互的机器人以不同的方式接收原始感官信息，例如图像、视频、音频和语言。这种高维数据对于机器人在其环境中理解、推理和交互至关重要。基础模型，包括在视觉和 NLP 领域开发的模型，是将这些高维输入转换为更容易解释和操作的抽象结构化表示的工具。特别是，多模态基础模型使机器人能够将不同的感官输入集成到包含语义、空间、时间和可观性信息的统一表示中。这些多模态模型反映了跨模态交互，通常跨模态对齐元素可以确保连贯性和对应性。例如，文本和图像数据针对图像字幕任务进行对齐。

开放词汇目标检测和3-D分类

比如GLIP【52】、PartSLIP【162】、PointCLIP【54】、ULIP【56-57】。

开放词汇语义分割

语义分割将图像中的每个像素分类为语义类别。这提供了有关图像中目标边界和位置的细粒度信息，并使具身智体能够在更细粒度的级别上理解环境并与环境交互。有几项工作探讨了 CLIP 等基础模型如何增强语义分割任务的通用性和灵活性。

Segment Anything Model (SAM) [59] 引入了一个可提示分割的框架，包括可提示分割的任务定义、一个分割基础模型（SAM）和一个数据引擎。 SAM 采用来自 Masked Auto-Encoder (MAE) [113] 的预训练视觉Transformer作为图像编码器，同时使用来自 CLIP [114] 的文本编码器用于稀疏提示（点、框和文本），并使用单独的密集提示编码器用于掩码。与其他在网络规模数据上以无监督方式训练的基础模型相比，SAM 使用监督学习和数据引擎进行训练，有助于扩展可用注释的数量。除了模型之外，作者还发布了 Segment Anything 10 Billion (SA-1B) 数据集。它由 11M 图像和 1.1B 分割掩码组成。在这项工作中，作者对5个零样本迁移任务进行了实验，包括点有效掩码评估、边缘检测、目标提议、实例分割和文本到掩码等。与专门针对固定任务集训练的系统相比，该系统的可组合设计在提示工程技术的推动下实现了更广泛的应用。然而，这项工作的一个与机器人应用特别相关的限制是 SAM 无法实时运行。

开放词汇3D场景和目标表征

场景表示使机器人能够理解周围的环境，促进空间推理，并提供上下文意识。语言驱动的场景表示将文本描述与视觉场景结合起来，使机器人能够将单词与目标、位置和关系联系起来。

3-D场景语言落地：语言落地是指将环境的几何和语义表示相结合。可以为智体提供强大几何先验的表示类型是隐式表示。
场景编辑：当具身智体依赖于世界的隐式表示时，编辑和更新该表示的能力可以增强机器人的适应性。例如，考虑这样一个场景，机器人利用环境的预训练 NeRF 模型进行导航和操作；如果环境的一部分发生变化，无需从头开始重新训练模型即可调整 NeRF，从而节省时间和资源。
目标表征：学习目标之间的对应关系可以在测试时将技能从受过训练的目标转移到已知类别中的新目标实例或新目标类别来促进操作；传统上，目标对应关系使用关键点和关键帧等强监督来学习；神经描述子场（NDF）[179]利用占用网络的逐层激活消除了对密集注释的需要；然而，这种方法仍然需要针对每个目标物体（target object）类别进行许多训练数据；其他工作已经开始直接从预训练视觉模型的图像特征构建目标表示。

学习的可观性

可观性是指目标、环境或实体向智体提供特定功能或交互的潜力。它们可以包括推、拉、坐或抓等动作。检测可观性可以弥合感知和动作之间的差距。

预测模型

预测动力学模型或世界模型，预测给定特定智体动作时世界状态如何变化，也就是说，它们试图对世界的状态转移函数进行建模[184]。当应用于视觉观察时，动态建模可以表述为视频预测问题[185]、[186]。虽然视频生成和预测，特别是长距视频生成和预测具有挑战，但基于视觉Transformer和扩散模型的最新模型已经证明可行[187]，[188]。例如，Phenaki 模型 [189] 根据文本提示能生成长度长达几分钟的可变长度视频。

具身AI

最近，研究人员表明，LLMs的成功可以扩展到具身智能领域[32]、[33]、[42]、[194]，其中“具身”通常指的是世界模拟器中的虚拟体现，而不是一个物理机器人具身。

Minecraft [196] 游戏提供了一个设计能够在开放世界中运行的智能体平台。 MineDojo [71] 是一个用于在 Minecraft 游戏中开发通才智体的框架。 MineDojo 提供数千个开放式和语言提示的任务，智体可以在逐步生成的 3D 环境中导航来挖掘、制作工具和构建结构。作为这项工作的一部分，作者介绍了 MiniCLIP，这是一种视频语言模型，可以学习捕获视频剪辑与其描述视频的时间对齐文本之间相关性。在 YouTube 视频上训练的 MineCLIP 模型可以用作奖励函数，通过强化学习来训练智体。通过最大化该奖励函数，它可以激励智体在解决自然语言指定的任务方面取得进展。

Voyager [73] 在 Minecraft 领域引入了一个由 LLM 驱动的终身学习智体。 Voyager 使用 GPT-4 不断探索环境。它通过上下文提示与 GPT-4 交互，不需要模型参数微调。通过查询 GPT-4 根据智体的历史交互和当前情况提供一系列新任务和挑战，可以最大限度地探索。此外，迭代提示机制生成代码作为操作空间去控制 Minecraft 智体。迭代提示结合了 Minecraft 提供的环境反馈、执行错误和自我验证方案。对于自我验证，GPT-4 充当批评者，检查任务是否成功，并在失败的情况下提供任务完成的建议。 GPT-4 批评家可以被人类批评家取代，在任务执行期间提供即时的人类反馈。

具身人工智能虚拟环境中的强化学习有可能在安全受控的环境中提供有效的训练和优化控制策略来提高现实世界机器人的能力。奖励设计是强化学习的一个重要方面，影响机器人的学习过程。奖励应与任务目标相一致，并引导机器人完成所需的任务。可以利用基础模型来设计奖励。

基础模型的模型架构（例如Transformer）的进步使模型能够有效地建模和预测序列。为了利用这些模型的力量，最近的一些研究调查了利用这些架构在强化学习问题中进行序列建模。

思维推理链和动作生成也可以服务具身智体。 ReAct [202] 在LLMs中结合了推理（例如思维链）和动作（例如动作生成序列）。推理跟踪增强了模型推断、监控和修改动作规划以及有效管理异常的能力。操作促进与外部资源（如知识库或环境）的交互，使其能够获取补充信息。 ReAct 展示了其在各种语言和决策任务中的熟练程度，包括问答和事实验证。它透明地展示搜索证据和得出结论的过程来增强用户的可解释性和信任度。与依赖于单一思维链的先前方法不同，ReAct 使用维基百科 API 来进行相关信息检索和信念更新。该策略有效地缓解了通常与思维链推理相关的问题，例如幻觉和错误传播。

多面手AI

机器人研究中的一个长期挑战是在各种现实世界非工厂应用中部署机器人或具身智能体，执行一系列任务。为了制造能够在不同环境中执行不同任务的通用机器人，一些研究人员提出了用于机器人学习的生成模拟器。

Generative Agent[203]讨论了其如何为交互式应用程序生成人类行为的真实模仿，从而创建类似于The Sims等游戏中的微型（miniature）社区。作者将他们的架构与 ChatGPT 大语言模型连接起来，创建了一个包含 25 个智体的游戏环境。该研究包括两项评估，一项受控评估和一项端到端评估，展示了其架构各个组成部分的因果效应。

开发通用人工智能的另一种方法是使用可泛化的多模态表示。 Gato [154] 是一个多面手智体，作为多模态、多任务、多具身方式的多面手策略。使用具有相同权重集的相同神经网络，Gato 可以在不同任务的不同环境中以不同的具身进行感知和行动。 Gato 可以玩 Atari、聊天、为图像添加字幕、使用真实的机器人手臂堆叠积木、在 3D 模拟环境中导航等等。 Gato 接受了 604 项不同任务的训练，这些任务具有不同的模态、观察结果和动作。在这种情况下，语言充当不同具身的共同基础。 Gato 有 1.2B 参数，并以监督方式离线训练。

仿真器

高质量的模拟器或基准测试对于机器人开发至关重要。 Habitat [208] 由 Habitat-Sim 和 Habitat-API 组成。 Habitat-Sim 单线程运行时可以达到每秒数千帧 (fps)。 Habitat-Lab [147] 不是对低级物理学进行建模，而是一个用于具身人工智能的高级库，为端到端开发提供了模块化框架。它有助于定义具身人工智能任务，例如导航、交互、遵循指令和回答问题。此外，它还可以配置具身智体，包括其物理形式、传感器和功能。该库支持这些智体的各种训练方法，包括模仿学习、强化学习和传统的非学习方法，如 Sense-Plan-Act 流水线。此外，它还提供了用于评估智体在这些任务中表现的标准指标。与此相一致的是，最近发布的 Habitat 3.0 [209] 进一步扩展了这些功能。