面向通用机器人的基础模型：综述和综合分析_toward general-purpose robots via foundation model-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/138856718

23年12月来自CMU、博世AI、SAIR实验室（空域AI和机器人）、乔治亚理工、Meta FAIR、UCSD和谷歌DeepMind的综述论文“Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis“。

在这里插入图片描述

构建在任何环境、任何目标上无缝操作的通用机器人，并用各种技能完成不同的任务，一直是人工智能领域的长期目标。然而不幸的是，大多数现有的机器人系统都受到限制——它们是为特定任务而设计、在特定数据集上进行训练并在特定环境中部署的。这些系统通常需要广泛标注的数据，依赖于特定于任务的模型，在现实场景中部署时存在许多泛化问题，并且很难对分布变化保持鲁棒性。受自然语言处理（NLP）和计算机视觉（CV）等研究领域中网络规模、大容量预训练模型（即基础模型）炫目的开放集性能和内容生成能力的推动，该综述旨在探索 (i) 如何将 NLP 和 CV 的现有基础模型应用于机器人领域，并探索 (ii) 机器人特定的基础模型是什么样子。

首先概述传统机器人系统的构成以及使其普遍适用的基本障碍。接下来，建立一个分类法来讨论当前的工作，探索如何利用现有的机器人基础模型，并开发适合机器人的模型。最后，讨论用基础模型来实现通用机器人系统的主要挑战和有希望的未来方向。

用“机器人基础模型”一词来涵盖两个不同的方面：（1）将现有（主要）视觉和语言模型应用于机器人，主要是通过零样本和上下文学习； (2) 用机器人生成的数据，开发和利用专门用于机器人任务的机器人基础模型。如图总结了本文的主要组成部分。

添加图片注释，不超过 140 字（可选）

本文的总体结构如图所示。

添加图片注释，不超过 140 字（可选）

介绍一下基础模型。

随着大语言模型（ LLM ）和视觉语言模型（VLM ）的出现，人们提出了几种基于视觉的基础模型（VFM）[20-22, 132]。由于它们在像素和目标级别上炫目的域不变性和语义属性[133-137]，已被广泛应用于下游被动感知任务。此外，这些重大进步是通过自监督 [133] 和/或大规模数据管理 [21, 22] 实现的。

自监督 VFM 系列可大致分为以下三个子类：(1) 联合嵌入预测架构（JEPA）[138]，(2) 基于对比学习的方法 [53, 139]，(3) 掩码Autoencoder（MAE）[132]，JEPA 采用 Your Own Latent（BYOL）[140]风格的自监督技术，其中主要监督信号是预测不同图像增强的相似嵌入。在JEPA 方法中，最著名的是 DINO [20]、DINOv2 [22]、I-JEPA [141] 和 MC-JEPA [142]。这些基于联合嵌入的方法捕获了更长期的全局模式和面向形状的特征[133, 134]。另一方面，基于对比学习的方法利用多模态数据，弱监督学习不同模态的共同潜空间。值得注意的方法包括 CLIP [53]，它使用大规模图像-字幕对。除了这两类之外，MAE [132] 还组成了另一类模型，经过训练重建掩码输入作为一个借口任务。这些模型捕获局部token级语义上下文，导致在语义分割等密集预测问题上的广泛应用[133, 134]。

通过仔细管理大型数据集而启用的两个著名的 VFM 是SAM [21]和 DINOv2 [22]。 SAM 利用基于迭代模型预测的管理流程获得 10 亿个语义分割掩码，用于监督学习。事实证明，基于大规模精选数据进行训练的 SAM 模型在广泛的领域中表现出了不错的实例分割性能。同样，DINOv2 [22] 是一个自监督模型，用基于模型预测的精选数据（包含 1.42 亿张图像）进行训练。事实证明，这种对精选数据的大规模自监督使 DINOv2 能够比专门训练的模型和对比零样本模型（例如 CLIP）表现得更好，同时展示出很好的语义一致性。

由于扩散模型（DM）的进步，文本条件图像生成模型最近因其直接从语言提示生成新高保真图像的惊人能力而引起了极大的关注[143]。 GLIDE [144] 是一种文本条件扩散模型，具有 CLIP 指导和无分类器指导。 DALLE-2 [18] 提出了一种两步扩散模型，该模型由先验模型和解码器组成，先验模型在给定文本字幕的情况下生成 CLIP 图像嵌入，解码器生成以编码图像嵌入为条件的图像。 IMAGEN [19] 是另一种具有无分类器指导的文本条件扩散模型。与之前的方法不同，它提出了动态阈值处理来生成更加真实的图像，并提出了 U-Net 结构来使训练更加高效。本文对这种基础模型命名为视觉内容生成模型（VGM）。

大语言模型（LLM）是一种语言模型，以其能够用最少的特定任务训练数据处理各种语言任务而著称，这使其有别于传统的人工智能模型[145]。术语“大”指的是模型大小和数据集大小。此外，语言意味着模型是在互联网规模上使用单一模态（即文本）进行训练的。 LLM 的关键发展是 Transformer 架构的引入，由于 Transformer 的高度并行特性，使得大规模数据的高效训练成为可能，使得扩展文本序列的处理更加高效。有两条工作线建立在 Transformer 架构之上：生成式预训练 Transformer (GPT) 系列 [17, 146] 和 Transformers 双向编码器表征 (BERT) 系列 [147]。 GPT 被训练为解码器，其任务是预测序列中的下一个单词，而 BERT 被训练为编码器，专注于理解句子之间的上下文关系。另一种对 GPT-3.5 模型（ChatGPT）等模型的成就做出贡献的技术是人类反馈强化学习（RLHF）的范式[149]。该技术将Transformer的输出与通过逆强化学习学到的人类偏好相结合，使模型能够产生更接近人类和更流畅的句子。

然而，LLMs的局限性仍然很大，特别是他们倾向于产生看似合理的成果。此外，由于仅接受单一文本模态训练的限制，LLMs缺乏对现实世界目标的参考，因此无法准确回答诸如“我可以将这个西瓜放入搅拌机吗？”之类的问题。缺乏空间基础的问题对于LLMs在机器人领域的应用尤为重要。因此，最近的研究开始将额外的信息源（例如视觉）集成到Transformer架构中。

视觉语言模型（VLM）代表了生成模型的另一个重大进步。这些模型在需要理解视觉内容和语言的任务中表现出色，例如开放集图像分类[53]、目标检测[150]和分割[151]、视觉问答（VQA）[152]等。模型利用大规模数据集和复杂的神经网络架构（通常是Transformer的变体）来学习图像与其文本描述或查询之间的相关性。这种方法能够在没有特定任务训练的情况下执行一系列任务，展示出不错的泛化能力。根据预训练方法，它们可以大致分为两大类：对比学习模型和生成预训练模型。

基于对比学习的模型，如 CLIP [53] 和 ALIGN [153]，经过训练，使匹配图像文本对的表示在嵌入空间中更接近，同时将非匹配对分开，可以理解图像和文本之间的对应关系。例如，CLIP 能够理解细致入微的文本描述及其相应的图像，因此在各种视觉分类任务中表现出色。类似地，ALIGN 专注于对齐大规模图像-文本对，显着提高图像字幕和视觉问答等任务的性能。 ViLBERT [152] 和 VL-BEiT [154] 等生成预训练模型采用与 LLM 类似的训练方法。

结合这两种方法的优点，Flamingo [155] 结合了一个大型冻结语言模型，保留了预训练语言模型固有的上下文中小样本学习能力。相反，GIT [156] 采用大型对比预训练图像编码器，并伴有相对较小的文本解码器。 Flamingo 和 GIT 都首先通过对比学习预训练图像编码器，然后进行生成预训练。

最近，BLIP [157] 和 BLIP-2 [158] 已成为 VLM 中的变革模型，引入了一种课程学习策略，从更简单的任务引导到更复杂的任务，显着提高图像字幕和视觉问答等任务的性能。最新的 GPT 迭代版，GPT-4 [159] 引入了处理文本和视觉输入的功能。然而，这些多模态功能的技术细节和范围尚未发布。总的来说，这些模型体现了 VLM 的快速进步，每个模型都有助于多模态系统在理解和基于视觉数据生成类人响应方面的鲁棒性和适应性。

视觉和语言模态的结合揭示了自监督学习的巨大潜力。因此，很自然地超越视觉和语言，开发具有更多模态的新基础模型。这些模型被称为大型多模态模型 (LMM)。附加模态丰富多样，例如结合图像、文本、深度、热和音频的模型，例如 ImageBind [139]；结合文本、图像、视频和音频的模型，例如 NExT-GPT [160] 和 Audio-GPT [161]；结合语言文本和音频的模型，例如 SpeechGPT [162]；以及将点云与视觉和语言相结合的模型，例如 ULIP [163]。这些 LMM 使用不同的训练方法，例如对比预训练 [139] 或通过学习输入/输出预测来微调 LLM [160]。这些 LMM 中显示的对比学习方法与 LLM 非常相似，因为不同模态的嵌入彼此一致。这些基于多模态对比学习的方法可以实现跨模态检索，并带来更有趣的应用，例如音频到图像生成等。

在机器人学领域的挑战问题可以如下图分类：

添加图片注释，不超过 140 字（可选）

当前机器人学基础模型的研究方法可以如图进行分类：机器人学采用的基础模型（视觉-语言）和机器人学的基础模型。对于机器人技术中使用的基础模型，主要强调以零样本方式使用的视觉和语言基础模型的应用，这意味着不进行额外的微调或训练。然而，本文主要关注的是机器人学的基础模型，可以通过视觉语言预训练初始化来热启动模型和/或直接在机器人数据集上训练模型。

添加图片注释，不超过 140 字（可选）

典型的机器人系统由感知、规划和控制模块组成。将运动规划和控制结合成一个整体——动作生成，并将运动规划模块视为较高级，将控制视为较低级的动作生成。视觉和语言基础模型的某些应用贯穿这些机器人模块，例如，这些模型在机器人技术中的落地，以及从 LLM 和 VLM 生成数据。鉴于当前LLMs的自回归性质，经常要努力应对扩展的任务。因此，高级提示方法改善这种限制并增强规划能力。
模块化的机器人策略，应用视觉和语言基础模型来服务于单个机器人功能，例如，应用 VLM 作为开放式机器人感知模块，然后将其“插入”与运动规划器和下游控制器一起工作 [25]。由于此类基础模型以零样本方式应用，因此在应用基础模型的模块与机器人系统中的其他模块之间不存在梯度流。相反，端到端的可微性方法，模糊了典型机器人模块的边界（例如，感知和控制 [27, 195]），一些机器人学的基础模型甚至提供一个统一的模型来执行不同的机器人功能 [30, 31]。

1 机器人学采用的基础模型

如图是一些感知应用的例子：

添加图片注释，不超过 140 字（可选）

如图是任务级规划的例子：

添加图片注释，不超过 140 字（可选）

如图是运动规划和动作生成的例子：

添加图片注释，不超过 140 字（可选）

“落地（grounding）”的概念指将上下文含义与信号或符号相关联的能力，例如将一个单词与其在世界中的表现联系起来的能力。人类通过音频（单词、语气）和视觉信号（手势、行为、肢体语言）来理解语义概念。本文“落地“指的是将基础模型所拥有的抽象知识与机器人技术有形的、现实世界细节相结合的过程——确保语言驱动的决策有意义地对应物理行为和环境背景。例如，如果要求LLMs制定一个规划，在没有任何环境信息的情况下在特定的房子里找到一支笔，那么这个任务就类似于盲人推理如何在未知的空间中导航，使得几乎不可能的任务得以完成。类似地，虽然LLMs可以建议“用左手抓住左把手，用右手抓住右把手，然后抬起”来轻松制定举起椅子的规划，但如果现实世界的模型具身是一个典型的、仅配备一只手臂的机器人，则该规划将变得不切实际。由于“落地”本身就是一个很大的领域，因此并不需要涵盖所有内容；相反，将讨论如图所示的四个概念：（1）将语言落地于环境； (2) 将潜概念落地于环境； (3) 将语言落地于具身； (4)将潜概念落地于具身。

添加图片注释，不超过 140 字（可选）

将语言落地于环境和具身的主要优点是无需额外训练即可轻松实现零样本学习。然而，这存在重大缺陷。对于无法用语言描述的概念，例如手指运动的细微差别，落地于具身可能会失败。此外，对一组固定技能库的依赖限制了对不同环境的适应性。因此，直接基于潜概念空间似乎是一个更可行的解决方案。利用交互数据[234]或专家数据[28]的方法在应对这些挑战方面都显示出了有希望的结果。

还有一个应用是内容生成，以及提示对规划和控制的增强。

2 机器人学的基础模型（RFM）

随着真实机器人状态-动作对机器人数据集数量的增加，机器人学基础模型（RFM）类越来越可行[28,29,176]。这些模型的特点是使用机器人数据来训练，解决机器人任务。一是在一个机器人模块中执行一组任务的 RFM，定义为单一用途机器人的基础模型。例如，可以生成低级动作来控制机器人的 RFM，或者可以生成高级运动规划的模型。二是在多个机器人模块中执行任务的 RFM，可以执行感知、控制甚至非机器人任务的通用模型 [30, 31]。

如图是一些RFM例子：

添加图片注释，不超过 140 字（可选）

下表是基础模型如何解决机器人学挑战的方法总结：

添加图片注释，不超过 140 字（可选）

实验的综合分析如下表所示：从桌面操控、灵巧操控、移动操控、导航、运动和多任务。

添加图片注释，不超过 140 字（可选）

如图的直方图显示开发机器人系统时使用不同基础模型的次数：GPT-4、GPT-3 是首选，因为它们具有少量提示的性质，以及通过 API 的可访问性。 CLIP 和 ViLD 经常用于桥接图像和文本表示。除了 CLIP 之外，T5 系列模型也经常用于对文本进行编码获取文本特征。 PaLM和PaLM-E用于机器人规划。 RT-1 最初是为操纵而开发的，后来作为其他操纵模型在此构建的新基模型出现。

添加图片注释，不超过 140 字（可选）

关于世界模型的讨论

在经典机器人技术中，特别是在规划和控制问题中，通常尝试对机器人任务所需的世界进行尽可能的建模。这通常是利用任务的结构先验，或者依靠启发式或简化假设来实现的。当然，如果可以完美地模拟世界，那么解决机器人问题就会变得简单得多。不幸的是，由于现实世界的复杂性，机器人领域的世界建模仍然极其困难，有时甚至棘手。因此，获得跨任务和环境的通用策略仍然是一个核心问题。

本文的基础模型大多采用与模型无关（无模型）的方法，利用广泛的数据集和大规模深度学习架构的优势。一些例外尝试通过直接使用LLMs作为动态模型来模拟基于模型的方法。然而，这些尝试仍然受到纯文本描述固有局限性的限制，并且容易遇到幻觉问题[225, 271]。许多研究人员认为[138]这些基础模型的数据规模学习范式仍然与人类和动物的学习方式有很大不同，人类和动物的学习方式是一种极端的数据和能源高效方式。实现接近人类学习的能力仍然是奇妙的事。在[138]中，LeCun 认为解决这个难题的一个可能答案可能在于学习世界模型，该模型可以预测世界状态将如何随着所采取动作的结果而变化。如果要开发能够通过严格的数学和物理建模来模拟世界表征精度的世界模型，那么更接近于解决和泛化机器人技术中的复杂问题。这些复杂且可靠的世界模型使应用基于模型的方法成为可能，包括基于搜索和基于样本的规划以及轨迹优化技术。这种方法不仅有助于解决机器人技术中的规划和控制挑战，而且还增强了这些过程的可解释性。人们认为，追求具备卓越的泛化能力和零样本学习能力的“基础世界模型”，有可能成为该领域范式的转变。

关于持续/终身学习的讨论

持续学习广义上是指学习和适应动态和变化的环境的能力。具体来说，它是指随时间推移，可以学习并适应基本训练数据分布和不断变化学习目标的算法。

持续学习具有挑战性，因为神经网络模型经常遭受灾难性遗忘，导致先前任务的整体模型性能显着下降。缓解灾难性遗忘导致的性能下降的一种简单解决方案，是使用收集的整个数据集定期重训练模型，这通常允许模型避免遗忘问题，因为其包含旧数据和新数据。然而，这种方法需要大量的计算和内存资源。相比之下，仅对新任务或当前数据进行训练或微调，而不重新访问以前的数据，资源密集度较低，但由于模型倾向于覆盖以前学习的信息，因此会导致灾难性遗忘。这种遗忘可归因于新旧数据之间的任务干扰、数据分布随时间演变而产生的概念漂移以及基于模型大小的模型表达力限制。

此外，随模型容量的增加，在不断扩大的数据语料库上不断地重新训练变得不太可行。最近视觉和语言持续学习方面的工作[338-341]提出了各种解决方案，但实现可应用于机器人技术的有效持续学习仍然是一个具有挑战性的目标。对于持续学习，大型预训练基础模型面临上述挑战，主要是因为其庞大规模使得再训练变得更加困难。特别是在机器人应用中，持续学习对于机器人学习策略在不同环境中可部署性至关重要，但这仍然是一个未经探索的领域。尽管最近的一些工作研究了持续学习的各种子课题 [342]，例如增量学习 [343]、快速马达适应 [344]、人在环学习 [345, 346]，但这些解决方案通常是专为单一任务/平台而设计，尚未考虑基础模型。

持续学习算法在设计时要考虑到机器学习的基础知识和实际实时系统。一些开放的研究问题和可行的方法是：（1）在对最新数据进行微调时混合不同比例的先验数据分布以减轻灾难性遗忘[347]，（2）从先验分布或课程，开发有效的原型，学习任务推理的新任务 [348] ，(3) 提高在线学习算法的训练稳定性和样本效率 [349, 350]，以及 (4) 确定将大容量模型无缝合并到控制框架中的原则方法（可通过分层学习 [ 351–353]/慢-快控制[354]）用于实时推理。