连接语言和动作：语言调节的机器人操作的综述

最新推荐文章于 2025-05-12 03:00:00 发布

三谷秋水

最新推荐文章于 2025-05-12 03:00:00 发布

阅读量1.1k

点赞数 29

分类专栏：计算机视觉大模型智能体文章标签：机器人人工智能语言模型深度学习计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/145323566

版权

大模型同时被 3 个专栏收录

735 篇文章

订阅专栏

智能体

499 篇文章

订阅专栏

计算机视觉

449 篇文章

订阅专栏

24年12月来自慕尼黑工大、博世、伯克利分校、谷歌、CMU、英国UCL、USC、中山大学和密西根大学的论文“Bridging Language and Action: A Survey of Language-Conditioned Robot Manipulation”。

语言调节的机器人操作是一个新兴领域，旨在通过教机器人理解和执行自然语言传达的指令，实现人类与机器人智体之间的无缝交流与合作。这个跨学科领域整合场景理解、语言处理和策略学习，以弥合人类指令和机器人动作之间的差距。本综述系统地探索语言调节的机器人操作最新进展。将现有方法分为语言调节的奖励塑造、语言调节的策略学习、神经符号 AI 和基础模型 (FM) 的使用，例如大语言模型 (LLM) 和视觉-语言模型 (VLM)。具体来说，分析有关语义信息提取、环境和评估、辅助任务和任务表示策略的最新技术。通过进行比较分析，强调当前方法在连接语言指令和机器人动作方面的优势和局限性。最后，讨论尚未解决的挑战和未来的研究方向，重点是潜在地增强泛化能力并解决语言调节的机器人操作器安全问题。

大规模、预训练的语言、视觉和动作模型，使得将机器人操控与自然语言推理相结合成为可能。语言调节的机器人操控这一新兴领域的最新研究目标，旨在使机器人系统能够将自然语言命令、指令和查询转化为基于对物理环境的视觉观察运动动作和行为。在机械臂控制、人机交互、跨具体化学习、和机器人导航任务（如自动驾驶）方面取得了显著成功。如图演示语言调节的机器人操控中任务和用例。语言调节机器人操控中有几个关键挑战：

请添加图片描述

机器人如何有效地提取自然语言命令的语义含义？
机器人如何响应语言命令专注于场景的相关部分？
机器人如何将高级图像语言理解转化为低级精确机械动作？

可以将机器人 AI 系统分为与这些挑战相关的三个部分来说明：语言、感知和控制。

请添加图片描述
如图所示该架构框架概述语言调节的机器人操作。智体包括三个关键模块：语言模块、感知模块和控制模块。这些模块分别起到理解指令、感知环境状态和获取技能的作用。视觉语言模块，在指令和周围环境之间建立联系，以实现对这两个方面的更深刻理解。这两种模式的信息相互作用使机器人能够进行高级规划并执行视觉问答任务，最终提高其整体性能。控制模块，能够通过从专家设计的奖励（强化学习）和演示（模仿学习）中学习来获取低级策略。有时，这些低级策略也可以直接设计或硬编码，利用路径和运动规划算法。有两个关键循环需要强调。位于左侧的交互循环促进人机语言交互。位于右侧的控制循环表示智体与其周围环境之间的交互。

知识库 (KB) 是结构化知识的基础存储库，包含与给定领域相关的事实、规则和关系。知识库中的信息以结构化格式组织，便于高效检索和推理。正式地，知识库通常使用诸如资源描述框架 (RDF) 或本体 Web 语言 (OWL) 之类的语言将知识编码为机器可读的形式。

知识图谱 (KG) 可以被视为具有图结构的特殊形式 KB。正式地，KG 被定义为实体集 E 和谓词集 R 上的 G。在机器人操作领域，实体通常包含现实世界的目标、动作、技能和其他抽象概念；关系表示这些实体之间的关系，例如 isComponentOf、withForce 和 hasPose。正如各种论文中所强调的那样，该领域已经开发几个众所周知的知识图谱 (KG)。

知识图谱嵌入 (KGE) 方法将 KG 中的信息表示为密集嵌入。KG 中的实体和谓词被映射到 d 维向量 M_θ 中。这些方法可以基于得分函数，也可以基于图神经网络。

神经语言/词汇模型 (NLM)：NLM 利用神经网络来估计单词序列的概率，例如循环神经网络 (RNN)，为传统统计方法提供更强大的替代方案。

预训练语言模型 (PLM)：PLM 是从自然语言中提取语义的早期尝试。ELMo 旨在通过首先预训练双向 LSTM (biLSTM) 网络，然后根据特定的下游任务对 biLSTM 网络进行微调来捕获上下文感知的词语表示。

大语言模型 (LLM)：由于预训练语言模型 (PLM) 的扩展可以提高下游任务的性能，因此 LLM 变得越来越流行。

视觉语言模型 (VLM)：视觉语言模型在从大规模网络数据中提取和组合视觉和文本内容方面发挥着关键作用。

视觉-语言-动作模型 (VLA)：为了将自然语言响应和机器人动作纳入相同的格式，动作可以表示为文本tokens，并以与自然语言tokens相同的方式直接合并到模型的训练集中。

基础模型（FM）：基础模型，基于海量数据进行训练，可以执行多种任务。LLM 和 VLM 都属于 FM。

在语言条件的奖励塑造、语言条件的策略学习、神经符号方法以及由 FM（如 LLM 和 VLM）增强的最新方法，如图概述。

请添加图片描述

语言条件奖励塑造

语言条件奖励塑造旨在根据给定的语言指令和周围环境设计奖励。奖励塑造是 RL 在机器人操作中的一个重要方面。奖励塑造方法可分为密集奖励塑造、稀疏奖励塑造和奖励函数学习。

稀疏奖励塑造：一些方法采用稀疏奖励结构来降低奖励设计的复杂性。通常，智体在成功完成指令后仅从环境中获得有效奖励。例如，Silva 【5】将达到期望目标状态的奖励设置为 10，每采取一个时间步骤就会施加 -0.01 的惩罚。语言指令被映射到特定任务并与这些任务的稀疏奖励塑造相关联。尽管奖励设计很方便，但这种方法经常面临样本效率低的挑战，需要延长训练时间，甚至无法完全收敛。
密集奖励塑造：一些方法利用密集奖励设计来指导探索。奖励不仅在完成指定指令时给予，而且在朝着完成方向前进时也给予。例如，Yao【56】和 Bing【8】利用集成伸手、抓取和放置奖励的密集奖励结构来指导智体完成分配的任务。密集奖励塑造显著提高策略学习的样本效率，但也带来更大的复杂性，使奖励设计成为一项重大挑战。

3）奖励函数学习：存在一些通过从演示中学习来推导奖励函数的方法。一些研究使用专家提供的离线演示预训练奖励映射模型。LAMP 【59】使用 DistillBERT 和 R3M 编码器通过计算像素和语言对齐分数来训练语言奖励模块。LOReL 【63】实现一个二元分类器 R(s/0, s, l)，它查看初始状态 s/0、当前状态 s 和语言指令 l。该分类器预测从初始状态到当前状态是否满足语言指令。这些模型将视觉观察和语言指令转化为奖励信号。

稀疏奖励塑造代表一种启发式奖励设计，以最少的努力手动设计。密集奖励塑造涉及专家根据他们的见解和知识手动制定奖励。相反，奖励函数学习是数据驱动的，而不是知识驱动的。在这里，奖励是从收集的演示数据或嵌入在 FM 中大量知识中学习的，这些知识是从大量人类生成的文本信息和视觉信息中提取的。奖励塑造类型的图示可以在下图中看到：（a）密集奖励，（b）稀疏奖励，（c）奖励函数学习。

请添加图片描述

语言条件策略学习

1）强化学习：RL 算法可以应用于基于语言条件奖励的任务。语言条件 RL 的早期尝试集中在游戏上，因为游戏总是有明确的规则和目标，而且很容易重现实验并比较性能。这些研究训练一个能够理解人类给出自然语言指令的智体。在这些游戏中，人类语言被用来控制智体来解决导航任务、计分游戏、物体操纵。已经进行更多的研究来解决机器人操纵任务。Yao 【56】利用语言和动作中存在的“对称性”来提高学习效率。 Bing 【8】将训练过程分为两个阶段，即指导阶段和试验阶段。在指导阶段，向智体提供语言指导，同时忽略来自环境的奖励。在试验阶段，智体从特定任务中定义的奖励中学习。通过这种方式，智体从语言指令和环境中定义的奖励中学习，获得更好的学习效果。

2）行为克隆：行为克隆专注于训练智体复制专家示例所展示的动作和决策。目标是最小化专家的行为与智体对给定观察的预测行为之间的差异。许多语言条件模仿学习 (IL) 算法都是用基于语言的指令替换预定义的目标从目标条件 IL改编而来。

如图显示目标的典型表示。Lynch 【3】提出多上下文模仿学习 (MCIL)，它使用多个上下文目标空间训练智体，包括任务 ID、视觉图像和自然语言指令。

请添加图片描述

3）基于条件扩散的策略学习：显式策略学习方法，如图（a）所示，其学习使用直接 MSE 损失、高斯混合和离散化来直接输出动作；除此之外，生成模型可以扩展到大型数据集，并可以在高维环境（如图像和文本）中表示条件分布。扩散模型在机器人模仿学习应用中引起人们的关注。与其他隐式模型不同，这些模型通常存在生成对抗网络中训练不稳定的问题，以及基于能量模型中的采样问题，扩散策略有助于对行为的表达性条件联合分布进行建模，从而提高机器人解决表达多模态动作分布的复杂现实世界任务能力。条件扩散模型提供一种灵活的方法，将明确的目标和语言指令集成到下游机器人任务中【70】，大致可分为两种方法：（i）基于 DDPM 的策略学习：利用去噪扩散概率模型（DDPM）训练以语言指令为条件的策略【151】，如图（b）所示；（ii）基于生成的策略学习：通过语言引导的扩散模型生成目标图像，以驱动低级目标条件策略【152】。

请添加图片描述

神经符号方法

神经符号人工智能【177】结合神经和符号传统来解决任务，它与流行的数据驱动机器学习方法一起不断发展。具体而言，“神经”是指神经网络，而“符号”是指高级（人类可读）表示。在机器人操作领域，通过引入额外的知识库与神经系统交互，将神经和符号方法结合起来可以增强智体的可解释性和推理能力。遵循 Yu【178】定义的分类，主要分成三种，即为推理学习、为学习推理和学习-推理。

1）为推理学习：在此类别中，神经网络通过提取视觉和文本模态的重要符号和特征来充当助手，使符号系统能够根据捕获的信息进行推理。 Kwak 【179】创建一个名为 roboKG 的机器人操作知识图谱来表示物体的信息（例如，物体的材料和组件），以解决特定物体操作任务中的抓取挑战。使用带有 YoLov5 的识别模块执行物体检测、组件检测和材料检测。基于翻译的 KGE 方法【26】用于推理适当的夹持器、力和抓取组件。Miao 【73】使用 LLM 创建以任务为中心的操作知识图谱 SkillKG。在现实环境中运行的机器人可以根据此类知识图谱中的经验和知识推断出新的任务执行规划。Bartoli 【180】将 KGE 与持续学习（CL）方法相结合，以实现更好的推理能力并解决遗忘灾难。 RoboEXP 生成一个动作条件场景图 (ACSG)，通过交互式探索捕捉底层环境的结构，然后利用该 ACSG 执行现实世界的操作任务。研究人员还应用 Transformer 架构【74】来学习任务的层次结构，例如，通过将任务学习分解为子问题：子目标规划、导航和目标操作【181】。Zhang 【182】提出一种神经任务监视器，它学习从当前感知、人与智体之间的对话以及动作历史中提取有关任务进度和即将到来的子目标符号信息（例如，目标实例及其物理状态）。通过与在线规划算法连接，这种方法提供透明的推理和规划，在许多情况下，这允许智体检测和恢复错误。

2）为学习推理：与为推理学习相反，为学习的推理表示，符号系统通过向神经网络提供符号知识来充当助手，然后神经网络做出最终决策。 Misra 【76】使用 STRIPS 形式语言表示给定一组环境状态和控制器指令原语的域知识。他们通过对条件随机场 (CRF) 进行动态规划来最小化能量函数，将自然语言指令转化为机器人可以执行的控制器指令。Nyga 【183】利用马尔可夫逻辑网络 (MLN) 来表示机器人的工作空间知识，包括感知和事实谓词以及符号动作。然后训练一个概率模型，用于根据感知的世界状态和背景知识从自然语言指令中推断符号规划。PLANner 从外部知识库 (ConceptNet【184】) 构建注入常识的提示，引出 LLM 的程序规划能力【75】。Nguyen 【185】将知识图谱中的先验知识与观察和语言指令的视觉和文本信息相结合，捕捉目标物体之间的关系，以增强智体在未见过环境中泛化的能力。 Silver 【186】从由任务描述、动作和状态序列组成的演示数据集中学习符号技能，该技能由运算符、子目标条件策略和子目标采样器组成。

3）学习-推理：学习-推理方法以互补的方式使用符号和神经系统，彼此增强对方产生最终结果的能力。N. K 【77】利用语言推理器推导出与人类指令所暗示的操纵任务相对应的分层符号程序。然后，将使用视觉推理器根据给定的图像和语言推理器的输出，通过神经嵌入参数化目标级和关系概念。最后，动作模拟器使用视觉推理器的输出，通过最小化真值和预测位置之差来学习操纵物体的目标位置。Chai 【187】明确地将动作动词的物理因果关系概念建模为语言指令的一部分。智体通过对物理世界的体验获得动作动词的基本语义表征，并且获得的表征进一步允许智体通过语言指令推理和学习新任务【188】。Miao 【78】使用视觉模块，以场景的 RGB 图片为输入，预测所有实体的标签、边框和关系谓词标签，生成场景图。然后，将生成的场景图作为回归规划网络（RPN）的输入，以及任务指令，输出中间目标（规划）。

大语言模型赋能

许多研究表明，语言指令可以加速智体的学习速度，提高其对新任务的适应性。然而，这些先前的研究使用基于学习的方法为智体配备语言嵌入，这需要收集大量的训练数据。此外，这些先前的研究大多侧重于将语言指令与低级动作原语（如拾取和放置）连接起来，并对动作进行排序，以解决模拟域中的长期任务。这使得它们难以在现实环境中解决多步骤任务。

同时，使用网络规模数据进行预训练的 LLM 对语言调节机器人的通用性具有巨大潜力。许多具有数十亿个参数的 LLM，例如 OpenAI 的 ChatGPT、谷歌的 BARD、InstructGPT【118】、 Claude【204】、 LLaMA-1【205】和 LLaMA-2【206】，都能够进行零样本学习、强大的常识理解和情境推理。因此，最近的研究集中于利用 LLM 进行机器人操作。例如，Ahn 【79】利用 GPT-3 的大量常识知识作为基于 LLM 的规划器来生成多个动作预测。结合affordance 功能，具身机器人可以执行最容易理解的动作。此外，最近的研究旨在利用 LLM 在大型【82】或开放式环境中完成多种任务【191】。具体来说，Rana 【82】训练移动机械手在两个大规模环境中解决家务任务，这两个环境最多有 3 层楼、36 个房间和 140 个物体。 Wang 【191】设计一个具身智体来解决 Minecraft 游戏世界中的 75 项任务。更一般地说，通过将机器人的观察和动作转换为数字文本，LLM 的模式识别能力可以不仅仅用于基于语言的推理【156】。

当配备 LLM 的智体被用于解决非结构化环境中的多样化、多步骤任务时，LLM 显示出一些潜在的、不可忽视的问题。
• LLM 容易产生幻觉预测【82】，并生成一个合理但不可行的规划【79,89】，因为 LLM 会规划涉及现实环境中不可用目标的动作【189】。
• 自然语言非常模糊，特别是在表达空间和几何关系时，例如“移动得更快”或“将目标稍微向左放置”【88,207–209】。
• LLM 缺乏现实世界的环境经验或常识性知识，并且在任务执行过程中不涉及纠正机制，例如获取实时反馈以重规划，这可能导致不可行甚至不安全的操作。例如，机器人在执行多步骤规划加热食物时会将金属碗放入微波炉中【80】。

根据 LLM 在机器人操作中的功能将其分为不同的部分，包括规划和推理，如图所示。

请添加图片描述

规划：规划是指智体将高级任务分解为子目标或序列的过程，这些子目标或序列是一组学习的动作，用于实现特定目标【82】。最近的研究强调 LLM 在规划任务方面的卓越能力，包括语义分类、常识推理和上下文理解。这些能力可能被具身智体用于任务规划。Huang【189】认为 LLM 本身就拥有实现目标所需的知识，无需进一步训练。具体而言，预训练的自回归 LLM 只需要最少的提示【80,89,191,210】或根本不需要提示【79,189】即可生成以自然语言表达的连贯规划。相比之下，传统的基于学习规划方法依赖于复杂的启发式方法【211】和广泛的训练数据集【212】。收集如此庞大的数据通常是困难的，尤其是对于多样化的任务和不可预测的现实世界场景。

然而，预训练的 LLM 编码大量与任务无关的知识，并且缺乏来自环境的状态反馈，这导致使用 LLM 进行任务规划时经常会遇到幻觉问题。LLM 往往会生成合理但不可行的规划，例如涉及环境中不可用目标的操作【79,89】。Ding【119】提到，将域独立知识落地于具有许多域相关约束的特定领域，对于使用 LLM 进行任务规划具有挑战性。如何将规划落地到环境中？即如何使 LLM 能够生成更可行的规划和可执行操作？最近的研究将 LLM 与外部组件集成或利用 LLM 的代码生成功能来解决这些问题。从两个角度讨论：开环规划和闭环规划。如图展示两种方法的整体过程：（a）开环模型指导附加信息的规划，（b）闭环模型用状态反馈更新规划。

请添加图片描述

2）推理：一般来说，推理是指策略模仿人类思维并使用观察嵌入或外部信息进行推理的能力。在机器人操作中，规划和推理是体现智体用来解决多步骤和长期任务的两个关键能力。它们彼此不同但又高度互联。每一步的可行推理确保生成可执行的行动规划，即推理是规划的先决条件。一些先前的调查没有明确区分规划和推理【37,41】。本文将它们分为两个不同的部分。在规划部分中，大多数工作都是针对封闭世界开发的，假设提供对世界的完整知识并且智体可以枚举所有可能的状态【119】，基于 LLM 的模型利用辅助信息【79,190,210】或反馈【81,191,193】来解决动作序列中的空间和几何依赖关系。对于未见过的目标，基于 LLM 的规划器被训练来避开而不是泛化它们。与此同时，许多其他研究人员【84,119】在开放世界中操作他们的智体，利用不同类型的推理来改进未见过目标或指令的泛化。他们使智体对不可预见的情况具有鲁棒性来提高智体的性能。在此这些工作被归类为总结、提示工程和代码生成。

总结：其也称为归纳推理，从有限的信息中得出合乎逻辑的结论或提供一般策略的认知能力【214】。LLM 的总结显示具身智体在家庭场景中的巨大潜力。整理房间的重新布置任务，对于传统方法来说具有挑战性【195, 196】。一方面，目标的摆放位置非常个人化，取决于不同人的喜好和习惯。另一方面，列举任务特定领域中存在的所有物体并为每个新物体指定目标状态是不切实际的。因此，手动指定目标位置的重排列任务先验模型，很难在大规模或真实环境中执行【197,198】。为了解决这个问题，Housekeep 利用人类偏好的大规模数据集，而不是从一小组整理样本中学习【84】。因此，Housekeep 评估推理目标位置和重排列未见过物体的能力。Wu【85】认为，这种重排列偏好仍然是通用的，而不是个人的。他们构建一个移动机械手 Tidybot，通过少样本提示，推理个人偏好并总结出一种通用策略，例如，尽管文本提示“黄色衬衫放进抽屉”和“白色袜子放进抽屉”。 Tidybot 输出“浅色衣服放进抽屉”，如图所示。Tidybot 可以通过执行相应的偏好策略来决定在测试中将未见过的物体放在哪里。虽然具有归纳推理能力的智体可以提高其对未见过物体的表现，但一个显著的缺点是 LLM 编码许多与任务无关的知识，导致无法生成完全正确的摘要。例如，重排列类别可能过于具体，不能很好地泛化到未见过的物体【85】。

请添加图片描述
通过提示工程引出推理：LLM 对提示很敏感，因此提示工程可以引出推理能力更强的 LLM。思维链 (CoT) 是最著名的提示之一【86】。CoT 将问题分解为一组子问题，然后按顺序解决子问题，其中下一个子问题的答案取决于前一个子问题。因此，CoT 鼓励 LLM 在生成最终输出之前执行更多中间推理步骤。如图说明 CoT 的一个示例，以便更好地理解。作为后续工作，Zhang 【87】向 LLM 输入来自其他智体的额外通信信息，以生成涉及多智体合作的高级规划。此外，苏格拉底模型使用多模态提示【203】，即苏格拉底模型使用视觉-语言模型和音频-语言模型将感知信息代入文本语言输入以生成规划【88】。因此，基于苏格拉底模型的系统可以进行开放式推理，例如视频问答和预测，这使得这些系统对未见过的物体更加稳健。ECoT 将 CoT 合并到 VLA 中，并执行有关规划、子任务、动作等的多步骤推理【202】。

请添加图片描述

代码生成：除了利用 LLM 进行规划之外，那些接受过代码完成训练的人员还展示合成策略代码、协调规划、策略逻辑和控制的能力【88,117,215】。如图显示一个例子，其中 LLM 为智体生成 Pythonic 代码以执行拾取和放置任务。但是，LLM 生成的策略代码质量取决于其推理能力。Mialon 【199】证明，不同版本的 OpenAI 语言模型具有不同的推理能力，导致代码生成质量不同，从而影响智体完成任务的成功率。具体来说，在推理基准 GSM8K【216】上，针对代码生成进行优化的具有思维链 (CoT) code-davinci-002，实现 63.1% 的更高推理准确率，而针对基于文本的任务进行优化的具有 CoT (46.9%) text-davinci-002 则实现更高的推理准确率。此外，原始 text-davinci-002 的准确率仅为 19.7%。

请添加图片描述

Wang 【200】提到程序可以表示时间扩展和组合动作。此外，Liang 【88】还认为 LLM 生成的策略代码可以直接在控制器上运行，从而避免语言条件规划将每条文本指令映射到预训练技能库中可执行动作的要求。Liang 【88】利用提示分层代码生成方法重新组合原始 API 调用，以灵活地定义更复杂的函数，从而更好地概括未见过的目标。类似的工作如 VOYAGER 可以使用技能检索编写新技能并将其记忆在技能库中【200】。然后，VOYAGER 将改进学习的技能以处理未见过的目标。但是，用于代码生成的 LLM 很难解释比样本更长更复杂的命令，并且仍然可能调用控制原语 API 中不存在的函数。 Ha 【69】提示 LLM 输出成功函数代码片段作为一个标记器。LLM 可以通过此成功函数验证未标记的轨迹，并记为成功或失败。Singh 【89】设计一个 Pythonic 程序提示结构，以确保生成的规划具有代码公式。这个 Pythonic 规划继承代码的特性，例如通过 assert 获取状态反馈，通过 else 获取错误收集。一些方法【119,201】设计一个 PDDL成形的提示，旨在将自然语言目标转化为以行动为中心、可解释的目标，支持约束检查和目标验证。

迭代推理：与迭代重规划的工作原理一样，迭代推理是一个循环过程，每次迭代都建立在前一次迭代的反馈之上（如图所示）。Inner Monologue 从成功检测器和场景描述符接收反馈【90】。Huang 【90】已经证明 Inner Monologue 增强了不同域的高级指令完成度。如上所述，用于代码生成的 LLM 可能会在控制原语调用中调用不存在的函数。因此，VOYAGER 不仅利用代码生成和提示工程，还利用迭代推理的优势【200】。VOYAGER 将环境反馈和执行错误纳入 GPT-4 的提示中进行另一轮代码细化，从而有效地避免幻觉。例如，GPT-4 通过 Error(“没有名为 {silver sword} 的条目”) 意识到具身智体应该制作 iron sword 而不是 silver sword，因为 Minecraft 中没有 silver sword。同样，AIC MMLM 利用交互体验提示来纠正姿势预测【91】。

请添加图片描述

视觉语言模型赋能

VLM 是视觉和文本数据融合的缩影，在机器感知和理解领域掀起一场革命。它们对两种模式的解释能力标志着机器人操控领域的一个重要里程碑。

有两种方法：对比学习和自回归方法。

对比学习方法：对比学习在 VLM 中得到广泛应用。其学习表示，其中相似的样本在学习的潜空间中靠得更近，而不同的样本则被推得更远。众所周知的方法 CLIP【29】在潜空间中对齐图像嵌入和其对应字幕的文本嵌入。在机器人操控领域，基于 CLIP 的方法得到广泛应用。CLIPORT【93】是一种语言调节的 IL 智体，它将 CLIP 的广泛语义理解与 Transporter【217】的空间精度相结合，能够解决各种语言指定的桌面任务。在 Dream2Real 中，通过让机器人“想象”虚拟目标状态，然后用 CLIP 对其进行评估，实现了 218 个基于 6-DoF 语言的重排任务。CLIP-Fields【219】能够将空间位置映射到基于 CLIP 方法训练的语义嵌入向量，以便智体可以进行导航和定位。EmbCLIP【220】研究 CLIP 视觉主干对具身 AI 任务的有效性。Instruction2Act【221 】利用 CLIP 模型准确定位和分类环境中的目标。LAMP【222】利用 R3M【126】（一种可重复使用的机器人操作表示）来计算 RL 的奖励。MOO【223】查询 OWL-ViT【224】以生成感兴趣目标的边框，并提示“X 的图像”。 Xiao 【92】使用 CLIP 使通过机器人操作数据和自然语言注释进行微调来增强指令，然后使用此 CLIP 模型标记更大的数据集以进行进一步训练。LATTE 利用 CLIP 编码器更好地对齐视觉和文本信息【94】，将指令固定在需要操作的特定目标上。除了图像级方法之外，在 R+X95 中展示了如何使用 Gemini 检索给定语言任务的人类演示相关视频，然后将其用于调节策略。

2）自回归方法：与对比学习方法不同，自回归方法【225,226】通过文本生成统一视觉和语言任务。这些方法通常通过基于 Transformer 的方法合并视觉和文本信息，并按照编码器-解码器结构执行序列-到-序列任务。Patel 【227】引入一个规划器，它可以使用文本任务描述和任务执行的视频片段来生成规划。 Du【228】通过执行视觉问答 (VQA) 任务对 Flamingo 模型进行微调，将其作为奖励设计的成功检测器。ROSIE【101】使用文本-到-图像的扩散模型进行数据增强。他们在机器人操作数据集上使用修复技术，在文本输入的引导下生成各种新目标、背景和干扰项。PR2L【229】表明，VLM 提供通用的可提示表示，即基于 VLM 的内部知识和推理能力对视觉观察语义特征进行编码的嵌入，这些特征是通过提供任务上下文和辅助信息的提示引出的，优于在通用的非可提示图像嵌入上训练的等效策略。SOAR【230】利用 VLM 自主改进指令遵循（IF）技能，让 VLM 既提出语义上有意义的任务，又对执行的行为进行评分，以便从自主数据中进行改进。 OWG【231】代表一个开放世界抓取流水线，它将 VLM 与分割和抓取合成模型相结合，以解锁扎实的世界理解。RoboPoint 【232】通过使用合成数据进行微调，根据语言指令预测图像关键点affordance，适用于机器人应用。NILS 利用一套基础模型为未标记的机器人数据集生成具有不同粒度的自然语言标签，并在其上训练语言条件策略【233】。

在【120,203】的研究，调查组合视觉和语言建模，并扩展模型容量。PaLM-E【120】将 540B PaLM 117 、22B ViT 234 集成到 562B VLM 中，能够解决零样本多模态思维链 (CoT) 推理、小样本提示、无 OCR 数学推理和具身推理。 Zeng 【203】提出 Socratic 模型的概念，这是一个模块化框架，允许使用多模态提示无缝组合多个预训练模型。在这个框架内，这些模型相互作用并交换信息，最终获得新多模态能力。 PIVOT【235】将任务视为迭代式视觉问答，其中在每个步骤中，图像都使用候选机器人动作、定位或轨迹等提议的视觉表示进行注释。

视觉-语言-动作（VLA）模型：人们越来越关注视觉-语言-动作模型 (VLA)。这些方法通过将视觉、语言和动作表示为 tokens 并以端到端的方式训练模型来统一视觉、语言和动作。Gato【122】代表先驱 VLAM。作者对文本、图像、离散值和连续值进行 token 化，然后通过预测序列中的掩码 tokens 从头开始训练模型。RT-1 【96】和 RT-2 【97】利用预训练的视觉语言模型，在大规模视觉-语言数据和低级机器人动作上共同微调，以提高对新目标和命令的泛化能力。相比之下，RoboFlamingo【98】使用 IL 专门在语言条件操作数据集上进行微调，表明即使是少量的机器人演示也可以有效地使模型适应下游操作任务。同样，OpenVLA【99】利用预训练的开源 Llama 2（7B 版本）以及来自 DINOv2【236】和 SigLIP【237】的预训练功能，并在机器人操作数据集上进行微调。RT-X6 在从 22 个不同的机器人收集的组装数据集上进行训练，展示 160,266 个任务中的 527 种技能。它展示正向迁移，通过利用来自其他平台的共享经验来增强多个机器人的功能。3D-VLA【100】不依赖 2D 输入，而是建立在基于 3D 的 LLM 上，并引入一组交互 tokens 来与具身环境互动。

在基础模型（FM）中将语言命令转化为动作

由于对互联网规模数据的训练，FM 显示出语言调节机器人操作的巨大潜力。其强大的通用性使 FM 能够通过最少或零提示创建新的技能原语，从而克服构建技能库时人力和可扩展性的限制。多模态 FM，如 CLIP【29】，可将图像和语言特征对齐，为识别颜色、类别和形状等语义概念提供必要的先验知识【93】。如图所示，从 a) FM 作为更高级的规划器、b) 用于端到端学习的 FM 和 c) 用于奖励塑造 FM 的角度进行讨论。

请添加图片描述

1）FM 作为高级规划器：最近的研究已经通过各种策略将这些 FM 用于语言调节的机器人操作，包括子任务规划【79、81、152、238、239】、数据增强【69、101】、场景描述符【90】和代码作为策略（CaP）【88】。在这些方法中，FM 主要用作高级规划器，而不是智体策略。它们将语言指令转换为技能或动作原语，然后由单独的低级控制器执行。FM 还被证明能够以零样本方式预测低层密集轨迹【83】，尽管仍然需要低层位置控制器。这种将规划和执行分开的层次结构，将 FM 限制为调用外部低层控制器的角色，并阻止这些控制器利用 FM 中嵌入的大量语义知识【93】。

2）用于端到端学习的 FM：为了解决这一限制，最近的研究提倡使用端到端模型，使 LLM 策略能够直接生成语言条件动作。视觉-语言-动作 (VLA) 模型（例如 RT-2 97 和 OpenVLA 99）直接使用 LLM 和 VLM 来预测以语言形式表示的机器人动作。这些动作与互联网规模的视觉语言数据集一起进行编码和训练，随后将文本输出转换为机器人动作。Prompt2walk【240】使用由任务描述、动作和观察组成的特制文本提示，使 LLM 能够直接确定机器狗的 12 维目标关节位置。一些研究利用端到端方法的表示能力来获取指令嵌入，然后将其输入到 RL【102】或 IL【64,93,103】中，与其他信息一起训练。CLIPORT【93】，一个语言条件化的 IL 智体，将 CLIP 的广泛语义理解与端到端 Transporter 智体的空间精度相结合。Lynch 【 103 】通过在大量语言注释轨迹数据集上行为克隆来训练策略，从而能够执行全面的视觉语言运动技能。此外，大多数 VLA 都利用 FM 并进行端到端训练。

3）用于奖励塑造的 FM：此外，将语言命令转换为奖励函数已成为一种重要的指令基础策略。Fu 【14 】认为，语言条件的奖励比语言条件的策略具有更好的环境可迁移性。他们提出的 LC-RL 采用卷积神经网络作为奖励函数，将语言与视觉提示相结合以获得奖励。Language2Reward【104】直接使用 FM 作为奖励函数，为运动控制器生成奖励代码以优化机器人运动。该领域的其他著名工作包括 instructRL【189】和 Kwon 的框架【105】。此外，ROBOGEN【241】集成了 RL、动作原语、运动规划和梯度优化，每种方法都适用于特定的子任务。具体而言，RL 和梯度优化方法将语言命令转换为奖励驱动的目标以学习所需的行为，而动作原语和运动规划将语言转换为中间的可执行动作。Du 【228】使用微调的 VLM 模型来检测任务成功，从而生成奖励信号。RL 对于涉及丰富环境交互的任务特别有效，其中智体通过奖励函数引导的反复试验来学习最佳行为。

从语义信息提取、环境与评估、辅助任务和任务表征四个不同方面对语言条件学习进行比较分析。比较分析的概述结构如图所示。

请添加图片描述

此外，不同方法的总体比较可以在下表中找到：

请添加图片描述

语义信息提取

语义信息提取，是机器人操作领域中的关键范例，它有可能弥合原始感官数据和高级理解之间的差距。RGB 相机和深度相机等传感器为智体提供对周围环境的观察。从观察中提取高级信息可以增强智体的决策过程。由于目标是用自然语言指挥机器人，因此从语言指令中提取高级语义信息也很重要。因此，这里从两个重点深入研究符号信息提取技术：观察和自然语言。

环境和评估

研究人员开发不同的任务领域和基准来评估其新方法的有效性。

模拟器：模拟器在加速机器人操作的进步方面发挥着关键作用，因为它可以实现快速原型设计、全面测试以及探索在现实世界中可能难以复制的复杂场景。机器人操作领域广泛使用的几种模拟器，如下表所示。

请添加图片描述

基准：基准对于评估和提高机器人系统的能力非常重要。基于上述分析的仿真模拟器，机器人操作领域的各种基准比较见下表。

请添加图片描述

CALVIN：CALVIN【264】（Composing Actions from Language and Vision），一个基于 PyBullet 构建的开源模拟基准，用于学习长远语言条件任务。它有四个不同但结构相关的环境，因此可以用于一般游戏和评估特定任务。在这样的环境下可以执行 34 种不同的任务。

Meta-World：Meta-World 是基于 MuJoCo 物理模拟器构建的 50 个不同的机器人操作任务的集合。它包含两个广泛使用的基准，即 ML10 和 ML45。ML10 包含 ML45 训练任务的子集，分为 10 个训练任务和 5 个测试任务，ML45 由 45 个训练任务和 5 个测试任务组成。

RLbench：该基准测试【266】包括100个完全独特的、手工设计的任务，难度各不相同，它们共用一个 Franka Emika Panda 机械臂，具有一系列传感器模式，包括关节角度、速度和力、手眼式摄像头和肩上立体摄像头设置。

VIMAbench：VIMAbench【247】是一种模拟基准测试，旨在评估多模态机器人学习智体。它以 Ravens 机器人模拟器【217】为基础，提供一套 17 个代表性的桌面操作任务，可以通过结合文本和图像的多模态提示来指定。这些任务涵盖多种技能，包括目标达成、IL、新概念落地、约束满足和推理。

LoHoRavens：LoHoRavens【267】基于 Ravens 机器人模拟器【217】构建，总共包含十个长期语言条件任务。任务分为见过的任务和未见过的任务，以评估机器人的泛化性能。将机器人需要执行至少 5 个拾取和放置步骤才能完成高级指令的任务定义为长期任务。

ARNOLD：ARNOLD【268】基于 NVIDIA Omniverse 构建，配备照片般逼真且物理精确的模拟，涵盖 40 个独特的目标和 20 个场景。它包含 8 个语言条件任务，涉及理解目标状态和学习连续目标的策略，并提供 10,000 个专家演示，其中包含基于数千个人工注释的各种模板生成语言指令。

RoboGen：RoboGen【241】是一个自动化流水线，它利用基础模型（ChatGPT、Alpaca【269】）的嵌入式常识和生成功能来自动生成任务、场景和训练监督，从而实现大规模的多样化机器人技能学习。RoboGen 考虑的任务包括（铰接式）刚体操纵、软体操纵和腿部运动。此外，RoboGen 还集成任务提议、场景生成、训练监督生成和技能学习等多项功能。

Open X-Embodiment：Open X-Embodiment【6】是一个真实世界数据集，由 21 家机构合作收集的 22 个不同机器人组装而成，展示了 527 种技能和 160266 个任务。超过 100 万条机器人轨迹以 RLDS 数据格式存储，该格式将数据存储在序列化的 TFRecord 文件中，并支持不同机器人设置中的各种动作空间和输入模式，包括不同配置的 RGB 摄像头、深度传感器和点云。

如图所示一些基准的直观示意图：

请添加图片描述

辅助任务

在机器人领域，辅助任务是指与主要操作任务一起纳入的次要目标，旨在丰富机器人的学习过程并提高其整体性能。这些辅助任务包括视觉注意、重建和预测未来状态。这些额外的学习目标有两个主要优点：1）确保神经网络中的重要信息流，这对于决策至关重要。2）在训练期间引导梯度下降的方向可能会使神经网络在权重空间中处于更优化的位置。目标是在语言条件领域引入这些技术，并探索它们在语言条件方法中的应用。

1）视觉注意：为了确保正确操作目标物体，某些方法建议将视觉注意模块纳入其神经网络。该模块旨在推断任务描述的目标相关区域。Stepputtis 【143】利用 F-RCNN 主干来识别要操作的特定目标区域，并由语言指令引导。 Abolghasemi 【142】使用基于 GAN 的方法，旨在为要操纵的目标创建视觉注意掩码。Mees 【65】使用视觉 affordance 模型 VAPO【312】来学习语言条件下的可供性，并将其与智体的 7-DoF 低级策略相结合，以提高操纵正确目标的成功率。

2）重建：（视觉）重建是一种常用的策略，可确保从观察中提取基本信息。重建任务的流行模型包括 VAE 和 GAN，它们在机器人操作中作为辅助工具得到广泛应用。Shridhar 【246】利用 VAE 对体素信息进行编码和解码，旨在优化从观察中提取语义细节。Nair 【313】提出的 CC-VAE 将观测值编码到潜空间中。与原始 VAE 相比，CC-VAE 还将轨迹的初始状态作为输入。 Rahmatizadeh 【132】和 Abolghasemi 【142】使用 GAN 自动编码器重建输入图像。Ebert 【314】在其架构中重建当前帧的掩码以及当前帧与下一帧之间的流场。
3) 预测未来状态：一些方法会预测未来状态，以帮助智体更好地理解环境的动态。Paxton 【285】通过不仅根据当前观察预测下一步动作，而且预测下一个世界状态（包括 RGB、深度和姿势）以及用自然语言表达的下一个子目标来训练智体。这些辅助任务有助于智体理解其环境并将任务分解为多个连续步骤。Ebert 【314】还预测了下一帧的图像观测。它预测从当前图像到下一个图像的像素运动来实现这一点。

此外，还存在一些其他类型的辅助任务，例如预测当前帧的深度信息【65】。Zhou【66】为每个任务学习额外的基础技能组合（例如平移 → 旋转 → 抓取 → 平移），以提高在陌生环境下的泛化能力。强化学习中一些常用的辅助任务（伪奖励）如像素变化、网络特征【315】也可以应用【131】。

任务表征

使智体能够高效无缝地执行各种任务仍然是机器人操作领域的挑战。在这个领域，一个关键问题是：机器人如何有效地理解不同任务（例如抓取任务）之间的相似性，同时辨别更细微的差异，例如颜色和形状的变化？用更简单的话说，如何表示不同的任务？

该领域的两个主要概念是特定任务学习和任务无关学习。特定任务学习涉及智体仅专注于从特定任务中学习，通常是训练数据中的基于语言指令。相反，任务无关学习旨在训练一个能够在可能状态空间内达到任何可达状态的智体。鉴于语言指令不能遍历所有状态空间，这些方法通常依赖于视觉数据，通过将视觉状态视为目标来丰富目标空间。

1）特定任务学习：特定任务学习是学习语言条件策略最直观的方式。智体仅学习完成语言指令描述的预定义任务，并在给定的任务集上进行训练，由于语言编码模块固有的泛化能力，智体可能获得泛化到其他语言命令的能力。例如，“抓住红色块”和“举起红色块”在语言编码后在潜空间中应该具有相似的任务表示。Sodhani 【293】将 CMDP【316】引入 RL 框架，以便利用基于语言的辅助信息作为任务指示器。PerAct【246】使用 Transformer 结构对语言目标和 RGB-D 体素级观察进行编码，并直接输出动作序列。CLIPort【93】将 CLIP 的广泛语义理解与 Transporter 的空间精度相结合，将观察和语言映射到动作序列。Chen 【229】利用特定于任务的提示从 VLM 获取表示，以训练一个新策略，优于在通用、不可提示的图像嵌入上训练的等效策略。

此外，某些方法利用 LLM 所表现出的强大泛化能力，使经过训练的智体能够将其能力扩展到一系列不熟悉的任务和环境。Ren 【294】利用预训练的 LLM 引入操作任务中使用的工具特征表示。它使智体能够在元学习阶段根据文本描述适应新工具。Tang 【317】在面向任务的抓取中引入类似的方法，其中智体利用预训练的 LLM 提取要抓取的物体特征，并在面对现实世界抓取任务中的新目标时展示泛化能力。Palo 【318】使用 FLAN-T5319（一种在语言指令数据集上微调的 LLM）将文本指令转换为一组机器人要解决的子目标。一些方法以交互方式学习【320,321】，而一些方法通过 VLM 【322,323】得到增强。

2）任务不可知学习：与任务特定学习相反，任务不可知学习指的是从环境内的任意状态达到任意可达目标状态的能力【324】。“任务”的概念从有限、离散变为无限、连续，形式为⟨初始状态，目标状态⟩。任务不可知学习方法旨在发现在给定的环境边界内无缝遍历状态间转换的解决方案。考虑到语言指令描述的任务无法覆盖整个连续任务空间，这些方法通常将语言指令和目标图像结合起来构建一个连续任务空间，因为目标图像可以描述环境中的任何状态。一些方法【3,4,65,66,136】利用游戏数据，它指的是，人类在好奇心或其他内在动机的驱动下遥控收集的轨迹。通过在轨迹中间取两个随机观测值作为（初始状态，目标状态）对，可以收集与任务无关的数据。在这种情况下，经常使用基于视觉语言的多模态表征学习。具体而言，基于 CLIP 的方法，在与任务无关的表征中被广泛使用，该方法使用潜空间中的对比损失来对齐语言和图像。最近的研究使用图像帧【190,325】或视频数据集【203,326】结合自然语言对齐来训练基于多模态的表征，从而实现各种机器人任务中高效的下游动作模式学习、规划和导航。已经有几个基于此想法开发的框架【120,126,190,325,327,328】。

虽然视觉和语言模型为语言调节操作提供坚实的基础，但未来的研究仍面临一些挑战。

泛化能力

语言调节机器人操作系统的泛化能力，是未来研究中需要解决的一个关键方面。如果一个经过训练的智体只在特定领域或预定场景中表现良好，那么它对日常工作就没有帮助。这些系统需要泛化它们的知识和技能，以处理更广泛的场景。

智体如何理解和执行未见过的语言指令？如何在陌生环境中稳定训练的智体性能？如何确保学习或设计的技能可以在少样本甚至零样本情况下迁移到新领域？这三个问题对应于语言、视觉和控制模块的泛化能力。当前获得更好泛化能力的趋势，是利用更大的模型和更多的数据。 “看得越多，知道得越多”是其背后的动机。FM 包含日常生活中的大量知识，这对于机器人操作任务非常有益。许多研究【85,120,203】展示了利用大模型的强大泛化能力。他们研究将 FM 与控制模块相结合的方法。期待开发实质性的视觉-语言-动作模型 (VLA)，这些模型经过端到端训练，可以可靠地解决日常生活中遇到的语言条件下的操作任务。这种模型将解决当前基础模型的局限性，这些模型缺乏与现实世界环境交互的能力。这类似于反复研究食物食谱，最终尝试烹饪单面煎鸡蛋，或者广泛阅读武术手册并最终进行第一次战斗。其中包括数据稀缺、分布漂移、遗忘灾难、基准测试等问题。

数据稀缺：训练大型模型需要大量数据。 VLM 和 LLM 都是用网络规模数据进行训练的。在机器人操作领域收集这样的数据是不可行的，而且需要付出很大的努力。

2）分布漂移：训练域和目标域之间的分布漂移可能会显著影响目标域的性能。模拟环境中的感知数据分布可能与现实世界中的分布大不相同。因此，仅在模拟环境中训练的模型可能无法无缝过渡到现实世界的应用，因为性能会显著下降【66】。

3）灾难性遗忘：在机器学习领域，遗忘是指系统中先前获得的信息或知识随着时间的推移而退化的现象。这种有害影响通常被称为灾难性遗忘，已在多个研究领域得到观察，包括基础模型 (FM)、域自适应、元学习、生成模型和联邦学习【330】。在包含新场景的新数据集上训练模型可能会使模型忘记以前获得的知识。这种现象通常会导致整体任务性能下降。

4）异构具身智体：语言指令是具有明确目的的高度抽象消息，与机器人类型和机器人执行任务的过程无关。虽然不同的具身共享一个共同的语言空间【336】，但它们不同的物理属性意味着在一种具身上训练的策略通常需要重训练才能转移到另一种具身上。例如，机器人操纵器（如 Franka 和 Kuka 机器人）具有不同的尺寸、末端执行器和工作空间范围。使用 Kuka 机器人执行在 Franka 机器人上训练的语言条件策略很可能会失败，即使使用相同的指令“挑选积木”，因为该策略没有考虑到具身差异。

基准测试：现实世界中的泛化能力很难量化，因为模型在现实世界中的性能严重依赖于现实世界的硬件规格。因此，大多数方法都在模拟器中评估其结果，并且没有现实世界的基准来评估模型。然而，由于模拟器和现实世界环境之间存在模拟-到-现实的差距，模拟器中的高性能并不能保证在现实世界中的良好性能。在模拟器上构建的基准要么缺乏物理引擎【340,341】的支持，要么由物理引擎【264,265】支持，与现实世界相比存在显着差距。为了解决这些限制，有两个可能的方向。首先，构建一个配备更强大的物理引擎模拟器，以提供与现实世界非常相似的模拟。模拟和现实世界之间的差距越小，将在模拟器中训练的模型应用于现实世界场景所需的努力就越少。其次，现实世界的基准是必要的。组织机器人竞赛，为平台提供现实场景（如家庭和桌面环境），有助于评估模型在现实环境中的通用性【342,343】。

6）超越网络规模的数据：真的需要大量数据才能擅长操作和语言理解吗？人类永远无法访问所有网络规模的数据，但通过多年接触相对有限的数据（视频、语言和动作），也变得精通交流和目标操作。数据量明显小于训练 FM 的网络规模数据集。深度学习模型对数据要求极高，需要大量信息才能很好地泛化。当数据有限时，深度学习模型更容易过拟合训练集中存在的虚假相关模式（捷径），但不能推广到现实世界场景。这凸显一个关键的限制：仅仅依靠数据驱动的方法可能不足以解决操作和其他复杂任务。

安全问题

和机器与人交互中的安全有关。主要存在 4 个问题：

语言歧义：主要安全问题之一是人类语言固有的歧义性。自然语言指令通常留有解释的余地。例如，给出“从桌子上移走化学品”的指令，用户可能希望机器人小心地将化学品容器从桌子上移到指定的存储区域，避免泄漏或事故，确保安全。然而，这个指令可能会被解释为通过翻倒或错误处理容器来物理移除化学品，从而导致化学品泄漏和潜在伤害的危险情况。

2）处理极端情况：极端情况代表不寻常、意外或具有挑战性的场景，对语言调节的机器人操作提出重大挑战。这些情况在现实场景中很少发生，但可能非常重要，需要引起高度重视。处理这些情况是一个重大挑战。当尝试使用这些收集到的极端情况重新训练网络时，它会引入一个关键问题——模型遗忘或灾难性遗忘，如前所述。改变极端情况的频率可能会导致其他情况出现不可预见的模型行为。这类似于“拆东墙补西墙”的概念。

3）从故障中恢复：当机器人在物理世界中操作时，环境的动态特性可能会导致操作失败【346,347】最近的研究已经应用人-在-环交互式模仿学习来密切监视和使用语言指令纠正机器人行为【348–350 】。

实时性能：实时性能是机器人操控的另一个障碍，尤其是在依赖会延长推理时间的大型模型 (LLM、VLM) 时。这些模型通常具有较长的推理时间，因此很难保证实时响应。机器人环境很少是静态的，会因物体移动、人机交互或环境变化而不断变化。为了保证安全，机器人系统必须立即适应这些动态变化。然而，大型模型的缓慢推理时间会延迟决策，延长控制回路并阻碍系统快速响应的能力，从而危及实时安全性。