自主机器人将强化学习与基础模型相结合：方法与观点

三谷秋水

于 2025-02-02 00:15:00 发布

阅读量735

点赞数 23

分类专栏：大模型机器学习人工智能文章标签：语言模型人工智能机器人机器学习深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/145367652

版权

大模型同时被 3 个专栏收录

716 篇文章

订阅专栏

机器学习

524 篇文章

订阅专栏

人工智能

420 篇文章

订阅专栏

24年10月来自瑞士 SUPSI 等大学的论文“Integrating Reinforcement Learning with Foundation Models for Autonomous Robotics: Methods and Perspectives”。

基础模型 (FM) 是在大量未标记数据集上进行预训练的大型深度学习模型，在理解复杂模式和生成复杂输出方面表现出强大的能力。然而，它们往往难以适应特定的任务。强化学习 (RL) 允许智体通过交互和反馈进行学习，它提供一个令人信服的解决方案。将 RL 与 FM 集成使这些模型能够实现预期结果并在特定任务中表现出色。此外，通过利用 FM 的推理和泛化能力，可以增强 RL。这种协同作用正在彻底改变包括机器人技术在内的各个领域。知识和泛化能力丰富的 FM 为机器人提供有价值的信息，而 RL 则通过现实世界的交互促进学习和适应。

这篇综述全面探讨这一交集，研究如何整合这些范例以推进机器人智能。分析基础模型作为动作规划器的用途、机器人特定基础模型的开发以及将 FM 与 RL 相结合的共同利益。此外，提出集成方法的分类，包括大语言模型、视觉-语言模型、扩散模型和基于Transformer的 RL 模型。还探索 RL 如何利用从 FM 中学到的世界表征来增强机器人任务执行。

该综述旨在综合当前的研究并强调机器人推理和控制中的关键挑战，特别是在集成 FM 和 RL（两种快速发展的技术）的背景下。

追求具身智能（即机器人感知、理解并与物理环境有效互动的能力）仍然是人工智能 (AI) 研究的核心目标。最近，两种强大范式——基础模型 (FM) 和强化学习 (RL) 的融合在推进这一目标方面显示出巨大的潜力。基础模型，包括大语言模型 (LLM)、生成式预训练 Transformer 和扩散模型，在处理和生成各种数据类型（如文本、代码和图像）方面表现出色。这些模型在庞大的多模态数据集上进行训练，包含丰富、可泛化的知识表示。另一方面，强化学习为智体提供一个框架，使其能够通过与环境的交互来学习最佳行为。FM 和 RL 之间的潜在协同作用在机器人技术领域尤其引人注目。基础模型可以作为 RL 智体的强大先验，提供广泛的世界知识、奠定语言理解基础并实现快速的任务适应。相反，RL 可以“具身”这些模型，使它们能够与动态物理环境交互并从中学习。这种集成可以使机器人系统具有增强的适应性、通用性和整体智能。

如图所示：本文分析如何将 RL 与不同的 FM 集成，包括 LLM、VLM、扩散模型、世界模型和基于 Transformer 的 RL 模型。该图直观地表示创建的五个类别。

请添加图片描述

如图所示该综述的结构：从入门概念到 FM 和 RL 的高级集成。重点介绍 FM 的准备工作、它们的应用、与 RL 的集成以及 RL 增强推理能力的分类，最后得出结论和未来方向。

请添加图片描述

基础模型作为行动规划器

基础模型 (Bhat，2024) 能够将复杂任务分解为更简单的步骤（任务规划）并确定执行这些步骤的最佳顺序（排序）。它们指导机器人精确地执行动作（执行）并生成奖励信号以改进行为（奖励采样），此外，LLM 可以生成代码来自动化这些过程，从而提高效率和适应性（Ma，2023b）。 LLM 使机器人能够更有效地规划和执行任务，利用其先进的语言和推理能力来提高机器人系统在动态环境中的性能。

机器人基础模型

最初，机器人研究通常侧重于将 LLM 与机器人系统集成，以增强其在特定任务中的能力。然而，这些应用的范围有限，无法提供全面的机器人自主性。此后，该领域已发展到开发机器人基础模型，其特点是定制的 Transformer 架构、特定领域的训练、端到端学习以及与模仿学习 (IL) 或 RL 的集成。

Zeng (2022) 引入 Socratic Models 框架，该框架允许模块化模型通过语言进行通信，从而通过联合推理增强机器人等现实世界的应用。作为补充，Shah (2023) 研究 LM-Nav，它结合预训练的视觉导航和语言解析模型来执行任务而无需微调，从而大大降低监督成本。在机器人操控领域。这些进步跨越 2021 年至 2023 年，说明 LLM 在机器人技术中的集成不断发展，推动系统更加智能、自适应和情境感知。Gao (2023) 提出“基于物理的机器人操控视觉语言模型”，通过将物理属性纳入机器人的规划和操控任务中，增强机器人与现实世界物体的交互。在此基础上，Zhang (2024b) 开发 MotionGPT，它可以根据文本和姿势生成逼真的人体动作，对数字动画和物理机器人交互都产生了重大影响。Huang (2024b) (2023c) “Look Before You Leap”将机器人任务规划定义为概率滤波，从而提高复杂、长期任务的性能。作为这些努力的补充，Zha (2023) 使用 DROC 增强机器人学习，该系统通过持续的人为反馈来调整和提高机器人性能，减少对持续人为干预的需求，并使机器人能够更好地响应人类的动态需求。为了进一步推进这些进步，Sun (2024b) 在“Beyond Text”中将语音提示与文本相结合，通过解决口头指令中的歧义来增强机器人导航和决策能力。这种方法改善人机交互，使交流更加直观和有效。这些研究从 2023 年到 2024 年，突出先进模型在机器人技术中的实际应用，推动更智能、适应性更强、上下文-觉察能力更强的系统，无缝融入日常生活。

为了开发用于机器人的定制 Transformer 架构和数据集，Padalkar (2023) OpenX 实施项目引入最大的开源真实机器人数据集 Open X-Embodiment 数据集，从而显著推动该领域的发展，该数据集包括来自全球 34 个研究实验室的 22 个机器人实施的 100 多万条机器人轨迹。这个广泛的数据集支持开发两个关键模型：RT-1（Brohan 2022）和 RT-2（Brohan 2023），一个视觉-语言-动作模型。RT-1 是一种高效的基于 Transformer 的架构，其变体 RT-1-X 在机器人数据混合上进行训练，通过利用跨平台经验增强机器人能力，在不同任务中表现出积极的迁移和改进的性能。RT-2 是一个大型视觉语言模型，其变体 RT-2-X 在新兴技能评估中表现出色。 RT-2-X 表现出卓越的空间理解能力，以及根据细微的语言变化调整机器人行为的能力。这些进步凸显 RT-1-X 和 RT-2-X 模型在机器人学习和控制方面的变革潜力，为能够有效适应新机器人、任务和环境的通用机器人策略奠定基础。在这些工作的基础上，出现了其他机器人基础模型，如 Ma (2024b) 提到的 Octo (Oier 2024) 和 OpenVLA (Kim 2024a)。Octo 和 OpenVLA 是完全开源的视觉-语言-动作模型的例子，它们在特定任务中可以实现与 RT-2-X 相当甚至超越 RT-2-X 的性能。

基础模型也已应用于动态系统的学习和控制领域，其中机器人技术是该领域的一个重要应用领域。Forgione (2023) 和 Du (2023c) 提出基于 Transformer 的预训练模型，用于对一类动态系统响应任何查询输入序列的输出进行零样本预测，Busetto (2024) 提出基于 Transformer 的预训练模型，用于上下文状态估计。此外，正如 Goel 和 Bartlett (2024) 所展示的那样，Transformer 架构可以以任意精度近似卡尔曼滤波器和线性二次高斯控制器。这些进步凸显基础模型为传统动态控制系统引入新方法和新范式的潜力，促进面向动态系统类别（而不是单个特定系统）数据驱动估计和控制合成的转变。

强化学习和基础模型通过集成强大的学习技术，显著提升了机器人的能力。基础模型为 RL 提供了预训练的洞察力，增强了决策能力并实现了复杂任务所必需的环境解释。相反，RL 可以对 FM 进行微调，增强其适应性和对反馈的实时响应，这对于动态设置至关重要。这种协同作用推动智能系统的发展，使任务执行更加自主和精确。如图描述 RL 和 FM 之间的相互作用，突出互惠互利：FM 增强 RL 能力（蓝色轮廓），RL 将 FM 应用于实际应用（红色轮廓）。例如，在图片的下半部分，“Transformer RL”和“基于 RL 的微调”被展示为使用 RL 训练大规模 FM（例如 Transformer RL (TRL)）的实例。标题为“RL 作为 LLM 和 VLM 的原始生成器”的框，指的是使用 RL 为 LLM 和 VLM 在各自的应用中奠定基础，因此用红色和黄色填充。在图像的上半部分，说明各种 FM 增强 RL 功能的场景：LLM 有助于根据任务描述进行奖励或策略生成的符号推理，VLM 通过场景理解来增强奖励或策略生成，机器人状态估计通过使用视频预测模型 (VPM) 或世界模型进行视频比较来提供信息，扩散模型通过处理低级轨迹来促进奖励、策略和数据增强。

请添加图片描述

强化学习的一般框架和关键历史发展

作为一种基本的机器学习技术，强化学习使智体能够通过与环境交互来学习决策，以最大化奖励，这是一种设计智能机器人的有前途的方法。

强化学习试图在考虑智体（例如机器人）与其环境的交互的情况下进行最佳决策（Sutton 1988；Beck 2023）。在强化学习框架中，几个核心组件在指导智体的行为方面发挥着重要作用。

首先，状态（S），代表智体在其环境中可能遇到的所有可能情况。在任何给定时刻，智体都会发现自己处于特定状态，促使它考虑最佳操作（例如，最大化奖励的操作）。这些动作（A）是智体可用的一组选择，允许它与环境交互并影响环境。

策略 (π) 表示在状态为 s 时采取行动 a 的概率（例如，这是智体的策略）π(a|s) 。本质上，它是一种映射，引导智体从每个状态到特定操作，确定其整体行为以及它如何响应各种情况。当智体采取行动时，它会通过奖励函数 R(s_t, a_t) 从环境中接收反馈，该函数根据时间 t 时每个动作的结果分配即时奖励 ®。此奖励信号可帮助智体了解如何采取最佳行动以实现长期目标。

两个关键函数支持智体随着时间的推移做出更明智的决策。价值函数 (V) 估计处于特定状态的预期长期回报，让智体了解在当前策略下该状态的前景如何。另一方面，Q 函数 (Q) 稍微详细一些。它不仅评估状态的预期回报，还评估在这些状态下采取特定行动的预期回报，使智体能够评估特定情况下特定行动的质量。

这些组件共同构成 RL 框架的基础，使智体能够通过从经验中学习并随着时间的推移优化其策略来有效地导航其环境。

RL 过程包括四个重要阶段。首先，在初始化期间，设置智体的状态和动作空间，以及初始策略和必要参数。在交互阶段，智体采取行动并从环境中接收反馈，了解其行动如何影响结果。然后，在学习阶段，智体使用此反馈来更新其策略，逐步改进其策略以最大化未来奖励。最后，在评估阶段，使用平均奖励或成功率等指标评估智体的表现，从而深入了解其学习的有效性。

贝尔曼方程是 RL 的基本构建块，表示状态值与智体可以预期未来奖励之间的递归关系。

在强化学习中，由于许多环境都表现出随机行为，因此智体在特定状态下的行为结果可能是不确定的。这种不确定性由转换概率 P(s_t+1|s_t,a_t) 捕获，它量化了智体在状态 s_t 下采取行动时转换到状态 s_t+1 的可能性。

强化学习中最大的挑战之一是设计有效的奖励函数。设计不良的奖励系统可能会误导智体，导致行为不理想或意外。制定正确引导智体实现良好结果的奖励至关重要。另一个重大挑战是状态空间建模。如果状态没有准确或全面地表示，智体可能难以了解环境的真实动态，这可能会妨碍其做出最佳决策的能力。这两个要素——奖励设计和状态建模——对于成功实施强化学习至关重要。

强化学习依赖于几种流行的算法，每种算法都有自己的优势。 DQN（深度 Q 学习）（Mnih，2013、2015）是最广泛使用的方法之一，它利用神经网络来近似 Q 值并优化具有离散动作的环境中的预期奖励。PPO（近端策略优化）（Schulman，2017）是另一个受欢迎的方法，它以通过限制剧烈的策略变化来提高训练稳定性而闻名；这使得 PPO 特别适合涉及连续动作的任务。

SAC（Haarnoja，2017）也发挥着重要作用，它专注于奖励最大化和策略熵以鼓励探索，这有利于连续控制任务。最后，Dreamer（Hafner，2019；Wu，2023）因其使用世界模型进行提前规划和提高样本效率而获得认可，使其能够有效地处理复杂环境中的长期任务。

将 RL 与基础模型相结合

RL 越来越多地应用于增强机器人能力。机器人学习系统的进步越来越多地受益于将机器学习技术（尤其是 RL）与大规模互联网数据相结合。Bhateja (2023) 探讨使用大量人类视频数据集对机器人离线 RL 系统进行预训练的概念。这种方法称为 V-PTR，通过时间差分学习开发价值函数（Sutton 1988），解决通常缺乏动作和奖励注释的视频数据适配，以用于 RL 的挑战。该方法表明，在这些数据集上预训练的模型可以显著提高机器人操作任务的性能，这表明离线 RL 在数据丰富但没有明确标记为 RL 使用的机器人技术中具有更广泛的应用。基于 RL 和策略驱动模型之间的协同作用，Liu （2024）引入 RL-GPT，这是一个分层框架，将直接在 LLM 中编码的高级决策与 RL 的精确性和适应性相结合，以微调较低层的操作。该框架显著提高效率，并在 Minecraft 等复杂环境中表现出最先进的性能（Guss，2019），凸显将结构化策略模型与 RL 相结合以解决机器人和虚拟模拟中复杂任务的潜力。Kumar（2022）进一步探索机器人预训练的潜力，其展示一种方法，利用离线 RL 使用最少的任务特定数据快速适应新任务。他们的框架名为 PTR，结合保守的 Q 学习来学习策略和后验微调策略，使机器人只需十次演示即可在新环境中学习新任务。这种方法不仅简化学习过程，还增强机器人在不同任务中的泛化能力，强调在机器人学习范式中强大预训练阶段的重要性。Carta (2023) 通过一种名为 GLAM 的在线 RL 方法深入研究 LLM 的抽象知识与动态环境中实际应用之间的一致性问题。通过与环境交互不断更新基于 LLM 的策略，GLAM 寻求改进 LLM 的决策能力，增强其泛化和适应现实场景的能力。这项研究强调交互式和自适应学习框架在充分利用 LLM 在复杂决策任务中的潜力方面的关键作用。最后，Huang (2023b) 提出一种新解码策略，用于通过所谓的“落地解码”将 LLM 与具身智体集成。该策略使用概率语言模型和落地环境模型来生成适合具身智体现实且上下文适当的动作序列。这种双模型方法，有助于在具身环境中更有效地完成任务，强调协调高级语言知识与低级环境交互的重要性。为了解决人类反馈在 RL 中的整合问题，Ma (2023b) 开发 Eureka 框架，利用 GPT-4（Achiam 2023）自主优化 RL 中的奖励函数，这显著改善机器人的训练过程，从而完成高度复杂的机器人操作任务。

如图所示说明不同的大型预训练模型架构如何影响 RL 集成策略和智体的物理落地，突出显示不同方法中输入/输出关系和模型大小的变化。

请添加图片描述

大语言模型增强 RL 智体的推理能力

下表概述用于 RL 任务的不同 LLM 框架：

请添加图片描述

相当一部分研究集中于利用 FM 来自动化和改进奖励函数的设计，这是 RL 中的一个关键组成部分。人们还在探索 FM 在 RL 框架内的策略创建、调整和理解用户输入。最近，有几篇论文提出利用 LLM 的创新方法（例如 Achiam (2023) 或 Dubey (2024)）来解决奖励函数设计和其他 RL 方面的挑战。通过利用其大规模预训练和对自然语言问题的上下文推理能力，LLM 可以执行高级推理来协助 RL 完成复杂的机器人任务。虽然 LLM 无法直接控制机器人，因为它们无法发出控制命令，但它们在评估 RL 智体的性能和理解任务的上下文方面非常有价值。

如图说明创建和描述的分类，其中红色椭圆包含与 RL 集成的 LLM。每个椭圆代表与 RL 集成使用的不同模型类别，其中列出相关论文/架构的名称。椭圆之间的交叉点突出显示在单个方法中结合使用多种类型预训练模型的情况。

请添加图片描述

通过利用强化学习学习的基元将 LLM 生成的规划应用到现实世界中，研究人员正在开发更有效、适应性更强的机器人系统，这些系统可以根据自然语言指令理解和执行复杂的任务。该领域的未来研究可能会侧重于开发改进的落地机制，扩大机器人可以执行的任务范围。

用于基于 RL 决策的视觉-语言模型

研究中的另一个主要主题是使用 FM 与图像和文本协同工作，以指导 RL 智体中的探索和技能获取。视觉感知对于发现最佳行为至关重要，尤其是在奖励稀疏的环境中（特别是奖励定义困难的情况下）。VLM 为解决这一挑战提供了一种有希望的途径，将文本和视觉都作为输入：视觉语言模型可用于在学习过程中动态调整奖励函数。通过处理来自机器人的实时感官数据（例如，相机图像），该模型可以识别意外情况或与预期规划的偏差。此信息可用于在线修改奖励函数，惩罚导致不良结果的行为并鼓励探索替代策略。例如，如果试图拿起杯子的机器人遇到障碍物，基础模型可以调整奖励函数以优先绕过障碍物，然后再恢复抓取尝试。在机器人强化学习中使用 VLM 是 RL 一个快速发展的子领域，人们正在探索各种方法来利用这些模型完成复杂任务。这些论文的共同研究趋势包括利用 VLM 定义奖励函数、创建控制策略或使用 RL 基元增强 VLM。这些方法基于单模态 LLM 所用的相同方法，但利用图像的表征能力。

与 LLM 相比，VLM 在机器人应用中提供更深层次的基础，因为它们直接将视觉感知与文本形式的输入任务相关联，并且不需要单独的视觉模块进行感知。重点是视觉理解功能提供的独特功能，这些功能可以在物理环境中实现更深刻的模型基础。许多机器人任务涉及与充满各种感官信息的复杂环境进行交互。在多模态数据集上训练的基础模型可以利用其处理不同数据模态（文本、图像、音频）的能力来构建更丰富的奖励函数。想象一个负责分类洗衣的机器人。VLM 可以分析衣服的图像以识别布料类型和颜色，并将此信息与文本指令相结合，以创建奖励函数，该函数促进基于预定义类别的分类，从而执行多模态奖励学习。

下表总结应用于基于 RL 决策任务的 VLM：

请添加图片描述

视觉语言模型，例如 Radford (2021) 和 Ramesh（2021），可用于基于提示和图像帧作为输入的任务评估（Adeniji 2023；Cui 2022）。由于这种能力，它们可以如预期的那样有效地用于现实世界机器人操作任务中的 RL 奖励生成（Lee 2024b）。虽然 LLM 主要利用文本信息来生成 RL 中的奖励函数，但 VLM 扩展此功能以纳入视觉输入。VLM 可以理解和解释对环境的视觉观察，使它们能够根据视觉信号评估任务性能。这在 RL 场景中尤其有价值，因为其中所需行为最好以视觉方式定义，例如机器人操作任务或复杂环境中的导航。VLM 可用于直接从视觉输入生成奖励，如 Mahmoudieh（2022）、Rocamonde（2023）和 Baumli（2023）所观察的，从而无需手动奖励工程。 VLM 还可用于从以图像和文本形式提供的演示或说明中学习（Yang，2024），从而实现更符合人类的学习方式。在 RL 任务评估中集成视觉语言模型代表对仅依赖文本或数字反馈的传统方法的重大进步。通过利用视觉理解的力量，VLM 可以实现更有效的学习，从而使智体能够更好地推广到新任务和新环境。这种方法对于在广泛的应用中开发更具适应性的机器人大有裨益。

在 Mahmoudieh (2022)、Rocamonde (2023) 和 Adeniji (2023) 的论文中，VLM 被用作零样本奖励模型，根据任务的自然语言描述提供奖励信号。这种方法消除手动设计奖励函数或收集大量人工反馈的需要。这些模型可以将文本形式的高级任务描述与图像流相关联，仅通过视觉信息对任务完成情况进行在线评估。例如，Baumli (2023) 研究使用预训练的 VLM（如 CLIP（Radford 2021））来生成强化学习的奖励函数，而在 RoboCLIP（Sontakke 2024）中，奖励是通过评估机器人的动作与提供的示例的匹配程度来生成的。VLM 提供来自自然语言目标的奖励信号，使机器人无需针对特定环境进行微调即可学习。类似地，Code as Reward（Venuto，2024）利用 VLM 通过代码生成奖励函数，从而减少直接查询 VLM 的计算开销。（Wang，2024b）采用略有不同的路线，查询 VLM 以根据任务描述表达对图像观察对的偏好，然后从这些偏好中学习奖励函数。

VLM 的应用也扩展到预训练或表示学习。Yang（2024）使用不同的图像演示数据集预训练多任务策略并微调 VLM 作为奖励模型。Chen (2024b) 通过将 VLM 用作可提示表示来初始化策略，可提示表示是基于 VLM 内部知识对语义特征进行编码的嵌入。Ma (2024a) 提出 ExploRLLM，它利用 VLM 的归纳偏差来指导 RL 中的探索并重新制定动作和观察空间。LIV (Ma 2023a) 扩展这一概念，提出一个统一的目标，该目标将视觉语言表示和奖励学习结合起来，使用无动作视频与文本注释配对。这种方法开发一种多模态表示，它隐式地捕获一个通用价值函数，从而能够通过语言或视觉目标来指定任务。

这些论文在实验设置和它们处理的具体任务方面也有所不同。有些专注于模拟环境，例如 Rocamonde (2023) 中的人形机器人 (MuJoCo (Todorov 2012)) 和 Di Palo（2023）的堆叠任务。其他工作，如Yang（2024），在现实世界的机器人操作任务上测试他们的方法。任务范围从经典的控制问题（如 CartPole）到涉及刚性、铰接和可变形体的复杂操作任务。在方法论方面，大多数论文都采用某种形式的 RL，通常与 IL 或行为克隆等其他技术结合使用。所使用的具体 RL 算法各不相同，包括 SAC、PPO 和 DQN。这些论文的提示策略和网络架构也有所不同，这取决于具体任务和所使用的 VLM 的功能。

Cui（2022）介绍 ZeST，这是一个研究更通用和直观的目标指定形式框架，例如域外图像和语言指令。ZeST 测量智体的观察结果与用户指定目标之间的相似性，高相似性意味着目标满意度。

总之，这些论文共同强调 VLM 改善机器人强化学习的潜力，它通过图像提供更直观、更高效的方式来指定任务、生成奖励和获取复杂行为。然而，挑战依然存在，包括需要进一步研究提示策略、VLM 生成的奖励中可能存在的偏见，以及开发更强大的方法将知识从模拟迁移到现实世界场景。

扩散模型赋能强化学习机器人控制

扩散模型因在图像生成方面的成功而闻名（Rombach，2022；Esser，2024），在强化学习中用于奖励和策略生成。与仅使用文本或视觉输入的模型不同，扩散模型还可以直接在轨迹空间中运行，从而生成连续动作。

这些模型学习给状态、奖励或策略参数添加噪声的逆扩散过程，从随机噪声中生成不同的策略。这种方法有几个优点：
• 行为多样性：通过生成广泛的控制策略来促进对新解决方案的探索和发现。
• 连续动作空间：非常适合具有连续动作空间的任务，避免离散化导致的次优性能。
• 样本效率：从有限的演示中学习，减少大量数据收集的需要。

下表概述强化学习中的扩散模型：

请添加图片描述

最近的研究表明，扩散模型可以为机器人任务生成多样化、高性能的策略，例如操纵（Chi，2023）、运动（Huang，2024b）和导航（Sridhar，2024）。它们能够根据语言指令或目标提示进行调节，从而增强适应性，使零样本策略生成成为可能。虽然仍处于开发早期，但强化学习的扩散模型代表强化学习研究的一个重大转变，有可能使机器人能够执行更复杂的任务并具有更流畅的控制动作。扩散模型非常适合机器人中的低级控制，因为它们能够处理连续的动作空间，这对于精确和流畅的控制至关重要。它们的迭代过程允许进行微调，使其成为抓取和平衡等复杂任务的理想选择。与专注于高级决策的大语言模型和视觉语言模型不同，扩散模型擅长生成低级控制所需的详细输出。此外，它们能够模拟复杂的动力学并管理噪声和不确定性，这使得它们在现实世界的机器人环境中具有很强的鲁棒性。这与它们的去噪能力和随机性相结合，提高它们生成精确控制动作的有效性。因此，扩散模型越来越多地被整合到机器人控制的强化学习中。

其分成三个方面：扩散模型应用于离线 RL、扩散模型应用于轨迹规划、状态探索、目标生成以及扩散模型应用于策略生成和表征。

强化学习利用视频预测和世界模型

机器人技术中任务的复杂性和多样性日益增加，需要开发更具适应性和智能的系统以及更现实的环境表示以进行数据收集和训练。基础模型拥有庞大的知识库，并通过对大量数据集进行预训练获得泛化能力，为应对这一挑战提供一条有希望的途径。这些模型已被用于学习环境和任务的有效表示。然而，成功地将作为世界表示的基础模型整合到增强数据和基于模型的强化学习技术上，以有意义地训练机器人，取决于解决一个基本问题：弥合不切实际的模拟器和现实世界经验之间的差距。虽然这些模型擅长处理抽象表示，但它们有效模拟现实场景的能力取决于在这些表示与它们抽象的现实世界目标或概念之间建立有意义的联系。

其包括两个方面：视频预测学习机器人任务和基础世界模型用于基于模型的 RL。

将视频预测模型 (VPM)（例如，根据给定的先前帧序列，预测图像或视频序列中未来帧的基础模型）与 RL 相结合，可让机器人模拟和预测动态环境中的未来状态，从而增强机器人的训练。视频预测模型可以预测环境将如何演变，使 RL 智体无需与现实世界持续互动即可规划行动并做出决策。这种集成通过预测未来场景并减少对现实世界试验的依赖，实现更高效的数据学习和更安全的探索。然而，这种方法的成功取决于预测的准确性，以及管理增加的计算复杂性，这通常限制使用单个预训练模型执行各种机器人任务的可能性。因此，研究中的一个常见趋势是针对特定应用训练或微调不同的 VPM，但未来的工作可以集中在扩展 VPM 以提高其泛化能力上。

许多 RL 算法依赖于环境动态的精确模型来规划和做出决策。基础模型，特别是那些在包含物理交互和模拟数据上训练的模型，可用于学习这些动态模型。然后，RL 智体可以使用学习的模型来预测其行为的后果（例如，其未来状态）并做出明智的决策。FM 可用于创建机器人环境的内部模拟。通过处理过去的经验并利用其对物理概念的了解，该模型可以预测各种行为最可能的结果。然后，这些预测可用于塑造奖励函数，引导智体采取导致理想结果的行为，并惩罚可能导致失败的行为。世界模型 (Ha & Schmidhuber 2018) 已成为提高机器人学习样本效率有希望的途径，特别是在基于视觉模型的 RL 领域。

下表重点介绍 RL 中的世界和视频生成模型。它比较其他类别的模型框架、数据集类型及其实验设置。通过这种比较，可以深入了解基础视频和世界模型在基于模型 RL 中预测和与环境交互的实际用途。

请添加图片描述