机器人操作的扩散模型：综述

三谷秋水

已于 2025-05-18 17:25:11 修改

阅读量841

点赞数 26

分类专栏：计算机视觉智能体机器学习文章标签：机器人人工智能计算机视觉深度学习

于 2025-05-12 03:00:00 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/147880894

版权

机器学习同时被 3 个专栏收录

560 篇文章

订阅专栏

智能体

517 篇文章

订阅专栏

计算机视觉

470 篇文章

订阅专栏

25年4月来自德国 KIT 的论文“DIFFUSION MODELS FOR ROBOTIC MANIPULATION: A SURVEY”。

扩散生成模型在图像和视频生成等视觉领域取得了显著成功。近年来，它们在机器人技术领域，尤其是在机器人操控领域，也逐渐成为一种颇具前景的方法。扩散模型利用概率框架，并以其对多模态分布的建模能力以及对高维输入和输出空间的鲁棒性而脱颖而出。本综述全面回顾机器人操控领域中最先进的扩散模型，包括抓取学习、轨迹规划和数据增强。用于场景和图像增强的扩散模型，处于机器人技术和计算机视觉的交叉领域，可用于基于视觉的任务，以增强泛化能力并应对数据稀缺性。本文还介绍扩散模型的两个主要框架及其与模仿学习和强化学习的集成。此外，本文还讨论常见的架构和基准测试，并指出当前最先进的基于扩散方法所面临的挑战和优势。

扩散模型 (DM) 的核心思想，是将未知目标分布 p_data(x) 逐渐扰动为一个简单的已知分布，例如正态高斯分布，该分布首次出现在 (Sohl-Dickstein et al., 2015) 中。为了生成新数据，需要从初始已知的“简单”分布中采样点，并估计扰动以迭代地逆转扩散过程。如图还可视化正向和反向扩散过程。基于扩散的建模主要有两种方法，均基于 Sohl-Dickstein et al. (2015) 的原创工作。第一组方法是基于分数的 DM，其中学习数据的对数似然梯度以逆转扩散过程。这种基于分数的生成式建模首次出现在 Song 和 Ermon (2019) 中。在另一组方法中，训练网络以直接预测在正向过程中添加的噪声。该方法最早出现在降噪扩散概率模型 (DDPM) (Ho et al., 2020) 中。

请添加图片描述

Song 和 Ermon (2019) 提出的基于分数的原始 DM 在机器人操作领域很少使用。这可能是由于其采样过程效率低下。然而，它为许多后来开发的 DM（例如 (Song et al., 2021b; Karras et al., 2022)，包括 DDPM Ho et al. (2020)）构成了重要的数学框架和基础。虽然 DDPM 也很少使用，但常用的降噪扩散隐式模型 (DDIM) (Song et al., 2021a) 方法源自 DDPM。DDIM 仅改变 DDPM 的采样过程，同时保留其训练过程。因此，理解 DDPM 对于 DM 在机器人操作中的许多应用至关重要。

扩散模型 (DM) 的主要缺点之一是迭代采样，这导致采样过程相对较慢。相比之下，使用 GAN 或变分自编码器 (VAE)，只需对训练好的网络进行一次前向传播即可生成样本。在 DDPM 和 SMLD 的原始公式中，正向和反向过程中的时间步长（噪声级别）相等。虽然降低噪声级别数量可以加快采样过程，但却是以牺牲样本质量为代价的。因此，已有大量研究致力于改进 DDPM 和 SMLD 的架构和采样过程，以提高 DM 的采样速度和质量，例如 (Nichol and Dhariwal, 2021; Song et al., 2021a, b)。

将 DM 应用于机器人操作必须考虑两个要点。

首先，在扩散过程中，给定初始噪声，样本仅基于训练好的噪声预测网络或条件得分网络生成。然而，机器人的动作通常依赖于具有多模态感官数据和机器人本体感觉的模拟或现实世界观测。因此，去噪过程中使用的网络必须以这些观测结果为条件（Chi et al., 2023）。不同算法对观测结果的编码方式不同。有些算法使用真值状态信息，例如物体位置（Ada et al., 2024）和物体特征，例如物体大小（Mishra et al., 2023; Mendez-Mendez et al., 2023）。在这种情况下，由于传感器不准确、物体遮挡或其他对抗性设置（例如闪电条件），模拟到真实的迁移具有挑战性，因此大多数方法直接以视觉观察为条件，例如图像（Si et al., 2024; Bharadhwaj et al., 2024a; Vosylius et al., 2024; Chi et al., 2023; Shi et al., 2023）、点云（Liu et al., 2023c; Li et al., 2025）或特征编码和嵌入（Ze et al., 2024; Ke et al., 2024; Li et al., 2024c; Pearce et al., 2022; Liang et al., 2024; Xian et al., 2023; Xu et al., 2023）轨迹生成与机器人操作的轨迹生成类似（Chi et al., 2023），其中可以直接解决对抗环境的鲁棒性问题。

其次，与图像生成中像素在空间上相关的不同，在机器人操作的轨迹生成中，轨迹的样本在时间上是相关的。一方面，生成完整的轨迹不仅可能导致长期预测的高不准确性和误差累积，而且还会阻止模型对环境变化做出反应。另一方面，一次预测一个动作的轨迹会增加复合误差效应，并可能导致模式之间频繁切换。因此，轨迹大多是按子序列预测的，具有滚动时域，例如（Chi et al., 2023; Scheikl et al., 2024）。

网络架构

对于去噪扩散 (DM) 的实现，选择合适的噪声预测网络架构至关重要。目前用于去噪扩散网络的主要架构有三种：卷积神经网络 (CNN)、Transformer 和多层感知器 (MLP)。

Transformer 是处理高维输入和输出空间最强大的架构，其次是 CNN，而 MLP 的计算效率最高。对于处理视觉数据（例如原始图像）而言，这在机器人操控中是一项重要任务，因此应该选择 CNN 或 Transformer 架构。此外，虽然 MLP 的计算效率最高，但其他两种架构也可以实现实时控制，例如将滚动时域控制（Mattingley，2011）与更高效的采样过程（例如 DDIM）相结合。

采样步数

除了网络架构之外，训练和采样迭代次数的选择也是一个关键决策。每个样本必须经过多个步骤的迭代去噪，这可能非常耗时，尤其是在使用大型去噪网络和较长的推理时长（例如 Transformer）的情况下。在 DDPM 框架下，训练期间的噪声级数量等于推理时的去噪迭代次数。这阻碍了其在许多机器人操作场景中的应用，尤其是在需要实时预测的场景中。

因此，许多方法采用 DDIM，其中推理期间的采样迭代次数与训练期间使用的噪声级数量相比可以显著减少。训练期间噪声水平的常见选择是 50-100，但推理期间仅使用五到十步的子集（Chi et al., 2023; Ma et al., 2024b; Huang et al., 2025b; Scheikl et al., 2024）。只有少数方法使用了更少的采样步骤（3-4）（Vosylius et al., 2024; Reuss et al., 2023）或更多的采样步骤（20-30）（Mishra and Chen, 2024; Wang et al., 2024b）。

Ko et al.（2024）记录了当使用 DDIM 将采样步骤数减少到 10％时性能略有下降（Ko et al., 2024）。因此，必须考虑样本质量和推理时间之间的适当权衡，以适应特定的任务要求。然而，目前只有少数评估对基于 DDPM、基于 DDIM 或其他用于机器人操作的采样器进行了比较，因此需要进一步研究。

轨迹生成

机器人操作中的轨迹规划至关重要，它能够确保机器人在遵守速度和加速度限制等物理约束的同时，平稳、安全、高效地从一个点移动到另一个点，并确保避免碰撞。经典的规划方法，例如基于插值和基于采样的方法，在处理复杂任务或确保路径平滑方面存在困难。例如，快速探索随机树 (Martinez et al., 2023) 可能会因为离散化过程而生成突变的轨迹。正如引言中已经讨论过的，虽然流行的数据驱动方法（例如 GMM 和 EBM）理论上与多模型数据分布建模的能力有关，但实际上，它们表现出次优行为，例如存在偏差模式或缺乏时间一致性 (Chi et al., 2023)。此外，GMM 还难以处理高维输入空间 (Ho et al., 2020)。增加分量和协方差的数量也能提升模型对更复杂分布进行建模以及捕捉复杂精细运动模式的能力。然而，这会对生成轨迹的平滑度产生负面影响，使得高斯混合模型 (GMM) 对其超参数高度敏感。相比之下，去噪扩散模型 (DM) 在处理和生成高维数据方面表现出色。此外，去噪扩散模型 (DM) 生成的分布本身就很平滑 (Ho et al., 2020; Sohl-Dickstein et al., 2015; Chi et al., 2023)。这使得 DM 非常适合需要灵活性和适应性的复杂高维场景。虽然大多数将概率扩散模型 (DM) 应用于机器人操作的方法都侧重于模仿学习，但它们也已被应用于强化学习 (RL)，例如 (Janner et al., 2022; Wang et al., 2023a)。

模仿学习

在模仿学习 (Zare et al., 2024) 中，机器人尝试通过观察多个专家演示来学习特定任务。这种范式通常被称为从演示中学习 (LfD)，它要求机器人观察专家示例并尝试复制演示的行为。在这个领域，机器人有望超越特定的演示进行泛化，从而使其能够适应任务的变化或配置空间的变化。这可能包括不同的观察视角、变化的环境条件，甚至是与先前演示的任务具有结构相似性的新任务。因此，机器人必须学习任务的表征，以便在其训练的特定场景之外实现灵活性和技能习得。应用 DM 学习视觉运动策略的最新进展 (Chi et al., 2023) 通过将任务建模为以感官观察为条件的生成过程，从而能够生成平滑的动作轨迹。基于扩散的模型最初广泛应用于图像和自然语言等高维数据生成，如今已在机器人技术领域展现出巨大潜力，它们能够有效地学习复杂的动作分布，并生成以特定任务输入为条件的多模态行为。例如，结合多视图 Transformer (Gervet et al., 2023; Goyal et al., 2023) 的最新进展（这些 Transformer 利用了基础模型的特征 (Radford et al., 2021; Oquab et al., 2023)），3D 扩散器参与者 (Ke et al., 2024) 集成了多模态表征来生成末端执行器轨迹。再例如，GNFactor（Ze，2023）利用稳定扩散（Rombach，2022b）的多视角特征进行渲染，以增强 3D 体特征学习。

就机器人实现的类型而言，大多数研究使用并联夹持器或更简单的末端执行器。然而，很少有方法使用 DM 进行灵巧操作（Si，2024；Ma，2024a；Ze，2024；Chen，2024；Wang，2024a；Freiberg，2025），以提升其在高维环境下的稳定性和鲁棒性。

下表提供这些模仿学习分类的可视化图。

请添加图片描述

动作和姿势表示。整个轨迹可以作为单个样本生成，可以使用滚动时域控制对多个子序列进行采样，或者可以通过对各个步骤进行采样来生成轨迹。只有少数方法（Janner，2022；Ke，2024）可以一次预测整个轨迹。虽然这可以实现更高效的预测，因为去噪只需执行一次，但它无法适应环境变化，需要更好的预见性，并且不适合动态或开放环境中的更复杂任务设置。另一方面，对各个步骤进行采样会增加复合误差效应，并可能对时间相关性产生负面影响。有些人使用 DM 来预测航点（Shi，2023），而不是预测微动作。这可以通过缩短时间范围来减少组合误差。然而，它依赖于预处理或任务设置，以确保航点之间的空间不被遮挡。因此，通常情况下，DM 会生成由表示为末端执行器位置的一系列微动作组成的轨迹，通常包含取决于末端执行器驱动的平移和旋转 (Chi et al., 2023; Ze et al., 2024; Xu et al., 2023; Li et al., 2024c; Si et al., 2024; Scheikl et al., 2024; Ke et al., 2024; Ha et al., 2023)。虽然姿势更常用于抓取预测，但有时也用特殊的欧氏群 (SE(3)) 表示 (Xian et al., 2023; Liu et al., 2023c; Ryu et al., 2024)。

SE(3) 李群的群结构支持在多个物体姿态之间进行连续插值和变换。由于 (Liu et al., 2023c; Ryu et al., 2024) 执行涉及轨迹规划和抓取以对准多个物体的复杂任务，这些属性对于确保基于物理和几何基础的动作至关重要。然而，由于使用 DM 预测 SE(3) 姿态需要更复杂的模型结构和模仿学习中的训练，因此在轨迹规划中更常见的是使用诸如欧拉角或四元数之类的表示。一旦对轨迹进行采样，预测位置的接近度使得可以使用简单的位置控制器计算位置之间的运动，而无需复杂的轨迹规划技术。

虽然并不常见，但有时动作可以直接在关节空间中预测 (Carvalho et al., 2023; Pearce et al., 2022; Saha et al., 2024; Ma et al., 2024b)，从而允许直接控制关节运动，例如，减少奇点。

视觉数据模态。为了将机器人动作与物理世界联系起来，它们依赖于感官输入。在这里，大多数方法都使用视觉观察。而在原始工作 (Chi et al., 2023) 中，将视觉机器人操作与 DM 相结合进行轨迹规划，使用了 RGB 图像，但这无法为复杂的机器人任务提供足够的几何信息，尤其是在包含遮挡的场景中。因此，后来的多种方法改用 3D 场景表示。在这里，数据模型 (DM) 要么直接以点云 (Li et al., 2025; Liu et al., 2023c; Wang et al., 2024a) 为条件，要么以点云特征嵌入 (Ze et al., 2024; Xian et al., 2023; Ke et al., 2024) 为条件，要么以单视角 (Ze et al., 2024; Li et al., 2025; Wang et al., 2024a) 为条件，要么以多视角摄像机设置 (Ke et al., 2024; Xian et al., 2023) 为条件。虽然多视角摄像机设置可以提供更完整的场景信息，但它们也需要更复杂的设置和更多的硬件资源。

这些模型在更复杂的任务上优于仅依赖二维视觉信息的方法，并且还表现出对对抗性光照条件的鲁棒性。

轨迹规划作为图像生成。另一类别直接在图像空间中制定轨迹生成，利用 DM 在图像生成中的卓越生成能力。在这里（Ko et al., 2024; Zhou et al., 2024b; Du et al., 2023），给定单个图像观测、图像序列或视频，有时结合语言任务指令，扩散过程经过调节以预测图像序列，描述机器人和物体位置的变化。这带来了互联网范围的视频训练数据的好处，这有助于进行广泛的训练，从而实现良好的泛化能力。特别是与与机器人实施例无关的方法（Bharadhwaj et al., 2024b）相结合，这大大增加了可用的训练数据量。此外，在机器人操作中，模型通常必须解析视觉观察。在图像空间中预测动作避免从图像空间映射到通常低维得多动作空间的需要，从而减少了所需的训练数据量（Vosylius，2024）。

长范围和多任务学习。由于 DM 能够稳健地建模多模型分布，并且具有相对较好的泛化能力，因此非常适合处理长范围和多技能任务，这些任务通常存在长期依赖关系和多个有效解决方案，尤其是对于高级任务指令 (Mendez-Mendez et al., 2023; Liang et al., 2024)。通常，长范围任务使用分层结构和技能学习来建模。通常，针对各个技能学习一个或多个技能调节的 DM，而更高级的技能规划不使用 DM (Mishra et al., 2023; Kim et al., 2024c; Xu et al., 2023; Liang et al., 2024)。更高层次技能规划的具体架构因方法而异，例如变分自编码器（Kim et al., 2024c）或回归模型（Mishra et al., 2023）。Wang et al. (2024b) 并没有使用单独的技能规划器来采样单一技能，而是开发了一种采样方案，可以从针对不同任务和不同设置训练的决策模型 (DM) 组合中进行采样。

为了避免技能枚举带来的技能数量预定义有限的限制，一些研究采用由粗到细的分层框架，其中更高层次的策略用于预测较低层次策略的目标状态（Zhang et al., 2024a；Ma et al., 2024b；Xian et al., 2023；Ha et al., 2023；Huang et al., 2024b；Du et al., 2023）。

扩散模型 (DM) 能够稳定地处理高维输入空间，这使得多模态输入的集成成为可能，这在多技能任务中尤为重要，从而能够通过任意技能链构建功能多样且可泛化的智体。相关方法利用视频 (Xu et al., 2023)、图像和自然语言任务指令 (Liang et al., 2024; Wang et al., 2024b; Zhou et al., 2024b)，甚至更多样化的模态，例如触觉信息和点云 (Wang et al., 2024b)，来激发技能。

尽管这些方法旨在增强泛化能力，但要在高度动态的环境和陌生场景中实现适应性，可能需要整合持续学习和终身学习。在扩散模型 (DM) 领域，这是一个尚未被广泛探索的领域，目前仅有极少数研究 (Huang et al., 2024a; Di Palo et al., 2024) 探讨该主题。此外，这些方法的应用仍然有限。(Di Palo et al., 2024) 正在利用终身缓冲来加速针对新任务新策略的训练。相比之下，(Mendez-Mendez et al., 2023) 则持续更新其策略。然而，他们仅在模拟环境中进行训练和实验。此外，他们的方法需要所有涉及目标的精确特征描述，并且仅限于预定义的抽象技能。此外，为了持续更新，所有过去的数据都会被重放，这不仅计算效率低下，而且无法防止灾难性遗忘。

基于视觉-语言-动作模型（VLA）的多任务学习。另一种增强多任务环境中泛化的方法是结合预训练的 VLA。作为一类特殊的多模态语言模型 (MLLM)，VLA 结合视觉-语言基础模型的感知和语义表示能力以及动作生成模型的运动执行能力，从而形成一个有凝聚力的端到端决策框架。 VLA 经过互联网规模数据的预训练，在各种未知场景中展现出强大的泛化能力，从而使机器人能够以卓越的适应性执行复杂任务 (Firoozi，2025)。

VLA 中的一种主流方法采用下一 token 预测来生成自回归动作 tokens，这代表端到端 VLA 建模的基础方法，例如 (Brohan，2023b,a；Kim，2024a)。然而，这种方法存在诸多局限性，最显著的是自回归方法固有的推理速度慢 (Brohan，2023a；Wen，2025；Pertsch，2025)。这对于实时机器人系统而言是一个关键的瓶颈，因为低延迟决策至关重要。此外，运动 tokens 的离散化将动作生成重新表述为分类任务，引入了量化误差，导致控制精度下降，从而降低了整体性能和可靠性（Zhang et al.，2024g；Pearce et al.，2022；Zhang et al.，2024e）。

为了解决这些局限性，VLA 中的一项研究重点是预测未来状态，并利用从这些预测中得出的逆运动学原理来合成可执行动作，例如 (Cheang et al., 2024; Zhen et al., 2024; Zhang et al., 2024c)。虽然这种方法解决了与 token 离散化相关的一些局限性，但多模态状态通常对应多个有效动作，而尝试通过算术平均等技术对这些状态进行建模可能会导致不可行或次优的动作输出。

因此，DM 在多模态分布建模方面表现出强大的能力和稳定性，已成为一种有前途的解决方案。利用其强大的泛化能力，VLA 用于预测粗略动作，而基于 DM 的策略则细化动作，以提高精度和对不同机器人实施例的适应性，例如（Pan，2024a；Shentu，2024；Team，2024）。例如，TinyVLA（Wen，2025）在预训练的 VLA 之上集成了一个基于扩散的头部模块，以直接生成机器人动作。更具体地说，DP（Chi，2023）通过两个线性投影和一个 LayerNorm 连接到多模态模型主干。多模态模型主干对当前观察结果和语言指令进行联合编码，生成一个多模态嵌入，用于调节和指导去噪过程。此外，为了更好地填补逻辑推理和可操作的机器人策略之间的空白，提出了一个推理注入模块，该模块可以重用推理输出（Wen，2024）。类似地，条件扩散解码器已被用来表示连续的多模态动作分布，从而能够生成多样化且与上下文相关的动作序列 (Team et al., 2024; Liu et al., 2024; Li et al., 2024b)。

为了解决 DM 推理时间较长的缺点，一种采用“流匹配（FM）”的新方法已被引入，用于生成灵活动态任务的动作，为传统扩散机制提供一种稳健的替代方案 (Black et al., 2024a)。与依赖于迭代去噪过程的 DP 相比，FM 通过直接学习状态之间的连续流来生成用于灵巧控制的高频动作块，从而无需进行迭代细化。此外，与基于去噪目标并在每一步逐步消除噪声进行优化的 DP 不同，FM 引入双损失策略来增强模型的泛化能力。具体来说，与连续输出对应的 token 使用流匹配损失进行监督，而与离散输出对应的 token 使用交叉熵损失进行监督。

VLA 可以访问基于海量数据训练且具有强大计算能力的模型，从而实现强大的泛化能力。为了弥补其一些缺点，例如动作不精确，可以使用专门的策略进行改进。为了不限制 VLA 的泛化能力，DM 提供很大的可能性，因为它们能够捕捉复杂的多模型分布并处理高维视觉输入。然而，VLA 和 DM 的推理速度都相对较慢。因此，尤其是在与 VLA 结合使用时，提高 DM 的采样效率至关重要。

约束规划。另一种方法侧重于约束轨迹学习。典型的目标是避障、以物体为中心或面向目标的轨迹规划，但也可以包含其他约束。如果在训练之前已知约束，则可以将其集成到损失函数中。但是，如果目标是在推理过程中遵循各种可能变化的约束，则必须采取另一种方法。对于不太复杂的约束，例如特定的初始状态或目标状态，(Janner et al., 2022) 引入了一种调节，即在每个去噪时间步之后，将轨迹中的特定状态替换为约束中的状态。然而，这会导致轨迹进入低似然区域，从而降低稳定性并可能导致模式崩溃。此外，该方法不适用于更复杂的约束。
Janner et al. (2022) 也提出一种分类器引导方法（Dhariwal and Nichol, 2021）。在这里，训练一个单独的模型来在每个去噪步骤中对轨迹进行评分，并将其引导至满足约束的区域。通过添加预测分数的梯度，这被集成到去噪过程中。需要注意的是，对于轨迹等序列数据，分类器引导也可能使采样偏向可能性较低的区域 (Pearce et al., 2022)。因此，必须谨慎选择引导因子的权重。此外，在去噪过程开始时，引导模型必须在信息量极小的输出（接近高斯噪声）上预测分数，并且应具有较低的影响。因此，重要的是告知分类器去噪时间步长，也在噪声样本上对其进行训练，或者调整将引导因子集成到逆过程中的权重。分类器引导已应用于多种方法（Mishra，2023；Liang，2023；Janner，2022；Carvalho，2023）。然而，它需要对单独的模型进行额外训练。此外，在每个采样步骤计算分类器的梯度会增加额外的计算成本。因此，引入无分类器引导（Ho，2021；Saha，2024；Li，2025；Power，2023；Reuss，2024，2023），其中每个约束并行训练一个条件决策模型 (DM) 和一个非条件决策模型 (DM)。在采样期间，使用两种决策模型 (DM) 的加权混合，从而允许任意约束组合，这些组合在训练期间也不会同时出现。然而，它并不能推广到全新的约束条件，因为这需要训练新的条件决策模型 (DM)。

由于分类器指导和无分类器指导都只能引导训练过程，因此它们无法保证约束满足。为了保证在诸如手术 (Scheikl et al., 2024) 等精细环境下的约束满足，需要将运动原语与决策模型 (DM) 结合起来，以确保轨迹的质量。扩散模型的最新进展也深入研究了约束满足问题 (Römer et al., 2024)，将约束收紧集成到逆扩散过程中。虽然这种方法在约束满足方面优于先前的方法 (Power et al., 2023; Janner et al., 2022; Carvalho et al., 2024)，即使在多约束设置和训练期间未见的约束条件下，评估也仅限于在单个实验设置的模拟中进行。因此，DM 的约束满足问题仍然是一个值得进一步探索的有趣研究方向。

很少有方法也进行基于 affordance 的轨迹规划优化 (Liu et al., 2023c)。然而，大多数基于 affordance 的操控研究都集中在抓取学习上。

离线强化学习

要在强化学习中应用扩散策略，必须整合奖励项。扩散器 (Janner，2022) 是一项早期将扩散策略应用于强化学习的工作，它使用基于分类器的引导，该引导基于分类器的引导。设 τ = {(s_0, a_0), …, (s_T, a_T)} 表示在规划范围 {0, …, T} 内每个时间步包含一个状态-动作对的轨迹。为了在采样过程中整合奖励项，训练回归模型 R_φ(τ_k) 来预测在每个去噪时间步 k ∈ {0, …, K} 时轨迹 τ_k 的回报，即累积的未来奖励。通过在逆扩散过程的每次迭代中添加引导项，将其融入采样过程 (Janner et al., 2022)。

此外，为了确保当前状态观测值 s_0 不会被轨迹上的逆扩散改变，τ^k−1_s_0 在每次逆扩散迭代后被设置为当前状态观测值。同样，目标条件或其他约束也可以融入该方法中，这些约束可以通过用约束中的状态替换轨迹中的状态来实现。这在多种方法中都有实现 (Janner et al., 2022; Liang et al., 2023)。然而，必须谨慎操作，因为它可能导致轨迹位于似然值较低的区域，从而引发不稳定性和模式崩溃 (Janner et al., 2022; Song et al., 2021b)。逆过程完成后，τ^0 被预测出来，执行规划的第一个动作 a_0。然后，将规划范围向前移动一步，对下一个动作进行采样。

在扩散器 (Janner et al., 2022) 和基于扩散器的方法 (Suh et al., 2023; Liang et al., 2023) 中，决策扩散器 (DM) 的训练独立于奖励信号，类似于使用决策扩散器的模仿学习方法。不利用奖励信号来训练策略可能会导致学习的轨迹与最优轨迹不一致，从而造成策略行为不理想。相反，在策略训练过程中就利用奖励信号可以引导训练过程，从而提高训练策略的质量和样本效率。

为了弥补这些缺陷，决策扩散器 (Ajay et al., 2023) 方法使用无分类器引导，直接将轨迹的返回作为决策扩散器的条件。该方法在各种任务（例如积木堆叠任务）上的表现均优于扩散器。然而，这两种方法尚未在实际任务中进行过评估。直接以回报为条件会限制泛化能力。与 Q-学习不同，Q-学习会近似值函数，从而泛化所有未来轨迹，而这里只考虑当前轨迹的回报。这与在线策略方法有一些相似之处，由于策略会学习遵循高回报值演示中的轨迹，因此会限制泛化能力。因此，这也可以解释为引导式模仿学习。

一种更常见的方法（Wang，2023a）将离线 Q-学习与决策模型 (DM) 相结合。损失函数是行为克隆损失，因为目标是最小化通过行为策略采集的样本的误差。Wang (2023a) 建议在训练过程中加入一个批评者，称之为扩散 Q-学习（Diffusion-QL）。在扩散 QL 中，通过使用双 Q 学习技巧最小化贝尔曼算子来训练 Q 函数。更新 Q 函数的动作从决策模型 (DM) 中采样。相应地，策略改进步骤 L_c = −E_s∼D, a0∼π_θ [Q_φ(s, a^0) 包含在更新决策模型 (DM) 的损失函数中 (Wang et al., 2023a)。

有几种方法 (Ada et al., 2024; Kim et al., 2024b; Venkatraman et al., 2023; Kang et al., 2023) 是基于扩散 Q 学习的。为了提高对分布外数据的泛化能力（离线强化学习 (Levine et al., 2020) 中常见的问题），Ada et al. (2024) 在扩散模型 (DM) 的训练中加入了状态重建损失。

将强化学习与扩散模型 (DM) 相结合的方法的一个特点是它们是离线方法，策略（即扩散模型 (DM)）和回报预测模型/评判器都进行离线训练。这引入离线强化学习 (Levine et al., 2020) 的常见优缺点。一方面，该模型依赖于高质量的现有数据（由状态-动作-奖励转换组成），并且无法对分布变化做出反应。如果调优不当，也可能导致过拟合。另一方面，它提高了样本效率，并且不需要实时数据收集和训练，从而降低了计算成本并提高了训练稳定性。与模仿学习（Levine，2020；Pfrommer，2024；Ho & Ermon，2016）相比，离线 RL 需要带有奖励标记的数据和奖励函数的训练，并且更容易过拟合至次优行为。然而，面对包含多样化和次优行为的数据，离线 RL 比模仿学习具有更好的泛化潜力，因为它非常适合对整个状态-动作空间进行建模。因此，将 RL 与 DM 相结合有可能在整个状态-动作空间上建模高度多模态分布，从而大大提高泛化能力（Liang，2023；Ren，2024）。相反，如果有高质量的专家演示，模仿学习可能会带来更好的性能和计算效率。为了克服模仿学习的一些缺点，例如协变量偏移问题（Ross & Bagnell，2010），这使得它难以处理分布外的情况，一些策略被设计出来，利用强化学习（Ren，2024；Huang，2025b）来微调行为克隆策略。

技能组合是一种处理长周期任务的常用方法。为了利用强化学习从次优行为中学习的能力，多种方法（Ajay，2023；Kim，2024c；Venkatraman，2023；Kim，2024b）将技能学习、强化学习与决策树相结合。

目前，关于使用决策树 (DM) 的在线和离线-到-在线强化学习的研究很少（Ding and Jin，2023；Ajay et al.，2023），这为研究留下了广阔的空间。此外，在技能学习 (Ajay et al.，2023) 的背景下，用于低级策略的决策树 (DM) 是离线训练并保持冻结状态，而高级策略则使用在线强化学习进行训练。

需要注意的是，除了 Ren et al. (2024) 和 Huang et al. (2025b) 的方法外，上述方法均未处理视觉观察，而是依赖于只有在模拟中才容易获得的真实环境信息。此外，虽然所有方法都已在机器人操作任务上进行了测试，但只有少数方法（Ren et al.，2024；Huang et al.，2025b）是专门为这些特定应用而设计的。将范围扩大到涵盖为机器人技术设计的所有方法，有更多实质性的工作将扩散策略与 RL 相结合。

机器人抓握生成

抓握学习作为机器人操控的关键技能之一，已研究数十年 (Newbury et al., 2023)。从手工特征工程到统计方法 (Bohg et al., 2013)，以及近年来深度神经网络的进展，这些网络由来自现实世界 (Fang et al., 2020) 或模拟环境 (Gilles et al., 2023, 2025; Shi et al., 2024) 的海量数据收集驱动。当前，抓握学习的趋势融合了语义级物体检测，利用开放词汇基础模型 (Radford et al., 2021; Liu et al., 2025)，并专注于以物体为中心或基于 affordance 的自然抓握检测 (Qian et al., 2024; Shi et al., 2025)。为此，以能够建模复杂分布而闻名的 DM，能够通过模拟各种情境下与物体的可能交互，创建多样化且逼真的抓取场景 (Rombach，2022b)。此外，这些模型通过优化可行且高效的抓取生成 (Urain，2023)，有助于直接抓取生成，尤其是在实时决策和适应性至关重要的环境中。

利用 DM 生成抓取动作可分为几种主要方法：从方法论角度来看，一类方法侧重于 SE(3) 组上的 6 自由度抓取姿势的显式扩散，直接对空间变换进行建模以生成可行的抓取动作 (Urain，2023；Song，2024b；Wu，2024b；Weng，2024；Singh，2024；Lim，2024)。另一类方法涉及潜空间内的隐式抓取扩散，以增强适应性和多功能性 (Barad，2024)。近期趋势侧重于面向任务的抓取生成，即语言引导的扩散，其中自然语言输入塑造生成过程（Nguyen，2024a；Vuong，2024；Nguyen，2024b；Chang & Sun，2024）。其他方法则强调 affordance 驱动的扩散，针对特定的功能目标，例如用于重排列的物体姿态扩散（Liu，2023b；Zhao，2025）、 affordance 引导的物体重定向（Mishra & Chen，2024）、模仿学习（Wu，2024a；Ma，2024a）或多形态抓取（Freiberg，2025）。除了这些类别之外，手-目标交互 (HOI) 特别优先考虑逼真的功能性交互的合成，通过模拟手对各种目标形状和灵活性 affordance 的自适应响应 (Ye et al., 2024; Wang et al., 2024c; Zhang et al., 2024d; Cao et al., 2024; Li et al., 2024a; Zhang et al., 2025; Lu et al., 2025; Zhang et al., 2024b)。除了在抓握生成或轨迹规划上的扩散之外，DM 作为模拟-到-真实生成器 (Li et al., 2024d) 或基础特征提取器 (Tsagkas et al., 2024)（例如稳定扩散 (Rombach et al., 2022a)）可以提供语义信息以增强下游抓握生成任务。

下表总结上述类别。值得注意的是，在图中涵盖扩散在 HOI 中的应用、用于预抓取的模仿学习以及与图像生成相关的任务。

请添加图片描述

扩散作为 SE(3) 抓取姿势的生成

由于标准扩散过程主要在欧氏空间中表述，因此将其直接扩展到 SE(3) 姿势（表示为：H = [R, t | 0 1 ]_4×4）本身就具有挑战性，因为潜在的数值不稳定性（为了满足 HH^-1 = I^4x4），而典型的朗之万动力学不能应用于非欧几里得流形，例如 SE(3) 李群。其中，R ∈ SO(3) 表示旋转矩阵，t ∈ R3 表示平移向量。将扩散应用于 SE(3) 姿势需要考虑流形的非欧几里得性质，其中标准高斯噪声（如香草扩散中使用的）无法在旋转和平移过程中保持稳定性。

为了解决这个问题，SE(3)-Diff (Urain et al., 2023) 引入一个平滑的成本函数，通过基于能量的模型 (EBM) 来学习抓取质量，其中 EBM 的得分匹配应用于李群，以弥合向量空间 R6 上的扩散过程与 SE(3) 之间的差距。相反，(Song et al., 2024b) 将 6-DoF 抓取姿势置于抓取位置 t 和相应的体特征上，以便遵循 GIGA 框架在杂乱中生成抓取 (Jiang et al., 2021)，而没有明确考虑 SE(3) 约束。此外，SE(3)-Diff 中的 EBM 模型的一个优势是可以直接评估抓取质量并将其集成到整个抓取运动规划和优化中。然而，训练基于 EBM 的模型需要大量采样，并对泛化提出重大挑战。EquiGraspFlow（Lim，2024）和 Grasp Diffusion Network（Carvalho，2024）采用了流匹配 (FM)（Lipman，2023）的最新研究，它们使用连续正则化流 (CNF) 作为 ODE 求解器来学习角速度 (SO(3)) 和线性速度 (R(3)) 以进行去噪。这保留在给定时间安排的情况下以输入点云为条件的 SE(3)-等方差。与依赖有符号距离函数形式额外监督的 SE(3)-Diff 相比，它们无需此辅助模块即可实现具有竞争力的性能，从而提高训练效率。总体而言，尽管基于 CNF 的方法在单个物体的抓取生成方面表现出色，但未来仍有望对其在高遮挡环境中的泛化能力进行更多研究（Freiberg，2025；Shi，2024）。

与显式姿态扩散不同，用于抓取生成的潜数据模型 (GraspLDM (Barad，2024)) 使用变分自编码器 (VAE) 探索潜空间扩散，而无需明确考虑 SE(3) 约束。它们遵循基于变分自编码器 (VAE) 的 6 自由度 Graspnet (Mousavian，2019)，通过去噪扩散过程对抓取潜特征的分布进行建模，该过程以抓取生成的点云和任务潜特征为条件。这种隐式建模可能会限制模型生成物理上合理且几何上一致的抓取姿态的能力。

此外，SE(3) 双等方差性质对于高效的抓取生成至关重要 (Huang et al., 2023)，因为它要求应用于输入空间的任何变换都应以一致的方式相应地变换输出空间。具体而言，此属性意味着由 SE(3) 不变分布生成的姿态在时间序列的变换下应保持相同的空间和几何关系，从而确保学习的抓取分布在不同方向和位置上保持不变。例如，Ryu (Ryu et al., 2023) 考虑李群表示中的双等方差来构建等方差描述子场 (EDF) (Ryu et al., 2023)，同时考虑观测（目标）空间和初始末端执行器框架的变换。这主要通过模仿学习提高拾取和放置任务的采样效率。在此基础上，他们将 EDF 扩展为双等变得分匹配 (Ryu et al., 2024)，以应用于扩散领域，该领域由 se(3) 李代数上的平移场和旋转场组成。此外，Freiberg (Freiberg et al., 2025) 调整 Ryu (Ryu et al., 2024) 的方法，通过一个可捕获夹持器嵌入的等变编码器将其推广到多具身抓取。

视觉数据增强

一类方法侧重于在基于视觉的操作任务中使用预训练的DM进行数据增强。在这里，扩散生成模型强大的图像生成和处理能力被用于增强数据集和场景。视觉数据增强的主要目标是扩展数据集、场景重建和场景重排。

扩展数据和场景增强

机器人技术中数据驱动方法面临的一个挑战，是需要大量的数据，而这些数据的获取非常耗时，尤其是对于真实世界的数据而言。在模仿学习领域，积累足够数量的专家演示以准确代表当前任务至关重要。虽然到目前为止，许多方法（例如 Reuss，2024；Ze，2024；Ryu，2024）只需要 5 到 50 次演示即可，但也有一些方法（例如（Chen，2023a；Saha，2024）依赖于更广泛的数据集。尤其是离线 RL 方法，例如（Carvalho，2023；Ajay，2023）通常需要大量数据才能准确预测完整状态-动作空间中的动作，即使不是最优行为。此外，增加训练数据的可变性也有可能提高所学策略的泛化能力。因此，为了自动增加数据集的种类和大小，而无需增加研究人员和员工的成本或其他工程量更大的自主数据收集流程（Yu，2023），许多方法（例如（Chen，2023b；Mandi，2022））使用 DM 进行数据增强。与域随机化（Tremblay，2018；Tobin，2017）等其他策略相比，使用扩散模型 (DM) 进行数据增强直接增强现实世界数据，使数据扎根于物理世界。相比之下，域随机化需要针对每个任务进行复杂的调优，以确保随机场景的物理合理性，并实现模拟-到-现实的迁移 (Chen，2023b)。

给定一组现实世界数据，基于扩散模型 (DM) 的增强方法通过修复执行语义上有意义的增强，例如更改目标颜色和纹理 (Zhang，2024f)，甚至替换整个目标以及相应的语言任务描述 (Chen，2023b；Yu，2023；Mandi，2022)。这既可以增强目标（操作过程中的一部分），也可以增强背景。前者提高了对不同任务和目标的泛化能力，而后者提高了对场景信息的鲁棒性，但这不应该影响策略。一些方法（Zhang，2024f）还增强了目标位置和相应的轨迹，为 DAgger 生成分布外的演示，从而解决了模仿学习中的协变量偏移问题。

其他方法甚至（Katara，2024）在大语言模型 (LLM) 的提示下，从给定的 URDF 文件生成整个模拟场景。针对离线 RL 方法，Di Palo（2024）将数据增强与一种后见之明-经验回放形式（Andrychowicz，2017）相结合，使视觉观察适应语言任务指令。这增加回放缓冲中成功执行的次数，从而潜在地提高了数据效率。该方法用于基于先前收集的数据学习新任务的策略，以使数据与新任务指令对齐。从方法论的角度来看，这些方法大多采用冻结的网络规模预训练语言（Yu et al., 2023）和视觉语言模型，用于目标分割（Yu et al., 2023）或文本-到-图像合成（稳定扩散）（Rombach et al., 2022a; Mandi et al., 2022），或微调（Zhang et al., 2024f; Di Palo et al., 2024）预训练的互联网规模视觉-语言模型。

除了 Zhang et al. (2024f) 的方法外，这些方法不增强动作，而只增强观察结果。因此，这些方法必须确保增强操作所演示的动作不会改变，这极大地限制了增强的类型。此外，通过场景增强进行大规模数据扩展也需要额外的计算成本。虽然这可能不是一个严重的限制，但如果在训练之前应用一次，可能会大大增加在线强化学习方法的训练时间。

传感器数据重建

基于视觉的机器人操作面临的一个挑战与传感器数据的不完整有关。尤其是单视角相机设置会导致目标点云或图像不完整，从而给精确抓取和轨迹预测带来挑战。更复杂的任务设置（例如遮挡和传感器数据不准确）会加剧这一问题。

给定 RGBD 图像和相机本征矩阵 (Kasahara et al., 2024)，无需目标的 CAD 模型即可生成新的目标视图。为此，现有点将投影到新的视点。使用视觉基础模型 SAM (Kirillov et al., 2023) 对场景进行分割，以创建目标掩码。在这些掩码上，使用预训练的扩散模型 Dall·E (Kapelyukh et al., 2023) 来修复缺失的数据点，从而生成图像。由于 Dall·E 无法确保空间一致性，因此需要跨视点应用一致性过滤。此外，Dall·E 仅处理二维图像。因此，为了补充缺失的深度信息，需要训练一个模型，根据投影深度图和重建图像预测缺失的深度信息。在该方法中，视点沿视场均匀分布的方向进行采样。然而，生成多个视点的点云计算成本高昂，而且可能并非成功完成任务的必要条件。因此，需要应用视图规划来生成最小的视图集。(Pan et al., 2024b) 使用扩散模型 (DM) 从二维图像生成几何先验，使视图规划器能够采样最小的视点集，从而最小化移动成本。然后，这些视图用于训练神经辐射场 (NeRF) (Mildenhall et al., 2020)，以从二维图像重建三维场景。

在机器人操作领域，考虑场景重建的方法并不多。一个可能的原因是其计算成本相对较高。然而，扩展到机器人技术和计算机视觉领域，场景重建领域已经出现更多方法。在机器人操控领域，更多方法侧重于使策略对不完整或噪声传感器信息更具鲁棒性，例如 (Ze et al., 2024; Ke et al., 2024)。然而，实验设置中有限的遮挡数量表明强遮挡仍然是一项重大挑战。此外，场景重建无法对全遮挡的目标做出反应。

目标重排列

DM 的文本-到-图像合成能力，使得根据高级任务描述生成规划成为可能。具体而言，给定初始视觉观察，一组方法使用此类模型根据语言提示生成场景中物体的目标排列 (Liu et al., 2023b; Kapelyukh et al., 2023; Xu et al., 2024; Zeng et al., 2024; Kapelyukh et al., 2024)。应用示例包括摆放餐桌或清理厨房台面。虽然早期的方法（Kapelyukh，2023；Liu，2023b）使用预训练的 VLM Dall·E（Black，2024b）以零样本方式生成重排，但由于缺乏几何理解和目标永久性，这种方法的缺点是可能引入场景不一致和不兼容。因此，后期的方法（Xu，2024；Kapelyukh，2024）结合使用预训练的 LLM 和 VLM（例如 CLIP（Meila & Zhang，2021）），以及其他非弥散视觉处理方法（例如 NeRF（Mildenhall，2020）和 SAM（Kirillov，2023））以及自定义 DM。所述方法与目标姿态扩散方法（Mishra & Chen，2024；Simeonov，2023；Zhao，2025）类似。主要区别在于，本文的方法侧重于通过稀疏语言输入指定的多目标重排列，而非详尽描述目标排列的几何布局。本文的重点并非如何与抓取或运动规划相结合以实现目标排列。然而，尽管如此，以上列出的所有目标重排列方法的有效性也在真实机器人实验中得到了证实。

常见的基准包括 CALVIN (Mees et al., 2022)、RLBench (James et al., 2020)、RelayKitchen (Gupta et al., 2020) 和 Meta-World (Yu et al., 2020)。在强化学习中，主要使用基准 D4RL Kitchen (Fu et al., 2020)。其中一种方法 (Ren et al., 2024) 使用 FurnitureBench (Heo et al., 0) 进行现实世界的操作任务。 Adroit（Rajeswaran，2017）是灵巧操作的常用基准，LIBERO（Liu，2023a）是终身学习的常用基准，LapGym（Maria Scheikl，2023）是医疗任务的常用基准。

许多方法仅针对基线进行评估，而这些基线本身并非基于扩散模型(DM) 本身。然而，也存在一些基于扩散模型 (DM) 的常用基线。

对于在 SE(3) 空间中操作的方法（Chen，2024；Song，2024b；Ryu，2024），SE(3)-Diffusion Policy（Urain，2023）可能是第一篇使用扩散模型 (DM) 进行抓取生成的论文，通常用作基线。对于基于强化学习 (RL) 的方法，基于强化学习的扩散器 (Diffuser) (Janner et al., 2022)、扩散-QL (Diffusion-QL) (Wang et al., 2023a) 和决策扩散器 (Decision Diffuser) (Ajay et al., 2023) 常被用作基线。注：在原始论文中，决策扩散器 (Decision Diffuser) (Ajay et al., 2023) 与扩散器 (Janner et al., 2022) 进行了比较，发现其在几乎所有任务上都优于扩散器，尤其是在操作任务、块堆叠和重新排列方面。然而，这两种方法均未在实际任务上进行评估。

另一个常见的基线是动态规划 (DP) (Chi et al., 2023)，因为许多方法都是基于它开发的。集成 3D 视觉表征的方法的常见基线是 3D 扩散策略 (Ze et al., 2024)。 3D 扩散策略与 DP 进行了对比评估，在基准测试 Adroit、MetaWorld 和 Dexart 的众多任务中，3D 扩散策略的平均成功率为 74.4%，比 DP 高出 24.2%。此外，还在四项真实世界的操作任务中对其进行了评估：擀饺子、捏饺子、钻孔和浇水。3D 扩散策略的平均成功率为 85.0%，比 DP 高出 50%。在 CALVIN 基准测试中，3D 扩散策略的表现远超 3D 扩散器参与者 (Ke et al., 2024)，尤其是在零样本长视界任务中。然而，本文并未提供与真实世界任务的比较结果。

大多数方法都在模拟环境和真实世界实验中进行评估。

在真实世界实验中，大多数策略直接基于真实世界数据进行训练。然而，有些方法专门在模拟中训练，并在零样本中应用于现实世界（Yu et al., 2023; Mishra et al., 2023; Ren et al., 2024; Liu et al., 2023b; Kapelyukh et al., 2024; Liu et al., 2023c），利用域随机化或在模拟中重建现实世界场景。

少数方法（主要是 RL 方法）仅在模拟中进行评估（Yang et al., 2023; Power et al., 2023; Wang et al., 2023a; Janner et al., 2022; Pearce et al., 2022; Wang et al., 2023b; Mendez-Mendez et al., 2023; Kim et al., 2024b; Brehmer et al., 2023; Liang et al., 2023; Zhou et al., 2024a; Mishra and Chen, 2024; Ajay et al., 2023; Ding and Jin, 2023; Zhang et al., 2024a）。