24年3月来自哥伦比亚大学、TRI和MIT的论文“Diffusion Policy: Visuomotor Policy Learning via Action Diffusion”。
扩散策略,是一种将机器人的视觉运动策略表示为条件去噪扩散过程、以此生成机器人行为的新方法。对来自 4 个不同机器人操作基准 15 个不同任务的扩散策略进行基准测试,始终优于现有机器人学习方法,平均提高了 46.9%。扩散策略,学习动作分布得分函数的梯度,并在推理过程中通过一系列随机Langevin动力学步骤,针对该梯度场进行迭代优化。扩散公式在用于机器人策略时具有强大的优势,包括优雅地处理多模态动作分布、适用于高维动作空间以及表现出训练稳定性。为了充分释放扩散模型在物理机器人上进行视觉运动策略学习的潜力,本文介绍一组关键技术,包括结合后退范围控制、视觉调节和时间序列扩散Transformer。这项工作有助于激发新一代策略学习技术,这些技术能够利用扩散模型强大的生成建模能力。
如图所示策略的表示:a) 具有不同类型动作表示的显式策略;b) 隐式策略学习以动作和观测为条件的能量函数,并针对最小化能量景观的动作进行优化 c) 扩散策略通过学习的梯度场将噪声细化为动作。此公式提供稳定的训练,允许学习的策略准确地模拟多模态动作分布,并适应高维动作序列。
从演示中学习策略的最简单形式,可以表述为学习将观测结果映射到动作的监督回归任务。然而,在实践中,预测机器人动作的独特性质(例如多模态分布的存在、序列相关性和高精度要求)使这项任务与其他监督学习问题相比具有独特性和挑战性。
先前的研究试图通过探索不同的动作表示(图 a)来应对这一挑战——使用高斯混合 (Mandlekar 2021)、量化动作的分类表示 (Shafiullah 2022),或通过切换策略表示(图 b)——从显式到隐式以更好地捕捉多模态分布 (Florence 2021 );(Wu 2020)。
在这个公式中,策略不是直接输出动作,而是根据视觉观测推断动作得分梯度,进行 K 次去噪迭代(图 c)。这个公式允许机器人策略从扩散模型中继承几个关键属性,从而显著提高性能。
虽然 DDPM 通常用于图像生成(x 是图像),但本文使用 DDPM 来学习机器人视觉运动策略。这需要在公式中进行两项重大修改:1. 更改输出 x 以表示机器人动作。2. 使去噪过程以输入观察 Ot 为条件。如图显示了扩散策略的概述:a) 一般公式。在时间步骤 t,该策略将最新的 To 步观察数据 Ot 作为输入,并输出 Ta 步动作 At 。b) 在基于 CNN 的扩散策略中,FiLM(特征线性调制)(Perez 2018)逐个通道对观察特征 Ot 的调节应用于每个卷积层。从高斯噪声中提取的 AtK 开始,减去噪声预测网络 εθ 的输出,重复 K 次得到去噪动作序列 At0。c) 在基于 Transformer (Vaswani 2017)扩散策略中,观察 Ot 的嵌入被传递到每个 Transformer 解码器块的多头交叉注意层中。每个动作嵌入都被限制为仅关注自身和之前的动作嵌入(因果注意),使用所示的注意掩码。
基于 CNN 的主干可以很好地完成大多数开箱即用的任务,无需进行太多超参数调整。然而,当所需的动作序列随时间快速急剧变化时(例如速度命令动作空间),它的表现不佳,这可能是由于时间卷积倾向于低频信号的归纳偏差 (Tancik 2020)。
在基于状态的实验中,大多数表现最佳的策略都是通过 Transformer 主干实现的,尤其是在任务复杂度和动作变化率较高的情况下。然而,Transformer 对超参数更敏感。
多模态动作分布的建模
对人类演示中的多模态分布进行建模的挑战已得到广泛讨论 (Florence 2021);(Shafiullah 2022);(Mandlekar 2021)。扩散策略能够自然而准确地表达多模态分布,这是其主要优势之一。
直观地说,扩散策略动作生成的多模态性,来自两个来源——底层随机采样程序和随机初始化。在随机Langevin动力学中,每次采样过程开始时都会从标准高斯中抽取一个初始样本 AtK,这有助于为最终动作预测 At0 指定不同的可能收敛盆地。然后进一步随机优化此动作,并在大量迭代中添加高斯扰动,从而使各个动作样本能够收敛并在不同的多模态动作盆地之间移动。如图展示扩散策略在平面上推动任务(PushT)中的多模态行为示例,没有针对测试场景进行明确演示:在给定状态下,末端执行器(蓝色)可以向左或向右推动方块;扩散策略会学习两种模式,并且每次推出时只承诺一种模式。相比之下,LSTM-GMM (Mandlekar 2021)和 (IBC Florence 2021)都偏向一种模式,而 BET(Shafiullah 2022)由于缺乏时间动作一致性而无法保证单一模式。展开 40 步,生成最佳表现检查点的动作。
与位置控制的协同作用
具有位置-控制动作空间的扩散策略,始终优于具有速度控制的扩散策略,如图所示。这一令人惊讶的结果与大多数最近通常依赖于速度控制的行为克隆工作,形成了鲜明对比 (Mandlekar 2021);(Shafiullah 2022);(Zhang 2018);(Florence 2019);(Mandlekar 2020b、a)。这种差异可能有两个主要原因:首先,动作多模态在位置控制模式下,比使用速度控制时更为明显。由于扩散策略比现有方法更好地表达了动作多模态性,它本质上受此缺点的影响比其他方法要小。此外,位置控制比速度控制受到的复合误差效应更小,因此更适合动作序列预测。因此,扩散策略不太受位置控制主要缺点的影响,并且能够更好地利用位置控制的优势。
动作序列预测的优势
由于难以从高维输出空间有效采样,大多数策略学习方法通常会避免使用序列预测。例如,IBC 很难有效地对具有非平滑能量景观的高维动作空间进行采样。同样,BC-RNN 和 BET 也难以指定动作分布中存在的模态数量(GMM 或 k-means 步骤需要)。
相比之下,DDPM 可以很好地适应输出维度,而不会牺牲模型的表现力,正如许多图像生成应用程序所证明的那样。利用此功能,扩散策略以高维动作序列的形式表示动作,这自然解决了以下问题:
• 时间动作一致性:PushT任务要将 T 块从底部推入目标位置,策略可以从左侧或右侧绕过 T 块。但是,假设序列中的每个动作都被预测为独立的多模态分布(如 BC-RNN 和 BET 中所做的那样),会从不同的模态中提取连续的动作,从而导致在两个有效轨迹之间交替的抖动动作。
• 对空闲动作的鲁棒性:当演示暂停时会发生空闲动作,并导致一系列相同的位置动作、或接近零速的动作。这在远程操作中很常见,有时是液体倾倒等任务所必需的。然而,单步策略很容易过拟合这种暂停行为。例如,当空闲动作没有从训练中明确删除时,BC-RNN 和 IBC 经常会在现实世界的实验中陷入困境。
训练稳定性
虽然从理论上讲,IBC 应该具有与扩散策略类似的优势。然而,由于 IBC 固有的训练不稳定性,在实践中从 IBC 获得可靠且高性能的结果具有挑战性 (Ta 2022)。如图显示整个训练过程中的训练误差峰值和不稳定的评估性能,使超参变得关键和检查点选择变得困难。因此,(Florence 2021)评估每个检查点并报告表现最佳的检查点的结果。在现实环境中,此工作流程需要在硬件上评估许多策略以选择最终策略。
上面左图是真实环境结果:尽管能量函数的训练损失平稳减少,但 IBC 仍无法以更高的准确度推断训练动作。右图是虚拟环境的结果:IBC 的评估成功率波动,导致检查点选择困难(使用模拟中的策略展开进行评估)。
与控制理论的联系
当任务非常简单时,扩散策略具有简单的限制行为;这可能能够从控制理论中获得一些严格的理解。
相关方法
根据策略的结构,行为克隆方法可分为两类。
显式策略。最简单的显式策略形式是从世界状态或观察直接映射到动作 (Pomerleau 1988);(Zhang 2018);(Florence 2019);(Ross 2011);(Toyer 2020);(Rahmatizadeh 2018);(Bojarski 2016)。它们可以用直接回归损失进行监督,并且通过一次前向传递具有高效的推理时间。不幸的是,这种类型的策略不适合对多模态演示行为进行建模,并且在高精度任务中遇到困难 (Florence 2021)。一种流行的对多模态动作分布建模同时保持方向动作映射简单性的方法,是通过离散化动作空间将回归任务转换为分类 (Zeng 2021);(Wu 2020); (Avigal 2022)。然而,随着维数的增加,近似连续动作空间所需的bin数呈指数增长。另一种方法是结合分类分布和高斯分布,通过使用 MDN 来表示连续多模态分布 (Bishop 1994);(Mandlekar 2021) 或使用偏移预测进行聚类 (Shafiullah 2022);(Sharma 2018)。然而,这些模型往往对超参调整很敏感,表现出模式崩溃,并且在表达高精度行为的能力方面仍然有限 (Florence 2021)。
隐式策略。隐式策略 (Florence 2021;Jarrett 2020) 使用基于能量的模型 (EBM) (LeCun 2006;Du & Mordatch 2019;Dai 2019;Grathwohl 2020;Du 2020) 定义动作的分布。在这种情况下,每个动作都被分配一个能量值,动作预测对应于寻找最小能量动作的优化问题。由于不同的动作可能被分配低能量,隐式策略自然代表多模态分布。然而,现有的隐式策略 (Florence 2021) 训练起来不稳定,因为在计算底层 Info-NCE 损失时需要抽取负样本。
PushT 实验
如图是真实世界 Push-T 实验情况:a) 硬件设置,b) 任务说明;机器人需要 1 )精确地将 T 形块推入目标区域,2) 将末端执行器移动到末端区域;c) 用于计算下表中使用的 IoU 指标的真值最终状态。
如表所示:成功定义为最终状态 IoU 大于演示数据集中的最小 IoU,平均情节持续时间以秒为单位;T-E2E 代表端到端训练的基于 Transformer 扩散策略。