扩散策略：通过动作扩散进行视觉运动策略学习

三谷秋水

已于 2024-09-09 03:56:51 修改

阅读量1.3k

点赞数 15

分类专栏：机器学习人工智能智能体文章标签：机器人计算机视觉深度学习人工智能

于 2024-09-08 00:12:14 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/141957098

版权

机器学习同时被 3 个专栏收录

498 篇文章

订阅专栏

智能体

442 篇文章

订阅专栏

人工智能

416 篇文章

订阅专栏

24年3月来自哥伦比亚大学、TRI和MIT的论文“Diffusion Policy: Visuomotor Policy Learning via Action Diffusion”。

扩散策略，是一种将机器人的视觉运动策略表示为条件去噪扩散过程、以此生成机器人行为的新方法。对来自 4 个不同机器人操作基准 15 个不同任务的扩散策略进行基准测试，始终优于现有机器人学习方法，平均提高了 46.9%。扩散策略，学习动作分布得分函数的梯度，并在推理过程中通过一系列随机Langevin动力学步骤，针对该梯度场进行迭代优化。扩散公式在用于机器人策略时具有强大的优势，包括优雅地处理多模态动作分布、适用于高维动作空间以及表现出训练稳定性。为了充分释放扩散模型在物理机器人上进行视觉运动策略学习的潜力，本文介绍一组关键技术，包括结合后退范围控制、视觉调节和时间序列扩散Transformer。这项工作有助于激发新一代策略学习技术，这些技术能够利用扩散模型强大的生成建模能力。

如图所示策略的表示：a) 具有不同类型动作表示的显式策略；b) 隐式策略学习以动作和观测为条件的能量函数，并针对最小化能量景观的动作进行优化 c) 扩散策略通过学习的梯度场将噪声细化为动作。此公式提供稳定的训练，允许学习的策略准确地模拟多模态动作分布，并适应高维动作序列。

请添加图片描述

从演示中学习策略的最简单形式，可以表述为学习将观测结果映射到动作的监督回归任务。然而，在实践中，预测机器人动作的独特性质（例如多模态分布的存在、序列相关性和高精度要求）使这项任务与其他监督学习问题相比具有独特性和挑战性。

先前的研究试图通过探索不同的动作表示（图 a）来应对这一挑战——使用高斯混合（Mandlekar 2021）、量化动作的分类表示（Shafiullah 2022），或通过切换策略表示（图 b）——从显式到隐式以更好地捕捉多模态分布（Florence 2021 ）；（Wu 2020）。
在这个公式中，策略不是直接输出动作，而是根据视觉观测推断动作得分梯度，进行 K 次去噪迭代（图 c）。这个公式允许机器人策略从扩散模型中继承几个关键属性，从而显著提高性能。

虽然 DDPM 通常用于图像生成（x 是图像），但本文使用 DDPM 来学习机器人视觉运动策略。这需要在公式中进行两项重大修改：1. 更改输出 x 以表示机器人动作。2. 使去噪过程以输入观察 Ot 为条件。如图显示了扩散策略的概述：a) 一般公式。在时间步骤 t，该策略将最新的 To 步观察数据 Ot 作为输入，并输出 Ta 步动作 At 。b) 在基于 CNN 的扩散策略中，FiLM（特征线性调制）（Perez 2018）逐个通道对观察特征 Ot 的调节应用于每个卷积层。从高斯噪声中提取的 AtK 开始，减去噪声预测网络 εθ 的输出，重复 K 次得到去噪动作序列 At0。c) 在基于 Transformer （Vaswani 2017）扩散策略中，观察 Ot 的嵌入被传递到每个 Transformer 解码器块的多头交叉注意层中。每个动作嵌入都被限制为仅关注自身和之前的动作嵌入（因果注意），使用所示的注意掩码。

请添加图片描述

基于 CNN 的主干可以很好地完成大多数开箱即用的任务，无需进行太多超参数调整。然而，当所需的动作序列随时间快速急剧变化时（例如速度命令动作空间），它的表现不佳，这可能是由于时间卷积倾向于低频信号的归纳偏差（Tancik 2020）。

在基于状态的实验中，大多数表现最佳的策略都是通过 Transformer 主干实现的，尤其是在任务复杂度和动作变化率较高的情况下。然而，Transformer 对超参数更敏感。

多模态动作分布的建模

对人类演示中的多模态分布进行建模的挑战已得到广泛讨论（Florence 2021)；（Shafiullah 2022)；（Mandlekar 2021)。扩散策略能够自然而准确地表达多模态分布，这是其主要优势之一。

直观地说，扩散策略动作生成的多模态性，来自两个来源——底层随机采样程序和随机初始化。在随机Langevin动力学中，每次采样过程开始时都会从标准高斯中抽取一个初始样本 AtK，这有助于为最终动作预测 At0 指定不同的可能收敛盆地。然后进一步随机优化此动作，并在大量迭代中添加高斯扰动，从而使各个动作样本能够收敛并在不同的多模态动作盆地之间移动。如图展示扩散策略在平面上推动任务（PushT）中的多模态行为示例，没有针对测试场景进行明确演示：在给定状态下，末端执行器（蓝色）可以向左或向右推动方块；扩散策略会学习两种模式，并且每次推出时只承诺一种模式。相比之下，LSTM-GMM （Mandlekar 2021）和（IBC Florence 2021）都偏向一种模式，而 BET（Shafiullah 2022）由于缺乏时间动作一致性而无法保证单一模式。展开 40 步，生成最佳表现检查点的动作。

请添加图片描述

与位置控制的协同作用

具有位置-控制动作空间的扩散策略，始终优于具有速度控制的扩散策略，如图所示。这一令人惊讶的结果与大多数最近通常依赖于速度控制的行为克隆工作，形成了鲜明对比（Mandlekar 2021）；（Shafiullah 2022）；（Zhang 2018）；（Florence 2019）；（Mandlekar 2020b、a）。这种差异可能有两个主要原因：首先，动作多模态在位置控制模式下，比使用速度控制时更为明显。由于扩散策略比现有方法更好地表达了动作多模态性，它本质上受此缺点的影响比其他方法要小。此外，位置控制比速度控制受到的复合误差效应更小，因此更适合动作序列预测。因此，扩散策略不太受位置控制主要缺点的影响，并且能够更好地利用位置控制的优势。

请添加图片描述

动作序列预测的优势

由于难以从高维输出空间有效采样，大多数策略学习方法通常会避免使用序列预测。例如，IBC 很难有效地对具有非平滑能量景观的高维动作空间进行采样。同样，BC-RNN 和 BET 也难以指定动作分布中存在的模态数量（GMM 或 k-means 步骤需要）。

相比之下，DDPM 可以很好地适应输出维度，而不会牺牲模型的表现力，正如许多图像生成应用程序所证明的那样。利用此功能，扩散策略以高维动作序列的形式表示动作，这自然解决了以下问题：
• 时间动作一致性：PushT任务要将 T 块从底部推入目标位置，策略可以从左侧或右侧绕过 T 块。但是，假设序列中的每个动作都被预测为独立的多模态分布（如 BC-RNN 和 BET 中所做的那样），会从不同的模态中提取连续的动作，从而导致在两个有效轨迹之间交替的抖动动作。
• 对空闲动作的鲁棒性：当演示暂停时会发生空闲动作，并导致一系列相同的位置动作、或接近零速的动作。这在远程操作中很常见，有时是液体倾倒等任务所必需的。然而，单步策略很容易过拟合这种暂停行为。例如，当空闲动作没有从训练中明确删除时，BC-RNN 和 IBC 经常会在现实世界的实验中陷入困境。

训练稳定性

虽然从理论上讲，IBC 应该具有与扩散策略类似的优势。然而，由于 IBC 固有的训练不稳定性，在实践中从 IBC 获得可靠且高性能的结果具有挑战性（Ta 2022）。如图显示整个训练过程中的训练误差峰值和不稳定的评估性能，使超参变得关键和检查点选择变得困难。因此，（Florence 2021）评估每个检查点并报告表现最佳的检查点的结果。在现实环境中，此工作流程需要在硬件上评估许多策略以选择最终策略。

请添加图片描述