Dreamer：机器人域的世界模型

最新推荐文章于 2025-05-01 03:05:04 发布

三谷秋水

最新推荐文章于 2025-05-01 03:05:04 发布

阅读量2.5k

点赞数 28

分类专栏：人工智能机器学习计算机视觉文章标签：机器人人工智能机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/139730618

版权

机器学习同时被 3 个专栏收录

545 篇文章

订阅专栏

计算机视觉

447 篇文章

订阅专栏

人工智能

424 篇文章

订阅专栏

Dreamer是加拿大多伦多大学和谷歌的工作，有三个版本。

20年3月提出的Dreamer v1（“Dream To Control: Learning Behaviors By Latent Imagination“）。

学习的世界模型总结一个智体的经验，促进学习复杂的行为。虽然通过深度学习，从高维感官输入中学习世界模型变得可行，但有许多潜在的方法可以从中推导行为。Dreamer，一种强化学习智体，纯粹通过潜在的想象力来解决图像中的长期任务。将学习状态值的分析梯度传播回世界模型紧凑状态空间中所想象的轨迹，这样可有效地学习行为。

如图所示：Dreamer从过去的经验中学习世界模型，并通过想象的轨迹反向传播价值估计，有效地学习潜在空间中的远见卓识行为。

添加图片注释，不超过 140 字（可选）

如图所示是Dreamer的组件。（a）从过去经验的数据集中，智体学习将观察和行动编码为紧凑的潜状态，例如通过重建，并预测环境奖励（）。（b）在紧凑的潜空间中，Dreamer预测状态值和动作，将梯度传播回想象的轨迹，最大化未来价值预测。（c）智体对事件的历史进行编码，计算当前模型状态并预测要在环境中执行的下一个动作。

添加图片注释，不超过 140 字（可选）

关于智体的伪代码，见如下算法流程图：

添加图片注释，不超过 140 字（可选）

22年2月提出Dreamer v2（“Mastering Atari With Discrete World Models”）。

Dreamer V2，是一种强化学习智体，纯粹从强大世界模型的紧凑潜空间预测中学习行为。世界模型用离散表示，并且与策略分开训练。Dreamer V2是一个在单独训练世界模型中学习行为，在Atari 55项任务的基准上实现类人性能的智体。在相同的计算预算和墙钟时间（wall-clock time）下，Dreamer V2达到了200M帧，并超过了顶级单GPU智体IQN和Rainbow的最终性能。DreamerV2也适用于具有连续动作的任务，可以学习复杂人形机器人的精确世界模型，并从像素输入解决站立和行走问题。

如图是世界模型学习框架。用CNN对图像的训练序列进行编码。RSSM用一系列确定性递归状态。在每一步，计算包含关于当前图像信息的后验随机状态，以及试图在不访问当前图像情况下预测后验的先验随机状态。与PlaNet和Dreamer V1不同，Dreamer V2的随机状态是多个分类变量的向量。KL损失既训练了先验，又正则化了后验从图像中融合了多少信息。正则化增加了对新输入的鲁棒性。它还鼓励重复使用过去步骤中的现有信息来预测奖励和重建图像，从而学习长期依赖关系。

添加图片注释，不超过 140 字（可选）

如图所示是AC学习，把学习的先验知识用于想象。上图中学习的世界模型用于从紧凑潜空间中想象的轨迹中学习策略。轨迹从模型训练期间计算的后验状态开始，并对行动者网络的动作进行采样进行前向预测。批评者网络预测了每个状态未来奖励的预期总和。批评者在想象奖励上使用了时间差（temporal difference）学习。强化梯度、世界模型的直通梯度或它们的组合。训练行动者最大化批评者的预测。

添加图片注释，不超过 140 字（可选）

一些细节如算法1和2所示：

添加图片注释，不超过 140 字（可选）

23年1月提出Dream v3（“Mastering diverse domains through world models”）。

DreamerV3，是一种基于世界模型的通用且可扩展的算法，在具有固定超参的广泛领域中优于以前的方法。这些领域包括连续和离散的动作、视觉和低维输入、2D和3D世界、不同的数据预算、奖励频率和奖励尺度。DreamerV3具有良好的规模特性，较大的模型直接转化为更高的数据效率和最终性能。DreamerV3开箱即用，是一个在没有人类数据或课程的情况下在Minecraft中从头开始收集钻石的算法。
如图是DreamerV3的训练过程。世界模型将感官输入编码为离散表示，由具有给定动作带递归状态的序列模型预测。输入重构为学习信号形成表示。行动者和批评者从世界模型预测的抽象表示轨迹中学习。

添加图片注释，不超过 140 字（可选）