基于世界模型的深度强化学习

最新推荐文章于 2023-06-15 13:05:53 发布

白楚

最新推荐文章于 2023-06-15 13:05:53 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习阅读笔记

本文链接：https://blog.csdn.net/zb14zb14/article/details/81668313

版权

本文介绍了基于世界模型的深度强化学习方法，通过大型神经网络V+M学习环境模型，再用小型控制器C执行任务。V模型利用VAE生成环境压缩表征，M模型采用RNN-MDN预测未来状态，C模型决定行动策略。通过世界模型训练智能体，能在虚幻梦境中学习策略并迁移到真实环境。

摘要由CSDN通过智能技术生成

起源

世界模型[https://zhuanlan.zhihu.com/p/39928037]被lecun认为是弥补RL不足和通向下一代AI的要点。虽然Model-Based RL不是新概念，但是世界模型的构建方法，以及提升其泛化能力、注意力能力和记忆容量的设计还是颇具挑战性。

DaH和LSTM的发明人在今年五月提出了基于非监督学习训练大规模RNN，用于表征世界模型，并针对强化学习框架设计了智能体架构和简单实现。

本文目的是学习DaH本文的核心要点，记录复现过程。

论文摘要和核心思想

本文探索构建流行的强化学习环境之下的生成神经网络。本文的「世界模型」可以无监督方式进行快速训练，以学习环境的稀疏时空表征。通过使用提取自世界模型的特征作为智能体的输入，训练面向任务的小规模控制器，用简单的策略。甚至可以完全通过由世界模型本身生成的虚幻梦境训练本文的智能体，并把从中学会的策略迁移进真实环境之中。

We explore building generative neural network models of popular reinforcement learning environments. Our world modelcan be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using features extracted from the world model as inputs to an agent, we can train a very compact and simple policy that can solve the required ta

最低0.47元/天解锁文章

白楚

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
基于世界模型的深度强化学习

起源世界模型[https://zhuanlan.zhihu.com/p/39928037]被lecun认为是弥补RL不足和通向下一代AI的要点。虽然Model-Based RL不是新概念，但是世界模型的构建方法，以及提升其泛化能力、注意力能力和记忆容量的设计还是颇具挑战性。DaH和LSTM的发明人在今年五月提出了基于非监督学习训练大规模RNN，用于表征世界模型，并针对强化学习框架设计了智能...
复制链接

扫一扫