起源
世界模型[https://zhuanlan.zhihu.com/p/39928037]被lecun认为是弥补RL不足和通向下一代AI的要点。虽然Model-Based RL不是新概念,但是世界模型的构建方法,以及提升其泛化能力、注意力能力和记忆容量的设计还是颇具挑战性。
DaH和LSTM的发明人在今年五月提出了基于非监督学习训练大规模RNN,用于表征世界模型,并针对强化学习框架设计了智能体架构和简单实现。
本文目的是学习DaH本文的核心要点,记录复现过程。
论文摘要和核心思想
本文探索构建流行的强化学习环境之下的生成神经网络。本文的「世界模型」可以无监督方式进行快速训练,以学习环境的稀疏时空表征。通过使用提取自世界模型的特征作为智能体的输入,训练面向任务的小规模控制器,用简单的策略。甚至可以完全通过由世界模型本身生成的虚幻梦境训练本文的智能体,并把从中学会的策略迁移进真实环境之中。
We explore building generative neural network models of popular reinforcement learning environments. Our world modelcan be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using features extracted from the world model as inputs to an agent, we can train a very compact and simple policy that can solve the required ta