Dreamer-V2论文阅读
Motivation
Dreamer-v2是一个model-based rl 算法,
Method
Dreamer-v2包含三个部分:
world model learning
这里的world model 是latent dynamics model(因为图像是高维输入,需要降维)
组成成分:image-encoder, Recurrent State-Space Model
(这个和model-based imitation learning for urban driving很像)dream的时候用先验的z代替后验的z
损失函数:
这里的实现有两个细节:
1.重参数化:
2. 先验和后验kl balance
actor-critic learning
critic loss:
actor loss:
(具体的细节有待补充)
跑dreamer-v2 pytorch代码时遇到bug:
可能要os.environ[‘MUJOCO_GL’] = ‘osmesa’
Independent’ object has no attribute ‘orig_logits’:需要删除agent的debug