便于理解DQN Prioritized Experience Replay的相关补充
由于最近在做HEV的DQN和DDPG,看了不少关于DQN的视频(以b站up主莫烦为主)和博客,发现对Prioritized Experience Replay的介绍很多,但都不详细,在看代码的过程中也遇到了某些疑惑。
本文通过对 SumTree 和 Memory 的代码进行注释来进行一些补充。
关于 SumTree 的原理,在莫烦本人的网站中介绍的已经非常清楚,此处不赘述。
# self.tree 用来 存放 p值 >>> tree[0] 为 第零层 tree[1] tree[2] 为第
转载
2021-03-17 11:27:23 ·
225 阅读 ·
0 评论