- 定义
-
replay capacity: buffer大小 D
-
age of the oldest policy: 一个transition存于buffer期间, 策略更新的次数 N
-
replay ratio: 每个step更新策略的次数 K,DQN为0.25
-
关系: N = K*D
-
注意: 策略更新次数与batch size无关
-
- 实验结果
- Rinbow
- 减小训练更新密度好一些 (从行列的变化可以看出
- buffer大一些好一些 (从斜向右上的K=0.25的单元可以看出
- DQN
- 没有什么影响
- Rinbow
- Adding n-step to DQN enables improvements with larger replay capacities.
- Why is n-step the enabling factor?
- 一定程度上减轻了bootstrap
- 减小了方差
[RL 16] Revisiting Fundamentals of Experience Replay (ICML, 2020)
最新推荐文章于 2023-05-19 21:27:46 发布