[RL 16] Revisiting Fundamentals of Experience Replay (ICML, 2020)

  1. 定义
    1. replay capacity: buffer大小 D

    2. age of the oldest policy: 一个transition存于buffer期间, 策略更新的次数 N

    3. replay ratio: 每个step更新策略的次数 K,DQN为0.25

    4. 关系: N = K*D
      在这里插入图片描述

    5. 注意: 策略更新次数与batch size无关

  2. 实验结果
    1. Rinbow
      在这里插入图片描述
      • 减小训练更新密度好一些 (从行列的变化可以看出
      • buffer大一些好一些 (从斜向右上的K=0.25的单元可以看出
    2. DQN
      1. 没有什么影响
  3. Adding n-step to DQN enables improvements with larger replay capacities.
  4. Why is n-step the enabling factor?
    1. 一定程度上减轻了bootstrap
    2. 减小了方差
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值