【强化学习】重要性采样的直观理解

目的:为了让智能体θ1 看着 另一个智能体θ2玩游戏,然后智能体θ1从θ2中学习。即舍弃on-policy的缓慢,智能体2负责玩,智能体1负责学。可以异步进行提升效率。

直观理解

  • 最开始的时候
    智能体1 和 智能体2 完全一样。假设有三个动作 分别是左中右
    这个时候的概率是 【0.5,0.2,0.3】
    他们的行为完全一致,那么重要性采样的权重对于左中右动作都是 【1,1,1】

  • 当我智能体1学习了很多轮
    这个时候智能体2还是他自己没动,左中右的概率是【0.5,0.2,0.3】
    假设这个时候智能体1的左中右概率是【0.9,0.1,0.1】
    那么对于采样出来的样本的重要性权重则会变为【0.9/0.5,0.1/0.2,0.1/0.3】
    就是对于采样样本来说,我应该对他学习多少。

直观的理解就是 虽然此时此刻我学习的对象是 动作【右】
但是智能体1在学习了很多轮后 对于这次的采样只会学 0.1/0.3 在最开始的时候他是学 0.3/0.3 这么多的。
就是说对于动作【右】,你智能体2虽然是采样出来了,但是我智能体1觉得不那么重要了,就学的更少了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值