强化学习(1)——scratching the surface

李宏毅老师的课件
https://www.bilibili.com/video/BV1XP4y1d7Bk/?spm_id_from=333.337.search-card.all.click&vd_source=e7939b5cb7bc219a05ee9941cd297ade


在这里插入图片描述



在这里插入图片描述



在这里插入图片描述



在这里插入图片描述



在这里插入图片描述



![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9502a795feba46959c56092d5f370b76.png在这里插入图片描述

上面这个式子非常直觉,当R为负数时,就要减少p,当R为正时,就增大p.
另外是乘的是整个序列的Reward而不是每个动作的奖励。如果乘每个动作的奖励,那它就会只会一直在原地开火,而不会左右移动,因为左右动作得到的奖励是0。(视频中类似打方块游戏)

下一个问题是为什么要除p:
在这里插入图片描述

如果没除,做更新的时候会偏好那些出现次数比较多的动作,就算那些动作并没有真的比较好。可能某个动作很好,但是只出现了一次。所以除概率p相当于归一化操作,这样就不会偏好那些出现次数多的行为。

如果R都为正?理想情况下不是问题,因为出现次数少的几率也小。
实际没采样到的几率就会减少。
所以应该将R减去bias,让它有正有负。
式子中减去的b就是题目的baseline,如果一个τ好于baseline就在正的,否则就是负的。
在这里插入图片描述



实际操作时:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
上面这个图意思是:采集样本 τ1,τ2……
然后按分类问题训练网络,input:S11,target:a11……
每个样本要乘一个权重R
这样更新完参数后,再采集样本,再按分类问题训练,加权,采集样本、训练……

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值