【自用笔记】Q—learning

[理论篇]怎样直观理解Qlearning算法? - 知乎 (zhihu.com)

侵删

1 延续TD

也就是用下一步的V值更新这一步的V值(蒙特卡洛(所有Q取期望)的变体)(把下一步的V转化为Q=r+αV,再把Q平均到V中)

S到A有多种选择,所以V值是Q值的期望(平均),Q值是r+αV,V值是Q的平均。

所以虽然V不等于Q,但人们认为有个可能的动作产生的Q值能够一定程度代表V


2 SARSA

**用一个与上一次策略相同的动作的Q代替V,此时可以以此计算r+αQ得出上一个Q

所以:由TD公式也就可以变形出SARSA公式,只不过是由V值更新V值变为了Q值更新Q值

**注意:St选At的策略和St+1选At+1是同一个策略


3 Q-Learning

**注意:能够产生最大Q值的动作At+1的Q值作为V(St+1)的替代

对比:


4 总结
  1.  Qlearning和SARSA都是基于TD(0)的。
  2. 不过我们用TD(0)估算状态的V值;而Qlearning和SARSA估算的是动作的Q值。
  3.  Qlearning和SARSA的核心原理,是用下一个状态St+1的V值,估算Q值。(Q=r+αV)
  4. 改进:我们用下一状态下的某一个动作的Q值,来代表St+1的V值。
  5. Qlearning和SARSA唯一的不同,就是用什么动作的Q值替代St+1的V值。

        - SARSA 选择的是与上一策略同一个策略产生的动作的Q值。

        - Qlearning 选择的是能够产生最大Q值的动作的Q值(最大Q值)。

  • 6
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值