强化学习之Q-learning && SARSA 对比

本文深入探讨了Q-learning(on-policy)和SARSA(off-policy)两种强化学习算法,通过理论知识和趣味迷宫例子进行解释。Q-learning在更新Q表时考虑了未来奖励,而SARSA则基于实际选取的动作进行更新。通过不断的Q值迭代,最终Q-learning找到最优路径。SARSA更注重当前选择的动作,适合动态环境。
摘要由CSDN通过智能技术生成

Q-learning(on-policy)

参考:http://www.mnemstudio.org/path-finding-q-learning-tutorial.htm
http://www.mnemstudio.org/path-finding-q-learning-tutorial.htm

理论知识:

假设一个小学生放学后有两种选择——看电视或者是做作业,这里小学生就是agent,看电视和做作业就是两种action,分别记为a1和a2。然后建立奖惩机制,看电视会扣2分,做作业会加1分,初始化Q表在初始化状态下为0.然后根据我们的奖惩机制可以,更新在S1状态的Q表值。

由于做作业的Q值高,所以我们会选择a2动作,也即Q(s1, a2),这样下一个状态S2也同样会对应两个动作。Q-learning就是在考虑本步状态的同时也会涉及到下一个状态。对于这里S2中a2动作的Q值比a1大,所以在更新Q(s1, a2)时,把大的 Q(s2, a2) 乘上一个衰减值 gamma (比如是0.9) 并加上到达s2时所获取的奖励 R (这里还没有获取到我们的棒棒糖, 所以奖励为 0), 因为会获取实实在在的

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值