强化学习之Q-learning && SARSA 对比

最新推荐文章于 2024-06-25 21:52:14 发布

yao1131

最新推荐文章于 2024-06-25 21:52:14 发布

阅读量829

点赞数 1

分类专栏：强化学习计算机视觉文章标签：强化学习之Q-learning与SARSA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yao1131/article/details/83757687

版权

本文深入探讨了Q-learning（on-policy）和SARSA（off-policy）两种强化学习算法，通过理论知识和趣味迷宫例子进行解释。Q-learning在更新Q表时考虑了未来奖励，而SARSA则基于实际选取的动作进行更新。通过不断的Q值迭代，最终Q-learning找到最优路径。SARSA更注重当前选择的动作，适合动态环境。

摘要由CSDN通过智能技术生成

强化学习之Q-learning && SARSA 对比

Q-learning(on-policy)
- 理论知识：
- 趣味例子：
SARSA(off-policy)
- 理论知识

Q-learning(on-policy)

参考：http://www.mnemstudio.org/path-finding-q-learning-tutorial.htm
http://www.mnemstudio.org/path-finding-q-learning-tutorial.htm

理论知识：

假设一个小学生放学后有两种选择——看电视或者是做作业，这里小学生就是agent，看电视和做作业就是两种action，分别记为a1和a2。然后建立奖惩机制，看电视会扣2分，做作业会加1分，初始化Q表在初始化状态下为0.然后根据我们的奖惩机制可以，更新在S1状态的Q表值。

由于做作业的Q值高，所以我们会选择a2动作，也即Q(s1, a2)，这样下一个状态S2也同样会对应两个动作。Q-learning就是在考虑本步状态的同时也会涉及到下一个状态。对于这里S2中a2动作的Q值比a1大，所以在更新Q(s1, a2)时，把大的 Q(s2, a2) 乘上一个衰减值 gamma (比如是0.9) 并加上到达s2时所获取的奖励 R (这里还没有获取到我们的棒棒糖, 所以奖励为 0), 因为会获取实实在在的

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。