强化学习中Q-Learning算法和SARSA算法的区别

最新推荐文章于 2023-03-06 18:53:03 发布

沉睡的小灰

最新推荐文章于 2023-03-06 18:53:03 发布

阅读量847

点赞数 1

分类专栏：强化学习文章标签：强化学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44065323/article/details/117397257

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

公式

Q-learning

SARSA

区别

其实我认为俩者的区别就是在于更新的时候有没有考虑到e-greed贪恋算法中的随机这个因素，sarsa考虑到了，Q-learning没有考虑。为什么这么说呢？

假设我们有三个状态S1 S2 S3

我们在使用SARSA的时候会用到S1 A1 R 和S2 A2（sarsa的构成），这个时候我们发现，我们的机器其实已经走到了S3这个位置，是在执行完A2这个动作之后，我们更新的是S1的Q表格

而Q-learning的区别在于，我们在更新Q表格的时候实际上我们还在S2这个位置，我们的A2这个值呢，是猜的。

为什么说是猜的，我们使用的是max，也就是Q值最大的那个动作，我们在SARSA实际上走的时候不也使用的是Q值最大的那个动作嘛？

实际上不然，我们有一定的概率随机走，也就是我们的e-greed贪心算法，在SARSA中，走完之后我们知道实际上走的A2动作是什么，也就知道，我们是在随机探索呢，还是按着既定策略在走。而Q-learning则以为，我们一直按着既定策略在走，他不知道我们实际上有探索这个过程，所以这就是区别。

SARSA：实践是检验真理的唯一途径

Q-learning：我不要你以为，我要我以为，我以为你是这么走的，那你就是这么走的

这样的话，SARSA就会考虑到危险的可能性，于是呢，他就会离着危险的地方远远的。而Q-learning他就压根不知道有危险这个东西存在，于是呢，他会朝着最捷径的路去走（如下图）
在这里插入图片描述

其实这样就能更好的理解on-policy和off-policy的区别，on-policy都是按着我们实际的策略在走，off-policy就不一定了。在这里由于理解可能过于片面就不详细赘述了。

沉睡的小灰

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习中Q-Learning算法和SARSA算法的区别

公式Q-learningSARSA区别其实我认为俩者的区别就是在于更新的时候有没有考虑到e-greed贪恋算法中的随机这个因素，sarsa考虑到了，Q-learning没有考虑。为什么这么说呢？假设我们有三个状态S1 S2 S3我们在使用SARSA的时候会用到S1 A1 R 和S2 A2（sarsa的构成），这个时候我们发现，我们的机器其实已经走到了S3这个位置，是在执行完A2这个动作之后，我们更新的是S1的Q表格而Q-learning的区别在于，我们在更新Q表格的时候实际上我们还在S2这
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。