强化学习中Sarsa与Q-learning的区别

最近在学习强化学习,Sarsa和Q-learning作为强化学习中较为经典的的方法,两者之间有一定的相似之处,但又有较大的区别,能够很好的区分两种方法对区分on-policy和off-policy,以及之后对强化学习的进一步学习都很有帮助。
先介绍Sarsa和Q-learning共用的探索策略,再说明Sarsa和Q-learning的区别,最后拓展到on-policy和off-policy的区别。

一、ε-greedy

Sarsa和Q-learning在探索时都是用到了ε-greedy的策略。在训练过程中我们既要保证我们会沿着Q表格的指引进行活动,但同时我们有需要进行探索,我们不能固守已有的Q表格而不做出新的尝试,如何确定某一步是按照Q表格进行还是进行一步随机探索呢,这里使用到了ε-greedy,我们会事先设定一个ε的值,假设我设定ε值为0,1,在每一部行动前我们会掷色子(在0-1之间生成一个随机数),随机数如果大于ε我们选择按Q表格行动,小于ε我们会在可能的行动中随机探索一次。
ε-greedy:
在这里插入图片描述

二、Sarsa和Q-learning的区别

首先来对比Sarsa和Q-learning对于Q值更新的区别,将通过伪代码额方式来直观展示两者在计算Q值时的区别

1.Sarsa

Sarsa的伪代码:
在这里插入图片描述

在Sarsa的Q值更新公式,r+γQ(s’,a’)可以视为目标Q值,Sarsa每次都是在下一次采取实际动作之后再更新Q值,a’代表下一次的实际action,Sarsa的每次更新都是在动作实际发生以后。
Sarsa的步骤如下图所示:
在这里插入图片描述

Sarsa会在实际动作发生后来更新Q值,在实际的训练过程中我们会采取ε-greedy策略来实现探索,因此Sarsa会有几率将探索的动作Q值更新在Q表格中,表现在悬崖问题中,掉入悬崖的reward为-100,在悬崖边上会有几率掉入悬崖而获得特别差的分数,所以Sarsa会选择离悬崖最远的路径。

2.Q-learning

Sarsa的伪代码

在这里插入图片描述可以看到Q-learning的Q值更新策略与Sarsa的一个大的区别来自于对于目标Q值的更新,Q-learning在更新Q值时下一步动作是不确定的,它会选取Q值最大的动作来作为下一步的更新。

3.总结

综上,Sarsa和Q-learning的本质区别来自于对于Q值的更新方式不同,Sarsa使用下一步的实际动作来作为更新,而Q-learning选取下一步Q值最大的动作作为更新。
因此两种算法在表现上也会有很大的区别,Sarsa表现得更为胆小,因为它会记住每一次错误的探索,它会对错误较为敏感,而Q-learning只在乎Q值的最大化,因此Q-learning会十分贪婪,表现得十分大胆。

三、举例

下面我将分别用Sarsa和Q-learning来解决悬崖问题,来直观展示两者方法的区别
悬崖问题:
在这里插入图片描述
我们需要从起点运动到终点,其中黑色的为陷阱,掉入陷阱会reward为-100,其他每运动一步reward为-1

1.代码区别

实现代码的主要区别来自于上文提到的对于Q值更新的不同
Sarsa:

target_Q = reward + self.gamma * self.Q[next_obs, next_action]  
self.Q[obs, action] += self.lr * (target_Q - predict_Q)  # 修正q

Q-learning:

target_Q = reward + self.gamma * np.max(self.Q[next_obs, :])
self.Q[obs, action] += self.lr * (target_Q - predict_Q)  # 修正q

2.运行区别

Q-learning:
在这里插入图片描述

Sarsa:
在这里插入图片描述
可以看到同样训练500次,最后Sarsa和Q-learning给了不同的代价,Sarsa为-17,Q-learning为-13
形象展示的的话
在这里插入图片描述可以看出Q-learning表现得更加大胆,贴着悬崖,而Sarsa却选择了离悬崖最远的路线。

四、off-policy和on-policy对比

On-policy:是指产生数据的策略与评估和要改善的策略是同一个策略。
Off-policy是指产生数据的策略与评估和改善的策略不是同一个策略。

对比Sarsa和Q-learning就能很好对比off-policy和on-policy,Sarsa是on-policy,而Q-learning是off-policy。
Sarsa优化的是实际上执行的策略,每一步action都是实际发生的,受到探索的影响,可能学不到最优解,收敛到局部最优。
Q-learning则进行了改进,Q-learning会有行为策略和目标策略,行为策略来用于大胆探索,目标策略根据行为策略来优化自己,两者在一定程度上相互独立,所以off-policy不仅可以使用自己的训练数据,也可以使用外来数据。

参考:https://blog.csdn.net/deepseazbw/article/details/109843238?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-5.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-5.no_search_link

  • 16
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yf_programmer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值