强化学习-01--Q-learning，Sarsa

weixin_45650561

已于 2023-02-18 14:18:12 修改

阅读量145

点赞数 1

分类专栏：强化学习文章标签：强化学习

于 2020-07-30 09:20:45 首次发布

本文链接：https://blog.csdn.net/weixin_45650561/article/details/107681417

版权

强化学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Q-learning，Sarsa

一、Q-learning与Sarsa算法的区别
二、Sarsa与Sarsa( λ )的区别
- 1、Sarsa( λ )算法
- 2、理解
三、Q learning的公式推导
参考链接：

这一个多月想把强化学习的几种算法再重新学习一遍，与前几次一样，这次也有新的收获。我写这篇文章就是想把我这次学习的收获，记录下来，同时也分享给大家。有写的不对，还请大家指正。

一、Q-learning与Sarsa算法的区别

1、Q-learning 算法

在这里插入图片描述

2、Sarsa算法

在这里插入图片描述

3、理解

Q-learning更新公式： $Q(S_{t},a_{t}) = Q(S_{t},a_{t}) + α[R(S_{t+1}) + γ*maxaQ(S_{t+1},a)-Q(S_{t},a_{t})]$

Sarsa更新公式: $Q(S_{t},a_{t}) = Q(S_{t},a_{t}) + α[R(S_{t+1}) + γ*Q(S_{t+1},a_{t+1})-Q(S_{t},a_{t})]$
从公式中可以看出，这两种算法的区别在于Q现实值的计算，其余地方都一样。

Sarsa是在线学习(On Policy)的算法，使用了两次greedy方法来选择出了 $Q(S_{t},a_{t})$ 和 $Q(S_{t+1},a)$ 。而Q-learning离线学习(Off Policy)的算法，Q-learning选择 $Q(S_{t},a_{t})$ 用了greedy方法，而计算 $Q(S_{t+1},a_{t+1})$ 时用的是max方法，而真正选择的时候又不一定会选择max的行动。

二、Sarsa与Sarsa( λ )的区别

1、Sarsa( λ )算法

在这里插入图片描述

2、理解

Q-learning 和 Sarsa都是单步更新的算法。单步跟新的算法缺点就是在没有到达目的地之前，机器人在原地打转的那些行动也被记录在案，并更新了Q表，即便那些行动都是没有意义的。为解决这个问题，便引入了Sarsa( λ )算法。

Sarsa( $\lambda$ )与Sarsa 算法不同的地方就是多乘了一个 $E (s, a)$ (Eligibility Trace"不可或缺性值")，而这个 $E (s, a)$ 又同时受 $\gamma$ 和 $\lambda$ 调控。并且在更新Q表的时候，不仅仅是更新一个 $Q (S, A)$ ，而是整个Q表所有的Q值都被更新了。
Sarsa( λ )更新公式: $Q(S_{t},a_{t}) = Q(S_{t},a_{t}) + α*E(S_{t},a_{t})*[γ*Q(S_{t+1},a_{t+1})-Q(S_{t},a_{t})]$