强化学习（五）——Sarse和Q-learning

最新推荐文章于 2025-03-16 11:52:03 发布

2014乘风破浪2014

最新推荐文章于 2025-03-16 11:52:03 发布

阅读量1.6k

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/wqy20140101/article/details/89670995

版权

17 篇文章

订阅专栏

Sarse和Q-learning：类属于时序差分方法，因此就不难理解，两者对价值函数的更新公式中，都是先对当前时刻的收获 $G (t)$ 进行了近似。既然是时序差分方法的大家庭，那两种方法也都是无模型的强化学习，即agent对环境的状态转移概率是未知的，需要与环境互动，生成样本。其中，Sarse是时序差分在线控制算法，Q-learning是时序差分离线控制算法。
离线算法和在线算法：在线和离线，指的是policy上的在线和离线，即off-policy和on-policy。分类的依据是生成样本的policy和学习使用的policy是否是一样的。一样的就认为是在线算法，不一样就认为是离线算法。Sarse生成样本和学习都是使用e-贪婪策略，但是Q-learning生成样本使用e-贪婪策略，学习策略（估计Q函数）使用的是贪婪策略。这在算法中可以看出。

单步Sarse：一开始所有状态动作价值初始化为0。首先，利用e-贪婪算法根据当前状态选取当前动作，执行后得到新状态和奖励，再根据新状态继续使用e-贪婪算法选取新动作，随后更新状态动作价值函数，并以新状态和新动作替换当前的状态和动作。以此迭代直到状态动作价值函数收敛。
多步Sarse：参看多步Sarse，从伪代码看，Sarse和时序差分方法主要区别是，时序差分方法更新的是状态价值函数，Sarse更新的是动作状态价值函数。但是两者多步的实现算法基本一致，过程中都需要存储 <当前状态，当前动作，下一个状态，下一个动作>。累计到一定阈值后，利用该存储去更新价值函数。

参看博文Q-learning

Q-learning：首先，利用e-贪婪算法根据当前状态选取当前动作，执行后得到新状态和奖励，根据新状态使用贪婪算法选取新动作，根据新动作的价值函数来更新当前动作价值。以新状态替换当前状态。以此迭代直到动作价值函数收敛。
实现代码也与Sarse仅有较小的区别，此处不再说明。

从算法实现来看，Sarse至始至终都是一种选择动作的方法：e-贪婪算法。然而Q-learning执行动作的选取是用e-贪婪算法，更新Q函数用贪婪算法得到的新动作价值。这也就是为什么，我们说，Q-Learning直接学习的是最优策略，而SARSA在学习最优策略的同时还在做探索。
这两种方法，都意味着在求解过程需要对一张的动作状态价值表进行更新存储。当动作状态非常多，甚至是连续情况，那么这两种方法都不再适用。下一节学习如何用神经网络来进行Q-learning。