强化学习（二）：Q learning 算法

最新推荐文章于 2024-06-05 00:41:58 发布

平行的空间

最新推荐文章于 2024-06-05 00:41:58 发布

阅读量2.5w

点赞数 64

分类专栏：强化学习

本文链接：https://blog.csdn.net/zhm2229/article/details/99351831

版权

强化学习专栏收录该内容

6 篇文章 21 订阅

订阅专栏

本文深入讲解Q学习算法，一种基于价值的强化学习方法。通过迷宫游戏实例，详细阐述Q表的初始化、动作选择策略（ε-greedy）、Q值更新机制及算法流程。旨在帮助读者理解Q学习如何通过迭代优化策略，实现智能体在环境中获得最大奖励。

摘要由CSDN通过智能技术生成

强化学习（一）：基础知识

强化学习（二）：Q learning算法

Q learning 算法是一种value-based的强化学习算法，Q是quality的缩写，Q函数 Q(state，action)表示在状态state下执行动作action的quality，也就是能获得的Q value是多少。算法的目标是最大化Q值，通过在状态state下所有可能的动作中选择最好的动作来达到最大化期望reward。

Q learning算法使用Q table来记录不同状态下不同动作的预估Q值。在探索环境之前，Q table会被随机初始化，当agent在环境中探索的时候，它会用贝尔曼方程（ballman equation）来迭代更新Q(s,a)，随着迭代次数的增多，agent会对环境越来越了解，Q 函数也能被拟合得越来越好，直到收敛或者到达设定的迭代结束次数。

以一个例子来介绍Q learning算法

游戏介绍

下图是一个迷宫游戏，agent小老鼠最开始在（0,0）位置，它想走到（1,2）的位置去获取一大堆奶酪，当它到达（1,2）位置的时候，它能得到10分，（1,1）位置是一个毒药，小老鼠走到这个位置会得-10分，其他有的位置放有数量不同的奶酪，根据奶酪的个数得到不同的正向分数，如+1和+2，（0,2）位置什么都没有，它的reward为0。当小老鼠达到一大堆奶酪或者毒药的位置时，游戏结束。小老鼠的可以选择的动作有4个，分别是向上，向下，向左，向右移动。

Q table

我们使用Q table来存储agent在不同state下选择不同动作可以获得的Q value。state是指老鼠所在的位置，action是老鼠在这个位置上所有能选择的动作。表的每一行表示一个state，每一列表示一个action。表中的值表示在这个state和action的最大期望未来reward。Q table最开始的时候会被初始化，比如初始化为0。如下图所示：

在这个游戏中，可以建立一个6*4的表，初始化的Q table如下图所示：

选择action

游戏开始后，我们根据Q table来选择action。

但是由于Q table都被初始化为0了，所有动作的值都是一样的，怎么进行动作选择了？

exploitation-exploration

这里会采用一个exploitation-exploration的方法，它用的 $\varepsilon$ -greedy 策略选择action。

exploitation ：根据当前的信息，由训练的模型做出最佳的决策，即选择Q value最大的动作。

exploration：探索未知的领域，比如在某个state下随机选择一个action。

做exploitation和exploration的目的是获得一种长期收益最高的策略，这个过程可能对short-term reward有损失。如果exploitation太多，那么模型比较容易陷入局部最优，但是exploration太多，模型收敛速度太慢。这就是exploitation-exploration权衡。

比如我们设 $\varepsilon$ =0.9，随机化一个[0,1]的值，如果它小于 $\varepsilon$ ，则进行exploration，随机选择动作；如果它大于 $\varepsilon$ ，则进行exploitation，选择Q value最大的动作。

在训练过程中， $\varepsilon$ 在刚开始的时候会被设得比较大，让agent充分探索，然后 $\varepsilon$ 逐步减少，agent会开始慢慢选择Q value最大的动作。如下图所示：

由于刚开始， $\varepsilon$ 比较大，agent随机选择一个action。假如在start位置时，agent选择了往右走的动作，到达small cheess位置，如下图所示：

Q value更新

agent从start位置执行一个right动作，走到small cheese位置，得到了一个实时奖励 + 1分，然后我们更新Q table里第一行第二列的值。

更新的方法是用贝尔曼方程（Bellman equation），下面是Q learning算法更新的方法：

R(s,a) 是实时奖励， $maxQ^{'} (s^{'},a^{'})$ 是指在下一个状态 $s^'$ ，选择使下一个状态 $Q^'$ 达到最大的动作 $a^'$ 后得到的 $Q^'$ 值。 $\gamma maxQ^{'} (s^{'},a^{'})$ 表示未来的长期奖励。

$R(s,a) + \gamma maxQ^{'} (s^{'},a^{'})$ 组成在 (s,a) 下的实际Q 值，它由实时奖励和未来的长期奖励组成。

Q(s,a) 是在 (s,a) 下的估计Q值，实际Q值 $R(s,a) + \gamma maxQ^{'} (s^{'},a^{'})$ 和估计Q值 Q(s,a) 的差值表示为 $\Delta Q(s,a)$ 。

$\alpha$ 是学习率，表示每次更新的幅度， $Q(s,a) + \alpha [R(s,a) + \gamma maxQ^{'} (s^{'},a^{'})-Q(s,a)]$ 是指在 Q(s,a) 的基础上以差值 $\Delta Q(s,a)$ 和学习率 $\alpha$ 的乘积的幅度进行变化。

当实际值和估计值的差值趋于0的时候， Q(s,a) 就不再继续变化，Q 表趋于稳定，说明得到了一个收敛的结果。

下面来看看state为start，action为right时的 Q(s,a) 具体是怎么计算的，设 $\gamma =0.9$ ， $\alpha =0.1$ ，

首先我们计算在（start，right）的位置上的 $\Delta Q(s,a)$ 。 $\Delta Q(s,a)$ 是指实际Q值 $R(start,right)+\gamma maxQ^{'} (1cheess^{'},a^{'})$ 减去估计Q值 Q(start,right) 。即时奖励加上长期奖励 $\gamma maxQ^{'} (1cheess^{'},a^{'})$ 组成实际Q值，是初始化的值。

在计算 $maxQ^{'} (1cheess^{'},a^{'})$ 时，我们将1cheess状态下所有的状态的Q值计算出来，选择最大的。由于都是0，所以 $maxQ^{'} (1cheess^{'},a^{'})$ 为0。然后将 R(start,right) =1代入进去，得到 NewQ(start,right) =0.1。