强化学习基础

何处微尘

已于 2022-07-23 20:52:53 修改

阅读量402

点赞数 1

分类专栏：强化学习文章标签：人工智能机器学习算法

于 2022-07-22 23:40:58 首次发布

本文链接：https://blog.csdn.net/xiaofengsen/article/details/125941625

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习基础

强化学习的几个基本要素

1） $s_t$ ： $t$ 时刻环境的状态

2） $a_t$ ： $t$ 时刻智能体采取的动作

3） $R_{t + 1}$ ： $t$ 时刻智能体在状态 $s_t$ 下采取动作 $a_t$ 后，在 $t + 1$ 时刻得到的奖励。

4） $\pi(a|s)$ : 智能体的策略，表示在状态 $s$ 下采取动作 $a$ 的概率。
$\pi(a|s) = P(a_t = a|s_t = s)$

5） $P_{ss^{\prime}} ^a$ ：环境的状态转化模型。表示在状态 $s$ 下采取动作 $a$ ，转到下一个状态 $s^\prime$ 的概率。

6） $\gamma$ : 奖励衰减因子。 $\gamma \in [0, 1]$ ，取 0 时表示完全贪婪策略，只关注当前步骤所获得的奖励值。

7） $\alpha$ ：学习率。

8） $\epsilon$ ：探索率，探索其他动作的概率。

9） $V_{\pi}(s)$ : 智能体在状态 $s$ 时通过策略 $\pi$ 采取动作后的状态价值函数。
$V_{\pi}(s) = E_{\pi}(R_{t + 1} + \gamma R_{t + 2} + \gamma^2 R_{t + 3} + ... |s_t = s)$

10） $Q_{\pi}(s, a)$ : 智能体在状态 $s$ 时通过策略 $\pi$ 采取动作 $a$ 后的动作价值函数。
$Q_{\pi}(s, a) = E_{\pi}(G_t | s_t = s, a_t = a) = E_{\pi}(R_{t + 1} + \gamma R_{t + 2} + \gamma^2 R_{t + 3} + ... |s_t = s, a_t = a)$

从这里我们能看出来 $γ$ 奖励衰减因子对Q函数的影响，γ越接近于1代表它越有远见会着重考虑后续状态的的价值，当γ接近0的时候就会变得近视只考虑当前的利益的影响。所以从0到1，算法就会越来越会考虑后续回报的影响。

贝尔曼方程

1）在 $t$ 时刻的状态 $s_t$ 和 $t + 1$ 时刻的状态 $s_{t + 1}$ 满足递推关系：

$V_{\pi}(s) = E_{\pi}(R_{t + 1} + \gamma V_{\pi}(s_{t + 1}) |s_t = s)$

即一个状态的价值由该状态所得的奖励以及后续下一个状态的价值按一定的衰减比例联合组成。

2）同理可得动作价值函数 $Q_{\pi}(s, a)$ 的贝尔曼方程：
$Q_{\pi}(s, a) = E_{\pi}(R_{t + 1} + \gamma Q_{\pi}(s_{t + 1}, a_{t + 1}) |s_t = s, a_t = a)$

Bellman方程实际上就是状态价值函数与动作价值函数的转换关系：

① $V_{\pi}(s) = \sum_{a \in A}\pi(a|s)Q_{\pi}(s, a)$
状态价值 $=$ $\sum$ 该状态下所有的动作价值 $\times$ 该动作出现的概率
也就是说，状态价值函数是该状态下所有动作价值函数基于策略 $\pi$ 的期望

② $Q_{\pi}(s, a) = R_s + \gamma\sum_{s \in S}P_{ss^{\prime}} ^aV_\pi(s^{\prime})$
状态价值函数 $=$ 即时奖励 + 奖励衰减因子 $\times$ 所有可能出现的下一状态的概率 $\times$ 该下一状态的状态价值

序列决策问题

时间差分方法(Temporal-Difference，简称TD) 和蒙特卡洛方法是无模型强化学习方法，动态规划方法是基于模型的强化学习方法。
时间差分方法与动态规划方法(DP) 和蒙特卡洛方法(MC) 相比，不同在于值函数的估计。

① 动态规划法（DP）：

由于DP算法是基于模型的方法，所以当前状态 $s$ 的所有后继状态 $s^{\prime}$ 是已知的，可以直接用后继状态的值函数估计当前值函数，也就是使用bellman方程求解值函数。

值函数估计公式： $V(s)←E_\pi[R_{t+1}+\gamma V(S_{t + 1})] = \sum_ap(s^{\prime}, r | s_t, a)[r + \gamma V(s^{\prime})]$

此处有一个概念：值函数的计算用到了 bootstapping 的方法。所谓 bootstrpping 本意是指自举，此处是指当前值函数的计算用到了后继状态的值函数。即用后继状态的值函数计算当前值函数。

② 蒙特卡罗法（MC）：

在 Policy Gradient 中使用到了这种方法，MC可以应用在 model-free 的算法中，由于没有模型，后继状态无法全部得到，所以MC方法需要执行一个完整的 episode 才可以进行估计，需要回合结束才能更新。相对于动态规划方法，学习速度慢，效率低。
注意此处的 $G_t$ 是利用经验平均估计状态的值函数所计算出来的，表示一次完整的 episode 采样得到的奖励值折扣累加和。

值函数估计公式： $V(s)←V(s)+\alpha (G_t-V(s))$
$G_t^{(n)} =R_{t+1}+γR_{t+2} +γ^2 R_{t+3} +......γ^{n−1} R_{t+n} +γ^n V(S_{t+n})$

其中， $G_t$ 是一次完整的 episode 采样中从 t 时刻开始的总折扣奖励。

结合以上两个方法的优势就得到了TD算法，TD算法可以进行单步更新。

③ 时间差分法（TD）

时间差分方法结合了蒙特卡罗的采样方法和动态规划方法的 bootstrapping (利用后继状态的值函数估计当前值函数)，使得TD可以适用于model-free的算法并且是单步更新，速度更快。
值函数计算方式如下：

$V(s)←V(s)+\alpha (R_{t+1}+\gamma V(s^′ )−V(s))$

其中， $R_{t+1}+\gamma V(s^′ )$ 被称为TD目标， $\delta_t=R_{t+1}+\gamma V(s^′ )−V(s)$ 称为TD偏差。

可以发现其实就是把蒙特卡罗法中估计的 $G_t$ 替换成了TD目标，因为TD目标使用了 bootstrapping方法估计当前值函数，所以这样就结合了动态规划的优点避免了回合更新太慢的缺点。
时间差分方法包括 on-policy 的 Sarsa 方法和 off-policy 的 Q-Learning 方法。

TD(0)的估计方式如下：