强化学习：马尔科夫决策过程（MDP）

最新推荐文章于 2024-06-22 22:23:48 发布

xholes

最新推荐文章于 2024-06-22 22:23:48 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：强化学习马尔科夫随机过程机器学习概率转移矩阵

本文链接：https://blog.csdn.net/xholes/article/details/80185563

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

马尔科夫决策过程

马尔科夫决策过程

马尔科夫过程

马尔科夫性：系统的下一个状态 $S_{t+1}$ 仅与当前状态有关系，而与如何之前的状态没有关系。也就是说，下一个状态并不取决于之前的状态。（不具备记忆性?）

定义：一个状态 $S_t$ 具备马尔科夫性，当且仅当： $P(S_{t+1}|S_t) = P(S_{t+1}|S_t,S_{t-1},\cdots, S_1)$
从这个定义中可以得知，之前的状态如何并不会影响下一步的状态。

对于一个马尔科夫状态 $s$ 和后续状态 $s'$ ，其间的状态转移概率可以定义为：

P s s' = P (S t + 1 = s' | S t = s)

$P_{ss'} = P(S_{t+1} = s' | S_t = s)$

假设一共有 $n$ 个状态，且都具备马尔科夫性，那么它们之间的转换概率可以使用矩阵表示：

P = | \begin{matrix} p_{11} & \dots & p_{1 n} \\ ⋮ & ⋱ & ⋮ \\ p_{n 1} & \dots & p_{n n} \end{matrix} |

$P= \begin{vmatrix} p_{11}& \cdots & p_{1n} \\ \vdots & \ddots &\vdots \\ p_{n1}&\cdots& p_{nn} \end{vmatrix}$

矩阵行表示当前状态，列表示下一个状态，对应的值为两个状态转移的概率。因此，可以得知每列的和为1。

一个马尔科夫过程是无记忆的随机过程，例如一个随机的状态序列，其中每个状态都具备马尔科夫性。马尔科夫过程（马尔科夫链）可以定义为一个元组（tuple）<script type="math/tex" id="MathJax-Element-72"> </script>,其中 $S$ 是一个组数目有限的状态， $P$ 是状态转移概率矩阵。

$$

马尔科夫奖励过程

马尔科夫奖励（reward）过程是一个带值得马尔科夫链。通常可以被定义为一个元组<script type="math/tex" id="MathJax-Element-75"> </script>,其中 $S$ 是一个有限的状态集; $P$ 是状态转移概率矩阵; $R$ 是回报函数， $R_s = E[R_{t+1} | S_t = s]$ ; $\gamma$ 是衰减因子， $\gamma \in [0 , 1]$ 。

回报（return）

回报函数 $G_t$ 是从时间步 $t$ 之后的总的衰减奖励。

G_{t} = R_{t + 1} + γ R_{t + 2} + \dots = \sum_{k = 0}^{} γ^{k} R_{t + k + 1}

$G_t = R_{t+1} + \gamma R_{t+2}+\cdots =\sum_{k=0}^{} \gamma^k R_{t+k+1}$
衰减因子的值会影响后续状态转移的回报值。

γ γ $\gamma$ 小则更注重短期(myopic)回报$$；相应地
，$\gamma$若是较大，则表示更加注重长期（far-sight）回报。

为什么需要衰减因子？
1）避免在马尔科夫回环中产生无限大的值
2）未来并不不确定，因此不需要全部回报
3）符合人类的实践行为—注重眼前效益
…

状态价值函数（value function）

价值函数描绘的是状态的长期价值。一个状态的回报值与其形成的马尔科夫链有关系，不同的链具有不同的回报值。因此，一个马尔科夫随机过程中状态 $s$ 的状态价值函数可以定义为其回报的期望：

v (s) = E [G_{t} | S_{t} = s]

$v(s) = E[G_t | S_t = s]$

状态价值函数

贝尔曼方程

从给出的例子中可以看出，马尔科夫链是可以存在回环的，这就回给求回报时带来一定的困难。尤其当 $\gamma \neq 0$ 时。通过观察所定义的状态价值函数，它可以分解为直接回报和后继状态的衰减值：

v (s) v (s) = E [G t | S t = s] = E [R t + 1 + γ R t + 2 + γ 2 R t + 3 + \dots | S t = s] = E [R t + 1 + γ (R t + 2 + γ R t + 3 + \dots) | S t = s] = E [R t + 1 + γ G t + 1 | S t = s] = E [R t + 1 + γ v (S t + 1) | S t = s] = E [R t + 1 + γ v (S t + 1) | S t = s] = E [R t + 1 | S t = s] + γ E [v (S t + 1) | S t = s] = R s + γ \sum s' \in S P s s' v (s')

$\begin{aligned} v(s) &= E[ G_t | S_t =s]\\ & =E[R_{t+1}+\gamma R_{t+2} + \gamma ^2 R_{t+3} + \cdots | S_t = s]\\ & =E[R_{t+1}+\gamma (R_{t+2} + \gamma R_{t+3} + \cdots) | S_t = s]\\ & =E[R_{t+1}+\gamma G_{t+1} | S_t = s]\\ & =E[R_{t+1}+\gamma v(S_{t+1}) | S_t = s]\\ \\ v(s) &= E[R_{t+1}+\gamma v(S_{t+1}) | S_t = s]\\ &= E[R_{t+1} | S_t = s]+\gamma E[v(S_{t+1}) | S_t = s]\\ & = R_s + \gamma \sum_{s' \in S} P_{ss'}v(s')\\ \end{aligned}$

将上述式子改写成矩阵形式：

v = R + γ P v ⎡ ⎣ ⎢ ⎢ v (1) ⋮ v (n) ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ R 1 ⋮ R n ⎤ ⎦ ⎥ ⎥ + ⎡ ⎣ ⎢ ⎢ P 11 ⋮ P n 1 \dots ⋱ \dots P 1 n ⋮ P n n ⎤ ⎦ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ v (1) ⋮ v (n) ⎤ ⎦ ⎥ ⎥

$\bf v = R + \gamma Pv \\ \begin{bmatrix} v(1) \\ \vdots \\v(n) \end{bmatrix}= \begin{bmatrix} R_1\\ \vdots \\R_n \end{bmatrix}+ \begin{bmatrix} P_{11}& \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\P_{n1} & \cdots &P_{nn} \end{bmatrix} \begin{bmatrix} v(1) \\ \vdots \\v(n) \end{bmatrix}$

这是一个线性方程组，结合线性代数的知识可以直接求解（如果满足要求的话）：

v = (I - γ P) - 1 R

$\bf v = (I - \gamma P)^{-1}R$

对于小的MRP问题，可以直接使用上述式子求解。但对于大型的问题，则需要使用迭代的方法来进行求解。如：
-动态规划法
-蒙特卡罗法
-时间差分学习法

马尔科夫决策过程

定义

一个马尔科夫决策过程（MDP）是一个带决策的马尔科夫奖励过程，是一个其中任意状态具备马尔科夫性的环境。

马尔科夫决策过程可以使用一个元组<script type="math/tex" id="MathJax-Element-92"> </script>表示，其中：
$S$ 表示一个有限的状态组，
$A$ 是一个有限的行为组，
$P$ 是状态转移概率矩阵， $R$ 是回报函数;

$P a s s' = P [S t + 1 = s' | S t = s, A t = a]$ $P_{ss'}^a = P[S_{t+1} = s' | S_t = s,A_t = a]$ $\gamma$ 是衰减因子， $\gamma \in [0 ,1]$ 。

一个马尔科夫简单的例子如下：
马尔科夫决策过程

策略

一个策略 $\pi$ 是给定状态下关于行为的概率分布：

π (a | s) = P [A t = a | S t = s]

$\pi (a|s) = P[ A_t = a | S_t = s]$

-一个策略完全定义了agent的行为。
-MDP策略取决于当前的状态，非历史状态。
-策略是固定的，不是随时间变化的。

对于给定的一个MDP $M =<S,A,P,R,\gamma>$ 和对应的策略 $\pi$ ，其状态序列 $S_1,S_2,\cdots$ 是一个马尔科夫过程 $<S,P^{\pi}>$ ；状态及回报序列 $S_1,R_2,S_2,\cdots$ 是一个马尔科夫奖励过程 $<S,P^{\pi},R^{\pi},\gamma>$ 。

P π s s' = \sum a \in A π (a | s) P a s s' R π s = \sum a \in A π (a | s) R a s

$P_{ss'}^{\pi} = \sum_{a\in A}\pi(a|s)P_{ss'}^{a}\\ R_{s}^{\pi} = \sum_{a\in A}\pi(a|s)R_{s}^{a}$

相应地，状态价值函数可以定义为：

v π (s) = E π [G t | S t = s] = E π [R t + 1 + γ v π (S t + 1) | S t = s]

$v_{\pi}(s) = E_{\pi}[G_t | S_t = s] = E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s]$

另外，可以新定义行为价值函数：

q π (s, a) = E π [G t | S t = s, A t = a] = E π [R t + 1 + γ q π (S t + 1, A t + 1) | S t = s, A t = a]

$q_{\pi}(s,a) = E_{\pi}[G_t | S_t = s, A_t = a] =E_{\pi}[R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1}) | S_t = s, A_t = a ]$

贝尔曼方程

q π (s, a) = R a s + γ \sum s' \in S P a s s' v π (s') = R a s + γ \sum s' \in S P a s s' \sum a' \in A π (a' | s') q π (s', a')

$\begin{aligned} q_{\pi}(s,a) &=R_s^a +\gamma \sum_{s'\in S}P_{ss'}^a v_{\pi}(s')\\ & = R_s^a +\gamma \sum_{s'\in S}P_{ss'}^a \sum_{a'\in A} \pi(a'|s')q_{\pi}(s',a')\\ \end{aligned}$

贝尔曼行为价值函数

v π (s) = E π [R t + 1 + γ v π (S t + 1) | S t = s] = \sum a \in A π (a | s) q π (s, a) = \sum a \in A π (a | s) (R a s + γ \sum s' \in S P a s s' v π (s'))

$\begin{aligned} v_{\pi}(s) &= E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s]\\ & = \sum_{a \in A} \pi (a | s) q_{\pi}(s,a)\\ & = \sum_{a \in A} \pi (a | s) \left( R_s^a +\gamma \sum_{s'\in S}P_{ss'}^a v_{\pi}(s') \right) \end{aligned}$ 贝尔曼状态价值函数

改写为矩阵形式则有：

v π = R π + γ P π v π v π = (I - γ P π) - 1 R π

$v_{\pi} = R^{\pi} + \gamma P^{\pi}v_{\pi} \\ v_{\pi} = (I - \gamma P^{\pi})^{-1} R^{\pi}$

最优价值函数

最优状态价值函数

v * (s) = max π v π (s)

$v_*(s) = \max _{\pi} v_{\pi}(s)$

最优行为价值函数

q * (s, a) = max π q π (s, a)

$q_*(s,a) = \max_{\pi} q_{\pi} (s,a)$

最优价值函数指出了在马尔科夫决策过程中可能的最好决策结果，当我们知道最优结果时则称这个马尔科夫决策过程（MDP）是已解（solved）的。

最优策略

定义一种偏序:

如果对于任意的 $s$ 有 $v_{\pi}(s) \ge v_{\pi '}(s)$ ,那么 $\pi \ge \pi '$ .

定理:

对于任意的MDP:
存在一个最优的策略 $\pi_*$ 使得对于任意的 $\pi$ 有 $\pi _*\ge \pi$ ;
所有的最优策略对应最优状态价值函数，即： $v_{\pi_*}(s) = v_*(s)$
所有的最优策略对应最优行为价值函数，即： $q_{\pi_*}(s,a) = q_*(s,a)$

最优策略的寻找可以通过最大化 $q_*(s,a)$ :

π * (a | s) = {1 i f a = arg max a \in A q * (s, a) 0 o . w .

$\pi_*(a|s) = \left \{ \begin{aligned} &1 \qquad if \ \ a = \underset {a\in A}{\arg \max} q_*(s,a) \cr &0 \qquad o.w.\cr \end{aligned} \right.$

对于任意的MDP过程，总是存在一个确定的最优策略；一旦知道 $q_*(s,a)$ 则可以直接得到最优策略。

贝尔曼最优方程

v * (s) = max a R a s + γ \sum s' \in S P a s s' v * (s') q * (s) = R a s + γ \sum s' \in S P s s' max a' q * (s', a')

$v_*(s) = \underset{a} \max R_s^a + \gamma \sum_{s' \in S}P_{ss'}^a v_*(s')\\ q_*(s) = R_s^a + \gamma \sum_{s' \in S}P_{ss'} \underset{a'}\max q_*(s',a')$

贝尔曼最优方程是非线性的，通常没有闭式解。但可以通过迭代法来求得数值解：
1、值迭代（value iteration）
2、策略迭代（policy iteration）
3、Q学习
4、Sarsa

References
[1]UCL Course on RL
[2]强化学习入门第一讲 MDP

xholes

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
强化学习：马尔科夫决策过程（MDP）

马尔科夫决策过程马尔科夫决策过程马尔科夫过程马尔科夫奖励过程回报（return）状态价值函数（value function）贝尔曼方程马尔科夫决策过程定义策略贝尔曼方程最优价值函数最优策略贝尔曼最优方程马尔科夫过程马尔科夫性：系统的下一个状态St+1St+1S_{t+1}仅与当前状态有关系，而与如何之前的状态没有关系。也就是说，下...
复制链接

扫一扫

专栏目录