Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

最新推荐文章于 2022-10-28 23:46:46 发布

MrTriste

最新推荐文章于 2022-10-28 23:46:46 发布

阅读量585

点赞数

分类专栏：强化学习 silver slides 文章标签：强化学习马尔科夫决策过程 Markov Decision Process silver slides

本文链接：https://blog.csdn.net/wjc1182511338/article/details/79887045

版权

强化学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

silver slides

4 篇文章 0 订阅

订阅专栏

Markov Processes

MDP被用来描述强化学习的可完全观测的环境。几乎所有的强化学习问题可以用MDP来描述，Optimal control primarily deals with continuous MDPs. Partially observable problems can be converted into MDPs. Bandits are MDPs with one state.

Markov性质：未来只和现在有关，和过去无关，也就是现在的状态捕捉到过去状态的所有信息。

Markov Process(MP)/Markov Chain由状态集合和和状态转移概率矩阵组成，即 $\langle \mathcal{S} ,\mathcal{P}\rangle$

Markov Reward Processes

Markov reward process(MRP) 带有值的马尔科夫链。也就是在原来的基础上，每个状态多了一个对应的值，以及多了一个用于计算reward时的discount factor折扣因子 $\gamma$ ，即 $\langle \mathcal{S} ,\mathcal{P},\mathcal{R},\gamma \rangle$

value function: 表示状态s的长期收益，即

G t v (s) = R t + 1 + γ R t + 2 + . . . = \sum k = 0 \infty γ k R t + k + 1 = E [G t | S t = s] (1) (2)

$\begin{align} G_t &= R_{t+1} + \gamma R_{t+2}+...=\sum_{k=0}^\infty \gamma^kR_{t+k+1} \\ v(s) &=\mathbb{E}[G_t|S_t=s] \end{align}$

Bellman Equation

value function可以被分解成两部分，immediate reward $R_{t+1}$ 和discounted value of successor state $\gamma v(S_{t+1})$ .

$v (s) = E [G t | S t = s] = E [R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . | S t = s] = E [R t + 1 + γ (R t + 2 + γ R t + 3 + . . .) | S t = s] = E [R t + 1 + γ G t + 1 | S t = s] = E [R t + 1 + γ v (S t + 1) | S t = s] (3) (4) (5) (6) (7)$ $\begin{align} v(s) &=\mathbb{E}[G_t|S_t=s]\\ &=\mathbb{E}[R_{t+1} + \gamma R_{t+2}+\gamma^2R_{t+3}+...|S_t=s]\\ &=\mathbb{E}[R_{t+1} + \gamma( R_{t+2}+\gamma R_{t+3}+...)|S_t=s]\\ &=\mathbb{E}[R_{t+1} + \gamma G_{t+1}|S_t=s]\\ &=\mathbb{E}[R_{t+1} + \gamma v(S_{t+1})|S_t=s]\\ \end{align}$
本来是要计算对之后所有时刻的reward的求和，现在只要利用下个时刻状态的value function即可。

将上式的期望写具体得到：（ $\mathcal{P}_{ss'}$ 是状态转移概率）

$v (s) = R t + 1 + γ \sum s' \in S P s s' v (s')$ $v(s) = R_{t+1} + \gamma\sum_{s' \in S}\mathcal{P}_{ss'}v(s')$
写成矩阵：
$v = R + P v$ $v = \mathcal{R}+\mathcal{P}v$
即：
$⎡ ⎣ ⎢ ⎢ v (1) ⋮ v (n) ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ R 1 ⋮ R n ⎤ ⎦ ⎥ ⎥ + γ ⎡ ⎣ ⎢ ⎢ P 11 ⋮ P n 1 \dots \dots P 1 n P n n ⎤ ⎦ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ v (1) ⋮ v (n) ⎤ ⎦ ⎥ ⎥ (8)$ $\begin{align} \begin{bmatrix} v(1)\\ \vdots\\ v(n) \end{bmatrix} = \begin{bmatrix} \mathcal{R}_1\\ \vdots\\ \mathcal{R}_n \end{bmatrix} + \gamma \begin{bmatrix} \mathcal{P}_{11}&\cdots&\mathcal{P}_{1n}\\ \vdots\\ \mathcal{P}_{n1}&\cdots&\mathcal{P}_{nn} \end{bmatrix} \begin{bmatrix} v(1)\\ \vdots\\ v(n) \end{bmatrix} \end{align}$
为了求得，可以解上述的等式：
$v = (1 - γ P) - 1 R$ $v = (1-\gamma \mathcal{P})^{-1}\mathcal{R}$
但求逆的复杂度为o(n^3)，太高，对大规模MRPs有一些迭代方法可以求解，如，Dynamic programming，Monte-Carlo evaluation，Temporal-Difference learning.

Markov Decision Processes

Markov Decision Processes(MDP) 是带有决策的MRP，即在MRP上上多了采取行动，即 $\langle \mathcal{S},\mathcal{A} ,\mathcal{P},\mathcal{R},\gamma \rangle$ ，It is an environment in which all states are Markov.

带来的变化就是：MDP考虑了动作，即系统下个状态不仅和当前的状态有关，也和当前采取的动作有关。有一点要注意的是：在某个状态执行完某个动作后，不一定是到达一个固定的状态，还可能有多种可能性，如下图所示：

定义：

举个例子（0.2,0.4,0.4那里执行动作后有多个状态，其他的为一个状态）

Policy

策略是在状态给定的情况下行动的分布，即 $\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$

注意：
1. 策略完全定义了agent的行为
2. MDP的策略取决于当前状态，而不是history，也就是与时间无关，是静态的， $A_t=\pi(\cdot |S_t), \forall t \gt 0$
3. 给定Policy，那么MDP包含了MRP和MP
需要注意的是，在这里，概率转移矩阵的元素需要经过计算，s->s’的转移概率为采取所有能到s’的行动a，对 $\mathcal{P}^a_{ss'}$ 加权求和。
Value Function

MDP的value function有两个，state-value function和action-value function
- state-value function
是从状态s开始，然后采取策略 $\pi$ 的期望收益，即 $v_{\pi}(s)=\mathbb{E}_{\pi}[G_t|S_t=s]$
- action-value function
是从状态s开始、采取行动a后，然后采取策略 $\pi$ 的期望收益，即 $q_{\pi}(s,a)=\mathbb{E}_{\pi}[G_t|S_t=s,A_t=a]$
Bellman Expectation Equation

和MRP一样，value function可以被分解成两个部分：

在状态s采取行动a会有reward: $\mathcal{R}_s^a$
- state-value function
  $v π (s) = E π [G t | S t = s] = E π [R t + 1 + γ v π (S t + 1) | S t = s] = \sum a \in A π (a | s) ⟮ R a s + γ \sum s' \in S P a s s' v π (s') ⟯ (89) (90) (91)$ $\begin{align} v_{\pi}(s)&=\mathbb{E}_{\pi}[G_t|S_t=s]\\ &=\mathbb{E}_{\pi}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s]\\ &=\sum_{a \in A} \pi (a|s)\lgroup \mathcal{R}_s^a+\gamma \sum_{s' \in S }\mathcal{P}_{ss'}^a v_{\pi}(s') \rgroup \end{align}$
  其中最后一步，
先对每个动作求回报，再将这些动作的回报求和。
- action-value function
  
  $q π (s, a) = E π [G t | S t = s, A t = a] = E π [R t + 1 + γ q π (S t + 1, A t + 1) | S t = s, A t = a] = R a s + γ \sum s' \in S P a s s' \sum a' \in A π (a' | s') q π (s', a') (92) (93) (94)$ $\begin{align} q_{\pi}(s,a)&=\mathbb{E}_{\pi}[G_t|S_t=s,A_t=a]\\ &=\mathbb{E}_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a]\\ &=\mathcal{R}_s^a + \gamma \sum_{s' \in S} \mathcal{P}^a_{ss'}\sum_{a' \in A} \pi (a'|s')q_{\pi}(s',a') \end{align}$
- 两者相互转化：
- 写成矩阵：
  
  $v π = R π + γ P π v π$ $v_{\pi} = \mathcal{R}^{\pi} + \gamma \mathcal{P}^{\pi}v_{\pi}$
  解得：
  $v π = (1 - γ P π) - 1 R π$ $v_{\pi} = (1-\gamma \mathcal{P}^{\pi})^{-1}\mathcal{R}^{\pi}$
Optimal Value Function

最优价值函数是关于策略的，即所以策略中使其最大的就是最优价值函数。

我们解决MDP就是为了得到价值函数的最大值。
Optimal Policy
- 定理：
  1. 对任何MDP存在一个最优策略 $\pi_*$
  2. 所有最优策略都能达到最优价值函数，即 $v_{\pi_{*}}(s)=v_*(s)$
  3. 所有最优策略都能达到最优动作价值函数，即 $q_{\pi_{*}}(s,a)=q_*(s,a)$
- 寻找最优策略
就是找使每个action-value function最大的action
Bellman Optimality Equation
- state-value function
  
  $v * (s) = max a q * (s, a) = max a R a s + γ \sum s' \in S P a s s' v * (s') (95) (96)$ $\begin{align} v_{*}(s)&= \max_a q_*(s,a)\\ &= \max_{a} \mathcal{R}_s^a+\gamma \sum_{s' \in S }\mathcal{P}_{ss'}^a v_{*}(s') \end{align}$
- action-value function
  
  $q * (s, a) = max a R a s + γ \sum s' \in S P a s s' v * (s') = max a R a s + γ \sum s' \in S P a s s' max a' q * (s', a') (97) (98)$ $\begin{align} q_*(s,a) &= \max_{a} \mathcal{R}_s^a+\gamma \sum_{s' \in S }\mathcal{P}_{ss'}^a v_{*}(s')\\ &= \max_{a} \mathcal{R}_s^a+\gamma \sum_{s' \in S }\mathcal{P}_{ss'}^a \max_{a'} q_*(s',a') \end{align}$
Bellman Optimality Equation是非线性的，一般没有解析解。

解决办法有：Value Iteration、Policy Iteration、Q-learning、Sarsa

Extensions to MDPs

Infinite and continuous MDPs
- Countably infinite state and/or action spaces
  Straightforward
- Continuous state and/or action spaces
Closed form for linear quadratic model (LQR)
- Continuous time
Requires partial differential equations
Hamilton-Jacobi-Bellman (HJB) equation
Limiting case of Bellman equation as time-step ->0
Partially observable MDPs(POMDPs)
Undiscounted, average reward MDPs

…

MrTriste

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Silver-Slides Chapter 2 - 强化学习之马尔科夫决策过程 Markov Decision Process（MDP）

Markov ProcessesMDP被用来描述强化学习的可完全观测的环境。几乎所有的强化学习问题可以用MDP来描述，Optimal control primarily deals with continuous MDPs. Partially observable problems can be converted into MDPs. Bandits are MDPs with one s...
复制链接

扫一扫

专栏目录