David Silver Lecture 2｜马尔科夫决策过程

最新推荐文章于 2021-07-15 17:50:54 发布

SuperFeHanHan

最新推荐文章于 2021-07-15 17:50:54 发布

阅读量431

点赞数

分类专栏： David Silver 强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_44495738/article/details/115082301

版权

David Silver 强化学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

David Silver Lecture 2｜马尔科夫决策过程

1. Markov Processes
2 Markov Reward Processes (MRP)
3 Markov Decision Process
4 Extensions to MDPs
5. 总结

参考: https://zhuanlan.zhihu.com/p/28084942
注：斜体的字为我自己的猜测。

1. Markov Processes

1.0 Introduction

Environment is fully observable. 即当前的state完全决定了process
Almost all RL Problems can be formalized as MDPs.

1.1 Markov Property

A State $S_t$ is Markov:
$\mathbb{P}[S_{t+1} | S_t]=\mathbb{P}[S_{t+1} | S_1,...,S_t]$

Transition Matrix:
在这里插入图片描述

其中 $\mathcal{P}_{ij}$ 表示从State $i$ 转移到State $j$ 的概率，因此上面矩阵中每一行的和都为1。
$\mathcal{P}_{ss'}=\mathbb{P}[S_{t+1}=s' | S_t=s]$ , $s^{'}$ 是State s的succeesor state。

1.2 Markov Chain

A Markov Process / Markov Chain is a tuple $<\mathcal{S},\mathcal{P}>$

$\mathcal{S}$ : A finite set of states
$\mathcal{P}$ : A state transition probability matrix. $\mathcal{P}_{ss'}=\mathbb{P}[S_{t+1}=s' | S_t=s]$

例子：

Terminal State：方块，进入之后不再会出来了。
Episodes：按照概率图产生的一个状态序列。

如从C1到FB有0.5的概率。

问题：如果概率随着时间变化？
Sol1: Non-Stationary Markov Process
Sol2: 我们可以多创建几个节点，如FB1表示第t=1时刻进入FB，FB2表示t=2时刻进入FB

2 Markov Reward Processes (MRP)

2.1 Markov Reward Processes (MRP) | 引入了R和Discount Factor

Markov Reward Process: < $\mathcal{S,P}$ , $\mathcal{R},\mathcal{\gamma}$ >

$\mathcal{S}$ : A finite set of states
$\mathcal{P}$ : A state transition probability matrix. $\mathcal{P}_{ss'}=\mathbb{P}[S_{t+1}=s' | S_t=s]$
$\mathcal{R}$ Reward Function, $R_s = \mathbb{E}[R_{t+1}|S_t=s]$ ，如果我们在t时刻State 为s，则下一时刻我们能得到的奖励为 $R_s$
$\mathcal{\gamma}$ Discount Factor, $\in[0,1]$

例子：

在这里插入图片描述

这里的R都是离开这个State之后获得的Return

2.2 Return Gt [是一个随机变量]

Return: $G_t$
$G_t = R_{t+1}+\gamma R_{t+2}+... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$

⚠️：这里没有期望的原因是因为 $G_t$ 它是对应的一个具体的样本(Sample)而定义的。

$\gamma=0$ Short-sighted.

为什么要Discount？

因为未来用更大的不确定性，即我们没有Perfect Model of the environment。[因为我们并不一定总能得到模型预测的未来奖励]
避免了Infinite Returns in Cyclic Markov Processes
在金融系统中，因为有通货膨胀，所以越近的实际收益更大。
可以看成一种认知模型，人和动物有这种倾向。
当我们确定所有的Sequence都terminate，我们可以用Undiscounted Markov Reward Process $\gamma=1$

2.3 Value Function v(s) [是Gt的期望]

State Value Function: $v (s)$
$v(s)=\mathbb{E}[G_t | S_t=s]$

因为 $G_t$ 是从t+1的奖励开始计算的，所以 $v (s)$ 的含义就是在状态s下未来能期望获得的奖励。

例子：

在这里插入图片描述
因为 $G_t = R_{t+1}+\gamma R_{t+2}+...$ ，因此对于 $S_t$ 我们写在它下面的奖励实际上是 $R_{t+1}$ 。

不同discount factor下每一个状态的v(s)。
在这里插入图片描述

2.4 🌟 Bellman Equation

我们利用value function的定义来推导Bellman Equation
$\begin{aligned} v(s) &= \mathbb{E}[G_t | S_t = s] \\ &= \mathbb{E}[R_{t+1}+\gamma R_{t+2}+... | S_t = s] \\ &= \mathbb{E}[R_{t+1}+\gamma (R_{t+2}+ \gamma R_{t+3}...) | S_t = s] \\ &= \mathbb{E}[R_{t+1}+\gamma G_{t+1} | S_t = s] \\ &= \mathbb{E}[R_{t+1}| S_t = s] + \gamma \mathbb{E}[G_{t+1}| S_t = s] \\ &= \mathbb{E}[R_{t+1}| S_t = s] + \mathbb{E}[\gamma v(S_{t+1})| S_t = s]] \\ \end{aligned}$

第一行：v(s)定义
第二行： $G_t$ 定义
最后一行用到了:E(X)=E(E(X|Y))，即 $\mathbb{E}[v(S_{t+1})|S_t=s]=\mathbb{E}[\mathbb{E}[G_{t+1}|S_{t+1},S_t=s]] = \mathbb{E}[G_{t+1}|S_{t+1},S_t=s]$

因此我们有Bellman Equation

$v(s)=\mathbb{E}(R_{t+1}+\gamma v(S_{t+1})|S_t=s)$

具体来说，再引入Transition Matrix之后，我们的Bellman Equation可以用如下的方式计算

$v(s)=\mathcal{R}_s+\gamma \sum_{s' \in \mathcal{S}} \mathcal{P}_{ss'}v(s')$

即对所有 $S_t=s$ 能到达的 $S_{t+1}=s'$ 进行求和（假设我们的状态是Finite的）。

我们还可以更近一步，假设我们的一共有 $n$ 个State，他们对应的Value function为 $v (1), . . ., v (n)$ ，我们可以将上面的方程向量化：
在这里插入图片描述
Rq:

当前的值v(s) = 离开s立马的奖励 + $\gamma$ 从s能到达的State奖励的期望值
如上面1能到达的状态有可能是1-n中任意一个，所以是 $\mathcal{P}_{11},...,\mathcal{P}_{1n}$
最后每一个状态的Value Function一定是Bellman Equation的解，因此一定满足上面这个方程。换言之，左右两边的v是相同的，而不是“赋值”。

因此，我们有几率（一般是对于小型问题）可以直接解出Bellman Equation的解。

$\begin{aligned} v &= \mathcal{R} + \gamma \mathcal{P}v \\ (I_n-\gamma \mathcal{P}) v &= \mathcal{R} \\ v &= (I_n-\gamma \mathcal{P})^{-1} \mathcal{R} \\ \end{aligned}$

对于大型问题，我们还有一些其他求解MRP的方法，如

Dynamic Programming
Monte-Carlo Evaluation
Temporal-Difference Learning

例子：验证之前的Value Function

在这里插入图片描述
图上都是已经算好的每一个State $s$ 的 $v (s)$ ，下考虑 $v (s) = 4.3$ 这个节点，并用Bellman Equation进行验证。
$\approx 4.3$ （ $R_{t+1}=-2$ ）

3 Markov Decision Process

3.1 Markov Decision Process (MDP) | 引入了Action

Markov Decision Process: < $\mathcal{S,P,R,\gamma}$ , $\mathcal{A}$ >

$\mathcal{S}$ : A finite set of states
$\mathcal{P}$ : A state transition probability matrix. $\mathcal{P}_{ss'}^a =\mathbb{P}[S_{t+1}=s' | S_t=s, A_t=a]$
$\mathcal{R}$ Reward Function, $R^a_s = \mathbb{E}[R_{t+1}|S_t=s, A_t = a]$ ，如果我们在t时刻State 为s，且t时刻的action为 $a$ ，则下一时刻我们能得到的奖励为 $R_s^a$ 。
$\mathcal{\gamma}$ Discount Factor, $\in[0,1]$

例子：

在这里插入图片描述

3.2 Policies π | 一个给定State采取不同Action的概率分布

Policy $\pi$
A distribution over actions given states,
$\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$

Rq:

A policy fully defines the behaviour of an agent
MDP policies depend on the current state (not the history) [因为我们做了满足Markov Property这个假设]
i.e. Policies are stationary (time-independent), $A_t\sim \pi(\cdot | S_t),\forall t>0$

性质：

给定一个MDP $\mathcal{M} = <\mathcal{S,A,P,R,\gamma}>$ 和一个policy $\pi$
由它产生的一个State Sequence $S_1,S_2,..$ 是一个Markov Process $<\mathcal{S},\mathcal{P}^\pi>$ 。 $\mathbb{P}^\pi[S_{t+1}=s' | S_t=s]= \mathbb{P}^\pi[S_{t+1}=s'|S_t=s,A_t=a] \pi(A_t=a|S_t=s)$
由它产生的State and Reward Sequence $S_1,R_2,S_2,...$ 是一个MRP $<\mathcal{S},\mathcal{P}^\pi,\mathcal{R}^\pi,\gamma>$ 。

换言之，在给定一个Policy $\pi$ 之后，我们就可以定义一个MRP，记录其的转移矩阵是在给定Policy $\pi$ 下的。

$\mathcal{P}_{s,s'}^\pi = \sum_{a\in \mathcal{A}} \pi(a|s) \mathcal{P}_{s,s'}^a$

$\mathcal{R}_{s}^\pi = \sum_{a\in \mathcal{A}} \pi(a|s) \mathcal{R}_{s}^a$

3.3 Value Function $v_\pi(s)$

State-value Funciton of an MDP: $v_\pi(s)$ ，某一个State的优劣
The expected return starting from state s, and then following policy $\pi$ 。
$v_\pi(s)=\mathbb{E}_{\pi} [G_t|S_t=s]$

给定 $\pi$ 是因为 $G_t=R_{t+1}+\gamma R_{t+2+ \dots}=R^\pi_{t+1}+\gamma R^\pi_{t+2+ \dots}$ ？

Action-Value Function $q_\pi(s,a)$ ，采取某一个Action的好处
Is the expected return starting from state $s$ , taking action $a$ and then following policy $\pi$ .
$q_\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a]$

例子：

在这里插入图片描述

3.4 Bellman Expectation Equation

类似的证明可以得到
$q_\pi(s,a)=\mathbb{E}_\pi[R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1}) | S_t = s, A_t = a]$

评价一个State $v_\pi(s)$
在这里插入图片描述
$v_\pi(s)=\sum_{a\in \mathcal{A}} \pi(a|s) q_\pi(s,a)$

评价一个Action $q_\pi(s,a)$
在这里插入图片描述
$q_\pi(s,a)=\mathcal{R}_s^a+\sum_{s' \in S}P^{a}_{ss'}v_\pi(s')$
离开某一个State的Reward + 所有下一时刻可能到达状态的价值的期望。

然后我们可以将他们两个组合起来得到：
在这里插入图片描述

例子：

在这里插入图片描述
Rq:

这里的Policy是50%,50%。
这里的Pub被抽象成为了一个Action，也就是说，它没有V(s)，一旦选择Pub这个Action，它有0.2概率回到第一节课，0.4概率回到第二节课。这个Action的意义在于，有些时候环境存在随机性，例如我们让无人机往前飞，它有可能受到风的影响从而落在左前，前，右前中的一个区域里。
其余Action都是Deterministic的，即State s -> [Action: Facebook,对应上面记号中的黑点] -> State s’

在给定Policy $\pi$ 之后，对于Value Function的求解其实和之前MRP是一样的。
$v_\pi = (I_n-\gamma \mathcal{P}^\pi)^{-1} \mathcal{R}^\pi$

3.5 Optimal Value Function

Optimal State-value function $v_*(s)$
The Maximum value over all policies，即在任何策略下该状态能获得的最大可能取到的Reward。
$v_*(s)=max_\pi v_\pi(s)$

Optimal Action-value function $q_*(s,a)$
The maximum value over all policies，即在任何策略下在State s下采取Action a能获得的最大的Reward。
$q_*(s,a)=max_\pi q_\pi(s,a)$

Rq:
一旦我们知道了 $q_*(s,a)$ 我们就知道也就知道了每个状态下不同Action的最优价值，这时便认为这个MDP获得了解决，因为只要每次在State s时选择使得Action Value最大的Action即可。

例子：

$v_*(s)$
在这里插入图片描述
$q_*(s,a)$

3.6 Optimal Policy

我们定义一个Policy $\pi$ 比 $\pi'$ 更好： $\pi \geq \pi'$
如果 $\forall s, v_\pi(s) \geq v_{\pi'}(s)$

🌟 定理：
对于任意MDP，我们都有以下结论：

总存在一个（但不一定唯一）Optimal Policy $\pi_*$ 使得 $\pi_*\geq \pi, \forall \pi$ 。
所有Optimal Policy的Value Function / Action-Value Funciton都一致: $v_{\pi_*}(s)=v_*(s),q_{\pi_*}(s,a)=q_*(s,a)$

找到一个Optimal Policy的方法：每次都选择使得Q值最大的Action。
在这里插入图片描述

例子：

红色是Optimal Policy
在这里插入图片描述
这里Pub行为对应的价值是+9.4而不是+8.4

3.7 Bellman Optimality Equation (一般说的Bellman Equation指这个)

在实际过程中是如何计算 $q *$

针对 $v_*$ ，一个状态的最优价值等于从该状态出发采取的所有行为产生的行为价值中最大的那个行为价值：

在这里插入图片描述

针对 $q_*$ ，在某个状态s下，采取某个行为的最优价值由2部分组成，一部分是离开状态 s 的即刻奖励，另一部分则是所有能到达的状态 s’ 的最优状态价值按出现概率求和：

对 $v_*(s)$ 的求解
在这里插入图片描述

对 $q_*(s,a)$ 的求解

例子:

Rq:
Bellman最优方程是非线性的，没有固定的解决方案，通过一些迭代方法来解决：

价值迭代 (Value Iteration)
策略迭代 (Policy Iteration)
Q学习 (Q Learning)
Sarsa
etc…

4 Extensions to MDPs

简要提及：

无限状态或连续MDP；
部分可观测MDP；
非衰减、平均奖励MDP

5. 总结

每一个Action可能可以到不同的State

SuperFeHanHan

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
David Silver Lecture 2｜马尔科夫决策过程

David Silver Lecture 2｜马尔科夫决策过程1. Markov Processes1.0 Introduction1.1 Markov Property1.2 Markov Chain例子：2 Markov Reward Processes (MRP)2.1 Markov Reward Processes (MRP) | 引入了R和Discount Factor例子：2.2 Return Gt [是一个随机变量]2.3 Value Function v(s) [是Gt的期望]例子：2.4
复制链接

扫一扫