强化学习读书笔记

最新推荐文章于 2022-04-26 22:08:53 发布

xiaohai1232

最新推荐文章于 2022-04-26 22:08:53 发布

阅读量253

点赞数

强化学习读书笔记 - 03 - 有限马尔科夫决策过程

学习笔记：
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

代理-环境接口(The agent-environment interface)

代理(agent) - 学习者或者决策者
环境(environment) - 代理外部的一切，代理与之交互。

目标和奖赏

奖赏假设(reward hypothesis) - 目标就是：最大化长期累计奖赏的期望值。
注：不是立即得到的奖赏。

返回值

\[ G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \\ where \\ \gamma \text{ - is a parameter, discount rate, } 0 \leqslant \gamma \leqslant 1 \]
\(\gamma\)折扣率决定了未来奖赏的当前价值：
在k步之后的一个奖赏，如果换算成当前奖赏，需要乘以它的\(\gamma^{k-1}\)倍。

情景任务(Episodic Tasks)和连续任务(Continuing Tasks)

情景任务(Episodic Tasks)，所有的任务可以被可以分解成一系列的情景任务。逻辑上，可以看作为有限步骤的任务。
连续任务(Continuing Tasks) ，所有的任务不能分解。可以看作为无限步骤任务。

\[ G_t = \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1} \quad (T = \infty \text{ or } \gamma = 1 \text{ (but not both)}) \\ where \\ T \ne \infty \text{ - case of episodic tasks} \\ T = \infty \text{ - case of continuing tasks} \]

马尔科夫属性(The Markov property)

state - 马尔科夫属性，表示当前环境的状态。
举个例子：一个国际象棋的state可能包含：棋盘上所有棋子的位置，上一步的玩家，上一步的走法。

看看下面的公式：
这个公式在计算一个关键的概率。下一步（状态是\(s'\)、奖赏是\(r\)）的概率。
并说明这个概率是由至今为止所有的状态\(S*\)，行动\(A*\)和奖赏\(R*\)决定的。
\[ Pr\{s_{t+1} = s', R_{t+1} = r | S_0, A_0, R_1, S_1, A_1, \dots, R_t, S_t, A_t \} \\ \]

如果，我们有马尔科夫属性state，有了现在环境的所有状态，那么上面的公式可以简化为：
这个公式的含义是下一步（状态是\(s'\)、奖赏是\(r\)）的概率是由马尔科夫属性\(s\)和行动\(a\)决定的。
\[ p(s', r | s, a) = Pr \{S_{t+1} = s', R_{t+1} = r | S_t = s, A_t = a \} \]

马尔科夫决策过程(Markov Decision Processes)

特定状态-行动的期望奖赏：
\[ r(s,a) = \mathbb{E}[R_{t+1} | S_t = s, A_t = a] = \sum_{r \in \mathcal{R}} r \sum_{s' \in \mathcal{S}} p(s', r|s,a) \]

特定状态-过渡的可能性：
\[ r(s' | s,a) = Pr{S_{t+1} = s' | S_t=s, A_t=a} = \sum_{r \in \mathcal{R}} p(s',r | s,a) \]

特定状态-行动-下一个行动的期望奖赏：
\[ r(s,a,s') = \mathbb{E}[R_{t+1} | S_t = s, A_t = a, S_{t+1} = s'] = \frac{\sum_{r \in \mathcal{R}} r p(s',r|s,a)}{p(s'|s,a)} \]

价值方法(Value Functions)

策略\(\pi\)在状态\(s\)的期望价值：
\[ v_{\pi}(s) \doteq \mathbb{E}[G_t | S_t = s] = \mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right ] \\ where \\ \pi \text{ - polity} \\ \mathbb{E}_{\pi}[\cdot] \text{ - the expected value of a value follows policy } \pi \]

采用行动\(a\),策略\(\pi\)在状态\(s\)下的期望回报：
\[ q_{\pi}(s,a) \doteq \mathbb{E}[G_t | S_t = s, A_t = a] = \mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a \right ] \\ \]

策略\(\pi\)在状态\(s\)的期望价值 - 递推公式：
\[ \begin{align} v_{\pi}(s,a) & \doteq \mathbb{E}[G_t | S_t = s] \\ & = \mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right ] \\ & = \mathbb{E}_{\pi} \left [ R_{t+1} + \gamma\sum_{k=0}^{\infty} \gamma^k R_{t+k+2} | S_t = s \right ] \\ & = \sum_{a} \pi(a|s) \sum_{s'} \sum_{r} p(s',r|s,a) \left [ r + \gamma\mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+2} | S_{t+1} = s' \right ] \right ] \\ & = \sum_{a} \pi(a|s) \sum_{s',r} p(s',r|s,a) \left [ r + \gamma v_{pi}(s') \right] \\ & \forall s \in \mathcal{S} \end{align} \]