强化学习的学习之路（九）_2021-01-09：强化学习中的MDP

最新推荐文章于 2024-03-20 11:24:46 发布

Chou_pijiang

最新推荐文章于 2024-03-20 11:24:46 发布

阅读量431

点赞数

分类专栏：强化学习-基础知识文章标签：强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/112594656

版权

强化学习-基础知识专栏收录该内容

60 篇文章 112 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Markov Decision Process

Markov Property

State $s_{t}$ is Markovian if and only if:
$\begin{aligned} p\left(s_{t+1} \mid s_{t}\right) &=p\left(s_{t+1} \mid h_{t}\right) \\ p\left(s_{t+1} \mid s_{t}, a_{t}\right) &=p\left(s_{t+1} \mid h_{t}, a_{t}\right) \end{aligned}$
The future is independent of the past given the present. 未来只和当前状态有关，和再之前的状态无关。

Markov Reward Process

在这里插入图片描述

Return and Value function

Horizon的定义：一个回合内的最大时间步
Return的定义： $G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\gamma^{3} R_{t+4}+\ldots+\gamma^{T-t-1} R_{T}$
Value function的定义（表示未来奖励的值）： $\begin{aligned} V_{t}(s) &=\mathbb{E}\left[G_{t} \mid s_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots+\gamma^{T-t-1} R_{T} \mid s_{t}=s\right] \end{aligned}$

为什么要有 $\gamma$

避免在循环的马尔可夫过程中有无限的return
关于未来的不确定性不能完全地展示，那这个 $\gamma$ 其实就表征了一定的不确定性
比起未来的奖励人类更偏爱即时奖励
如果 $\gamma=0$ ,表示我们只关心立即奖励而不关心未来的奖励；如果 $\gamma=1$ ,表示我们觉得未来的奖励和现在的即时奖励一样重要，所以就可以把 $\gamma$ 作为超参数来得到不同行为的agent

Markov Descion Process

在这里插入图片描述

MDP中的重要定义

在有限MDP中, 状态、动作和奖励 $\quad(\mathcal{S}, \mathcal{A}$ 和 $\mathcal{R})$ 的集合都具有有限数量的元素。在这种情况下，随机变量 $R_{t}$ 和 $S_{t}$ 具有明确定义的离散概率分布, 仅取决于先前的状态和动作。也就是说对于这些随机变量的特定值, $s^{\prime} \in \mathcal{S}$ 和 $\in \mathcal{R}, \quad$ 在给定前一状态和动作的特定值的情况下，存在这些值在时间t发生的概率：
$p\left(s^{\prime}, r \mid s, a\right) \doteq \operatorname{Pr}\left\{S_{t}=s^{\prime}, R_{t}=r \mid S_{t-1}=s, A_{t-1}=a\right\}$
$\mathcal{S} \times \mathcal{R} \times \mathcal{S} \times \mathcal{A} \rightarrow[0,1]$ 是四个参数的普通确定性函数。但这里只是提醒我们 $p$ 指定 $s$ 和 $a$ 的每个选择的概率分布, 即对所有 $\in \mathcal{S}, a \in \mathcal{A}(s)$
$\sum_{s^{\prime} \in \mathcal{S}} \sum_{r \in \mathcal{R}} p\left(s^{\prime}, r \mid s, a\right)=1$ 。
从四参数动力学函数p中，可以计算出人们可能想知道的关于环境的任何其他信息，例如状态转移概率 (我们将其略微滥用符号表示为三参数函数 $\mathcal{S} \times \mathcal{S} \times \mathcal{A} \rightarrow[0,1])$ ,
$p\left(s^{\prime} \mid s, a\right) \doteq \operatorname{Pr}\left\{S_{t}=s^{\prime} \mid S_{t-1}=s, A_{t-1}=a\right\}=\sum_{r \in \mathcal{R}} p\left(s^{\prime}, r \mid s, a\right)$
我们还可以将状态 - 动作对的预期奖励计算为双参数函数 $\mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$
$\doteq \mathbb{E}\left[R_{t} \mid S_{t-1}=s, A_{t-1}=a\right]=\sum_{r \in \mathcal{R}} r \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime}, r \mid s, a\right)$
以及状态 - 行动 - 下一状态三元组的预期奖励作为三个参数函数 $\mathcal{S} \times \mathcal{A} \times \mathcal{S} \rightarrow \mathbb{R}$
$r\left(s, a, s^{\prime}\right) \doteq \mathbb{E}\left[R_{t} \mid S_{t-1}=s, A_{t-1}=a, S_{t}=s^{\prime}\right]=\sum_{r \in \mathcal{R}} r \frac{p\left(s^{\prime}, r \mid s, a\right)}{p\left(s^{\prime} \mid s, a\right)}$