强化学习的学习之路（十二）_2021-01-12:Policy Evalution

最新推荐文章于 2021-11-16 09:16:51 发布

Chou_pijiang

最新推荐文章于 2021-11-16 09:16:51 发布

阅读量302

点赞数

分类专栏：强化学习-基础知识文章标签：强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/112650593

版权

强化学习-基础知识专栏收录该内容

60 篇文章 107 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Policy evalution

定义

Objective: Evaluate a given policy $\pi$ for a MDP ：为了评价MDP中一个策略的好坏
Output: the value function under policy $v^{\pi}$ ：输出是价值函数
Solution: iteration on Bellman expectation backup ：不断做贝尔曼更新
Algorithm: Synchronous backup
At each iteration $t + 1$ update $v_{t+1}(s)$ from $v_{t}\left(s^{\prime}\right)$ for all states $\in \mathcal{S}$ where $s^{\prime}$ is a successor state of $s$

$\begin{array}{c} v_{t+1}(s)=\sum_{a \in \mathcal{A}} \pi(a \mid s)\left(R(s, a)+\gamma \sum_{s^{\prime} \in \mathcal{S}} P\left(s^{\prime} \mid s, a\right) v_{t}\left(s^{\prime}\right)\right) \\ \end{array}$

$\begin{array}{c} \text { Convergence: } v_{1} \rightarrow v_{2} \rightarrow \ldots \rightarrow v^{\pi} \end{array}$

Or if in the form of $\mathrm{MRP}<\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}, \gamma>$
$v_{t+1}(s)=R^{\pi}(s)+\gamma P^{\pi}\left(s^{\prime} \mid s\right) v_{t}\left(s^{\prime}\right)$

最优策略和最优价值函数

解决强化学习任务大概意味着要从长远的角度找到一个取得很大回报策略。对于有限MDP，我们可以通过以下方式精确地定义一个最优策略。价值函数对策略进行部分排序。 如果策略 π 所有状态的预期返回值大于或等于策略 π′ 的值，则该策略 π 被定义为优于或等于策略 π′。换句话说，对所有 s∈S，π≥π′，当且仅当 vπ(s)≥vπ′(s) 时，成立。总是至少有一个策略优于或等于所有其他策略。这个策略称为 最优策略。虽然可能有不止一个，我们用 π∗ 表示所有最优策略。它们共享同样的状态值函数，称为 最优状态价值函数，表示为 v∗，并定义为

$v^{*}(s)=\max _{\pi} v^{\pi}(s)$

可以说，当我们知道 $v^{*}(s)$ 的时候，这个MDP问题就被解决了，（因为我们就可以把所有动作遍历一遍，然后求出最大的q（s,a)。

最优的策略：

$\pi^{*}(s)=\underset{\pi}{\arg \max } v^{\pi}(s)$

最优动作价值函数：

$q_{*}(s, a) \doteq \max _{\pi} q_{\pi}(s, a)$

$q_{*}(s, a)=\mathbb{E}\left[R_{t+1}+\gamma v_{*}\left(S_{t+1}\right) \mid S_{t}=s, A_{t}=a\right]$

当我们知道 $q^{*}(s)$ 的时候，我们马上就得到了最优策略。

上一篇：强化学习的学习之路（十一）_2021-01-11 :贝尔曼方程

下一篇：强化学习的学习之路（十三）_2021-01-13：Policy Iteration和Value Iteration及其Python实现

Chou_pijiang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习的学习之路（十二）_2021-01-12:Policy Evalution

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！Policy evalution定义Objective
复制链接

扫一扫

专栏目录