强化学习——MDPs求解之动态规划

最新推荐文章于 2022-08-14 15:46:06 发布

野风同学

最新推荐文章于 2022-08-14 15:46:06 发布

阅读量1.2k

点赞数

分类专栏：强化学习文章标签：强化学习 reinforcement learning 深度学习机器学习人工智能

本文链接：https://blog.csdn.net/ys707663989/article/details/106475687

版权

学习目标

理解策略评估（Policy Evaluation）和策略提升（Policy Improvement）；
理解策略迭代（Policy Iteration）算法；
理解值迭代（Value Iteration）算法；
理解策略迭代和值迭代的不同之处；
动态规划方法的局限性；
Python实现格子世界（Gridworld）策略迭代和值迭代。

动态规划（Dynamic Programming, DP）是一种解决复杂问题的方法，它通过定义问题状态和状态之间的关系，将复杂问题拆分成若干较为简单的子问题，使得问题能够以递推（或者说分治）的方式去解决。所以要能使用动态规划，这种问题一要能够分解成许多子问题，二要这些子问题能够多次被迭代使用。而马尔科夫决策过程就正好满足了这两个条件，MDPs可以看成是各个状态之间的转移，而贝尔曼方程则将这个问题分解成了一个个状态的递归求解问题，而值函数就用于存储这个求解的结果，得到每一个状态的最优策略，合在一起以后就完成了整个MDPs的求解。但是DP的使用时建立在我们知道MDP环境的模型的基础上的，所以也称其为model based method。

策略评估（Policy Evaluation）

策略评估如其字面意思，就是评价一个策略好不好。计算任意一个策略 $\pi$ 的状态值函数 $v_{\pi}(s)$ 即可，这也叫做预测（Prediction），上一篇文章已经通过backup图得到了的求解公式，如下：

$v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a | s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right)$

那这个式子怎么算呢？状态 $s^{\prime}$ 的值函数我也不知道啊。这里我们会使用高斯-赛德尔迭代算法来求解，先人为给一个初值，再根据下面的式子迭代求解，可以证明，当k趋于无穷时，最后是会收敛到 $v_{\pi}(s)$

最低0.47元/天解锁文章

野风同学

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
强化学习——MDPs求解之动态规划

学习目标理解策略评估（Policy Evaluation）和策略提升（Policy Improvement）；理解策略迭代（Policy Iteration）算法；理解值迭代（Value Iteration）算法；理解策略迭代和值迭代的不同之处；动态规划方法的局限性；Python实现格子世界（Gridworld）策略迭代和值迭代。动态规划（Dynamic Programming, DP）是一种解决复杂问题的方法，它通过定义问题状态和状态之间的关系，将复杂问题拆分成若干较为简单的子问题，使得
复制链接

扫一扫

专栏目录