强化学习——MDPs求解之动态规划

学习目标

  1. 理解策略评估(Policy Evaluation)和策略提升(Policy Improvement);
  2. 理解策略迭代(Policy Iteration)算法;
  3. 理解值迭代(Value Iteration)算法;
  4. 理解策略迭代和值迭代的不同之处;
  5. 动态规划方法的局限性;
  6. Python实现格子世界(Gridworld)策略迭代和值迭代。

动态规划(Dynamic Programming, DP)是一种解决复杂问题的方法,它通过定义问题状态和状态之间的关系,将复杂问题拆分成若干较为简单的子问题,使得问题能够以递推(或者说分治)的方式去解决。所以要能使用动态规划,这种问题一要能够分解成许多子问题,二要这些子问题能够多次被迭代使用。而马尔科夫决策过程就正好满足了这两个条件,MDPs可以看成是各个状态之间的转移,而贝尔曼方程则将这个问题分解成了一个个状态的递归求解问题,而值函数就用于存储这个求解的结果,得到每一个状态的最优策略,合在一起以后就完成了整个MDPs的求解。但是DP的使用时建立在我们知道MDP环境的模型的基础上的,所以也称其为model based method。

策略评估(Policy Evaluation)

策略评估如其字面意思,就是评价一个策略好不好。计算任意一个策略 π \pi π 的状态值函数 v π ( s ) v_{\pi}(s) vπ(s) 即可,这也叫做预测(Prediction),上一篇文章已经通过backup图得到了 的求解公式,如下:

v π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) ) v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a | s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right) vπ(s)=aAπ(as)(Rsa+γsSPssavπ(s))

那这个式子怎么算呢?状态 s ′ s^{\prime} s 的值函数我也不知道啊。这里我们会使用高斯-赛德尔迭代算法来求解,先人为给一个初值,再根据下面的式子迭代求解,可以证明,当k趋于无穷时,最后是会收敛到 v π ( s ) v_{\pi}(s) vπ

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值