强化学习-An introduction之动态规划（DP）个人笔记

最新推荐文章于 2023-07-20 22:33:36 发布

MrTriste

最新推荐文章于 2023-07-20 22:33:36 发布

阅读量832

点赞数

分类专栏：强化学习文章标签：强化学习动态规划 DP

本文链接：https://blog.csdn.net/wjc1182511338/article/details/80889361

版权

强化学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Chapter 4 DP

上一章的 two forms of the Bellman optimality equation：

1 Policy Evaluation

update rule:

$v_{k}$ 收敛到 $v_{\pi}$ .

常规的update使用两个数组来存放old和new values，这是two-array version；

还有一种是使用一个数组，直接在原有的array上更新，这是in-place version；

虽然第二种看起来不正规，但是有更快的收敛速度，因为它使用新更新的数据。

2 Policy Improvement

我们首先明确一点：每个policy $\pi$ 都对应自己的value function—— $v_{\pi}$ ，我们为policy计算value function是为了找到更好的policy。

那么问题来了，我们怎么知道在当前policy下，在状态s下采取某个行动 $a=\pi(s)$ 是最优的呢？一种检验的方法就是采取另外一个行动 $a\ne \pi(s)$ ，计算value function和 $v_{\pi}(s)$ 相比。

value function之前提到过：

policy improvement theorem：

如果对所有的状态s有：

那么就有：

证明如下：

greedy policy：

如果 $v_{\pi}=v_{\pi'}$ ，那么 $\pi$ 和 $\pi '$ 都是最优策略。

3 Iteration

3.1 Policy Iteration

a sequence of monotonically improving policies and value functions:

这种找到最优策略的方式就是Policy Iteration。

Policy Iteration Algorithm：

3.2 Value Iteration

policy iteration 的缺点是它需要在policy evaluation后才能更新策略，这非常耗时。

value iteration改进了这种缺点，不再关于a求和，而是取max

value iteration：

Value Iteration Algorithm：

3.3 Asynchronous Dynamic Programming

之前的DP方法的缺点是每一次sweep都要在整个状态集合上进行操作。

Asynchronous DP 可以以任意的顺序更新状态的value。

3.4 Iteration Summary：GPI

Generalized Policy Iteration

Policy iteration有两个同时的交互的过程——policy evaluation和policy improvement。

在policy iteration中，这两个过程是交替的，一个完成才能开始另一个，但这不必要；

在value iteration中，这两个过程是结合在一起的；

在Asynchronous DP中，这两个过程是交错的，可以不按顺序。

我们用一个名词——generalized policy iteration (GPI)来形容整体的思想。

Each process drives the value function or policy toward one of the lines representing a solution to one of the two goals. The goals interact because the two lines are not orthogonal. Driving directly toward one goal causes some movement away from the other goal. Inevitably, however, the joint process is brought closer to the overall goal of optimality.

4 Efficiency of DP

A DP method is guaranteed to find an optimal policy in polynomial time even though the total number of (deterministic) policies is $k^n$ .

On problems with large state spaces, asynchronous DP methods are often preferred.

MrTriste

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习-An introduction之动态规划（DP）个人笔记

Chapter 4 DP上一章的 two forms of the Bellman optimality equation：or1 Policy Evaluationupdate rule: vkvkv_{k} 收敛到vπvπv_{\pi} .常规的update使用两个数组来存放old和new values，这是two-array version；还...
复制链接

扫一扫