《Introduction to Stochastic Dynamic Programming》第二章自学笔记

最新推荐文章于 2022-03-14 07:38:09 发布

喵呜嘻嘻嘻

最新推荐文章于 2022-03-14 07:38:09 发布

阅读量542

点赞数

分类专栏：动态规划

本文链接：https://blog.csdn.net/z3w97/article/details/115408515

版权

动态规划专栏收录该内容

4 篇文章 3 订阅

订阅专栏

折现动态规划

1. 介绍

无限期+折现因子 $0<\alpha<1$
可数状态空间： $S$
有限行动空间： $A$
有界奖励（reward）： $\forall i, a$
平稳策略（stationary policy）：1.确定性策略（非随机）；2.在 $t$ 时刻的选择只与状态有关（与时间无关）
因为只与当前状态有关而与历史无关（转移概率和平稳策略），所以被称为马尔可夫决策过程（MDP）
总期望折现回报（total expected discounted return）
$V_{\pi}(i)=\mathbb{E}\left[\sum_{n=0}^{\infty} \alpha^{n} R\left(x_{n}, a_{n}\right) \mid X_{0}=i\right]$
由reward有界得， $|V_\pi(i)|<B/(1-\alpha)$

2. 最优方程与最优策略

令
$V(i)=\sup_\pi V_\pi(i).$
一个策略 $\pi^*$ 被称为 $\alpha$ 最优（ $\alpha$ -optimal），如果它满足
$V_{\pi^*}(i)=V(i)\quad\text{for all}\quad i\ge0.$

定理（最优方程）

$V(i)=\max _{a \in A}\left[R(i, a)+\alpha \sum_{j} P_{i j}(a) V(j)\right], i\ge0$

$V_g(i)=R(i,g(i))+\alpha\sum_jP_{ij}(g(i))V_g(j)$ 是自然的，无需证明

定理（最优方程与最优策略）

设 $f$ 为平稳策略，当处于状态 $i$ 时，选择使最优方程的右侧最大化的行动，也即
$f(i))+\alpha \sum_{j} P_{i j}(f(i)) V(j)=\max _{a}\left[R(i, a)+\alpha \sum_{j} P_{i j}(a) V(j)\right], \forall i\ge 0,$
则 $f$ 是 $\alpha$ 最优的策略，也即
$V_{f}(i)=V(i)\quad\text{for all}\quad i\ge0.$

这个定理告诉我们，若有最优方程，则可解出最优策略。

定理（唯一性）

$V$ 是最优方程的唯一有界解。

命题：对于任意平稳策略 $g$ ， $V_g$ 是
$V_{g}(i)=R(i, g(i))+\alpha \sum_{j} P_{i j}(g(i)) V_{g}(j)$
的唯一解。

3. 最优策略的计算

3.1 值函数迭代（Value Iteration）

MDP中最常用的迭代算法
思想：用有限期值函数近似无限期值函数
步骤：
- 令 $V_0(i)$ 为任意有界函数（对于有限状态空间，此条自然满足）
- 计算 $V_{n}(i)=\max \left\{R(i, a)+\alpha \sum_{j} P_{i j}(a) V_{n-1}(j)\right\}$ ，其中， $R (i, a)$ 一致有界， $0<\alpha<1$
- 停止准则： $\|V_n(i)-V_{n-1}(i)\|<\delta$
命题：
- 若 $V_0\equiv0$ ，则 $\|V(i)-V_n(i)\|\le\frac{\alpha^{n+1}B}{1-\alpha}$
- 对于任意有界 $V_0$ ，当 $n$ 趋于无穷时， $V_n(i)$ 关于 $i$ 一致收敛于 $V (i)$
证明上述命题时需要注意有限期问题和无限期问题的区别：边界条件的影响
例子：机器替换模型
- 机器的状态为 $i$ ，行动为选择是否更换机器。如果更换，则需要花费 $R$ ，下一时刻状态为0（新机器）；否则，下一时刻以 $P_{ij}$ 的概率转移至状态 $j$ 。对于状态 $i$ ，运营成本为 $c (i)$ ， $c (i)$ 关于 $i$ 递增。目标是最小化无限期的总期望折现成本。
  $V(i)=\min \left\{R+\alpha V(0), \alpha \sum_{j} P_{i j} V(j)\right\}+c(i)$
- 为了研究值函数关于 $i$ 的单调性，我们需要增加关于 $P_{ij}$ 的条件：对于每一 $k$ ， $\sum_{j=k}^\infty P_{ij}$ 关于 $i$ 递增。设 $T_i$ 为表示状态 $i$ 的下一状态的随机变量，则有 $T_{i+1}\ge_{st}T_i$ 。
- 随机顺序关系（stochastic order relations）
  - 定义：我们称一随机变量 $X$ 随机地大于一随机变量 $Y$ ，如果对于任意 $a$ 都有 $P(X\ge a)\ge P(Y\ge a)$
  - 引理：(a) 如果 $X\ge_{st} Y$ ，则 $E[X]\ge E[Y]$ ； (b) $X\ge_{st} Y$ 当且仅当对于所有递增函数 $f$ 都有 $E[f(X)]\ge E[f(Y)]$
- 考虑 $n$ 阶段问题
  $V_n(i)=\min\{R+\alpha V_{n-1}(0),\alpha \sum_j P_{ij}V_{n-1}(j)\}+c(i)\\ V_0(i)=c(i)$
  用数学归纳法证明 $V_n(i)$ 关于 $i$ 递增。显然 $V_0(i)$ 关于 $i$ 递增。设 $V_{n-1}(i)$ 关于 $i$ 递增，则由 $T_{i+1}\ge_{st}T_i$ 有 $\sum_j P_{ij}V_{n-1}(j)=E[V_{n-1}(T_i)]$ 关于 $i$ 递增。
- 最优策略：因为 $V (i)$ 的结构为 $min\{A,B\}$ ，其中 $A$ 为常数， $B$ 关于 $i$ 单调递增，所以最优策略为当 $i<\bar{i}$ 时不换，当 $i\ge \bar{i}$ 时换。

3.2 策略迭代（Policy Iteration）

命题：设 $g$ 为一平稳策略，期望回报为 $V_g$ 。令 $h$ 为一策略满足
$h(i))+\alpha \sum_{j} P_{i j}(h(i)) V_{g}(j)=\max _{a}\left\{R(i, a)+\alpha \sum_{j} P_{i j}(a) V_{g}(j)\right\},$
则
$V_h(i)\ge V_g(i),\forall i.$
若 $V_h(i)= V_g(i),\forall i$ ，则 $V_g=V_h=V$ 。
步骤：（状态空间有限）
- 选择任一平稳策略 $g$
- 由下列方程计算 $V_g$
  $V_{g}(i)=R(i, g(i))+\alpha \sum_{j} P_{i j}(g(i)) V_{g}(j),\quad i=1,\dots,n$
  （解唯一）
- 由上述定义得到策略 $h$
- 重复步骤二、三
- 若状态空间有限，则策略空间有限，从而我们可以在有限步内得到最优策略
策略迭代的思想和强化学习较为接近

3.3 线性规划（Linear Programming）

命题：如果 $u$ 是一有界函数满足
$\geq \max _{a}\left\{R(i, a)+\alpha \sum_{j} P_{i j}(a) u(j)\right\},i\ge0,$
则
$u(i)\ge V(i), \quad\forall i.$
该命题表明 $V$ 是满足上述不等式的最小的函数。
令 $0<\beta<1$ ，则 $V$ 是下列优化问题的唯一解
$\begin{array}{l} \min _{u} \sum_{i=0}^{\infty} \beta^{n} u(i) \\ \text { s.t. } \quad u(i) \geq R(i, a)+\alpha \sum_{j} P_{i j}(a) u(j) \quad \forall i, a \end{array}$
注：1. $\beta$ 是为了让问题well-defined；2. 可将 $u$ 的考虑范围缩小为一个函数类，例如二次函数，从而变成对几个参数的优化问题；3. 约束可能过多（维度灾难），我们可以先找到一个不错的策略跑一些仿真得到样本路径（sample path），从而缩小 $i$ 的考虑范围。

4. 拓展：无界奖励（Unbounded Rewards）

不再要求 $R (i, a)$ 是一致有界的，只需对于任意策略 $\pi$ ，都有
$\left|E_{\pi}\left[R\left(X_{n-1}, a_{n-1}\right) \mid X_{0}=i\right]\right| \leq B_{i} n^{k},$
其中 $B_i$ 和 $k$ 是常数，从而有
$\left|E_{\pi}\left[\sum_{n=0}^{\infty} \alpha^{n} R\left(X_{n}, a_{n}\right) \mid X_{0}=i\right]\right| \leq B_{i} \sum_{n=0}^{\infty} \alpha^{n}(n+1)^{k}<\infty$
最优方程的结论还成立，但最优策略和唯一性的结论可能不再成立

喵呜嘻嘻嘻

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
《Introduction to Stochastic Dynamic Programming》第二章自学笔记

目录折现动态规划1. 介绍功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入折现动态规划1. 介绍我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用
复制链接

扫一扫