强化学习1：策略迭代与价值迭代（上）

最新推荐文章于 2024-06-16 23:29:54 发布

p_wh

最新推荐文章于 2024-06-16 23:29:54 发布

阅读量687

点赞数 1

分类专栏：强化学习文章标签：概率论算法线性代数

本文链接：https://blog.csdn.net/weixin_43868339/article/details/122993294

版权

强化学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

现在我们来讨论 $T=\infty$ 情形下的MDP，在这里，我们再重复一次我们的模型假设：

行为空间和状态空间都有限集
状态转移具有马尔可夫性，即
$\begin{aligned} &P(s_{t+1}=s_{t+1}^\prime|a_{t}=a_{t}^\prime,s_t=s_t^\prime,a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime)\\ =&P(s_{t+1}=s_{t+1}^\prime|a_{t}=a_{t}^\prime,s_t=s_t^\prime) \end{aligned}$ 马尔可夫性等价于在已知现在状态和行为的条件下，未来状态和过去的行为状态是向相互独立的，即
$\begin{aligned} &P(s_{t+1}=s_{t+1}^\prime,a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime|a_t=a_t^\prime,s_t=s_t^\prime)\\ =&P(s_{t+1}=s_{t+1}^\prime|a_t=a_t^\prime,s_t=s_t^\prime)P(a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime|a_t=a_t^\prime,s_t=s_t^\prime) \end{aligned}$
状态转移具有时齐性：
$\begin{aligned} P(s_{t+1}=s^\prime|a_{t}=a,s_t=s)=P(s_1=s^\prime|a_0=a,s_0=s) \end{aligned}$ 我们把这个概率称为转移概率，记为 $p(s^\prime|a,s)$ ，这个概率与策略无关，而是由环境决定，所以我们不加上标 $\pi$
我们当然可以制定一列策略 $\{\pi_1,\pi_2,\cdots\}$ ，然后求解策略列，但这样求解起来很不方便，在这里我们假定策略是一个平稳的策略，也就是不同阶段使用同一策略 $\pi$ ，换句话说， $\pi=\{\pi,\pi,\cdots\}$ ，我们要找出这个最优的平稳策略。
$p^\pi(a_t=a|s_t=s)=\pi_i(a|s)=\pi_0(a|s)\quad \forall s\in\mathcal{S},a\in\mathcal{A},t=0,1,2,\cdots$ 这里 $\mathcal{A}=\cup_{s\in\mathcal{S}}\mathcal{A}(s)$ ，我们不妨假设所有状态共用一个行为空间 $\mathcal{A}$ ，不能选择的行为策略概率限制为0即可。
某一时刻的行为只由该时刻的状态和所选策略决定，与历史状态和行为都没有关系
$\begin{aligned} &P^\pi(a_{t+1}=a|s_{t+1}=s,a_t=a_t^\prime,s_t=s_t^\prime,\cdots,s_0=s_0^\prime)\\ =&P^\pi(a_{t+1}=a|s_{t+1}=s)=\pi(a|s) \end{aligned}$ 同样地，这个假设等价于在给定当前状态的条件下，当前的行为和过去状态行为相互独立
$\begin{aligned} &P^\pi(a_{t+1}=a,a_t=a_t^\prime,s_t=s_t^\prime,\cdots,s_0=s_0^\prime|s_{t+1}=s)\\ =&P^\pi(a_{t+1}=a|s_{t+1}=s)P^\pi(a_t=a_t^\prime,s_t=s_t^\prime,\cdots,s_0=s_0^\prime|s_{t+1}=s) \end{aligned}$

在上面的假定下，有了上面的假定就能确定任何一条有限长度的轨迹的概率：
$\begin{aligned} &P^\pi(s_T,a_{T-1},s_{T-1},\cdots,a_0,s_0)\\ =&P^\pi(s_T|a_{T-1},s_{T-1},\cdots,a_0,s_0)P^\pi(a_{T-1},s_{T-1},\cdots,a_0,s_0)\\ =&p(s_T|a_{T-1},s_{T-1})P(a_{T-1}|s_{T-1},\cdots,a_0,s_0)P^\pi(s_{T-1},\cdots,a_0,s_0)\\ =&p(s_T|a_{T-1},s_{T-1})\pi(a_{T-1}|s_{T-1})P^\pi(s_{T-1},\cdots,a_0,s_0) \end{aligned}$ 递归地进行求解即可，同时，我们有下面的推论：

给定策略 $\pi$ ，下一期的状态只与当前状态有关，与过去状态和行为都无关，即
$\begin{aligned} &P^\pi(s_{t+1}=s_{t+1}^\prime|s_t=s_t^\prime,a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime)\\ =&P^\pi(s_{t+1}=s_{t+1}^\prime|s_t=s_t^\prime) \end{aligned}$

证：
$\begin{aligned} &P^\pi(s_{t+1}=s_{t+1}^\prime|s_t=s_t^\prime,a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime)\\ =&\sum_{a\in\mathcal{A}}[P^\pi(s_{t+1}=s_{t+1}^\prime|a_t=a,s_t=s_t^\prime,a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime)*\\ &P^\pi(a_t=a|s_t=s_t^\prime,a_{t-1}=a_{t-1}^\prime,\cdots,s_0=s_0^\prime)]\\ =&\sum_{a\in\mathcal{A}}P^\pi(s_{t+1}=s_{t+1}^\prime|a_t=a,s_t=s_t^\prime)P^\pi(a_t=a|s_t=s_t^\prime)\\ =&P^\pi(s_{t+1}=s_{t+1}^\prime|s_t=s_t^\prime) \end{aligned}$
第一项相等用的是假设2，第二项相等用的是假设6

上面的证明也给出了计算这个概率的方法：
$\begin{aligned} P^\pi(s_{t+1}=s_{t+1}^\prime|s_t=s_t^\prime)=\sum_{a\in\mathcal{A}}p(s_{t+1}^\prime|a,s_t^\prime)\pi(a|s_t^\prime) \end{aligned}$

对 $T\geq t+2$ ，给定策略 $\pi$
$\begin{aligned} &P^\pi(a_T=a_T^\prime,s_T=s_T^\prime,\cdots,a_{t+2}=a_{t+2}^\prime,s_{t+2}=s_{t+2}^\prime|a_{t+1}=a_{t+1}^\prime,s_{t+1}=s_{t+1}^\prime,\cdots,a_0=a_0^\prime,s_0=s_0^\prime)\\ =&P^\pi(a_T=a_T^\prime,s_T=s_T^\prime,\cdots,a_{t+2}=a_{t+2}^\prime,s_{t+2}=s_{t+2}^\prime|a_{t+1}=a_{t+1}^\prime,s_{t+1}=s_{t+1}^\prime)\\ =&P^\pi(a_{T-t-1}=a_T^\prime,s_{T-t-1}=s_T^\prime,\cdots,a_{1}=a_{t+2}^\prime,s_{1}=s_{t+2}^\prime|a_{0}=a_{t+1}^\prime,s_{0}=s_{t+1}^\prime) \end{aligned}$
第一个等号是马尔可夫性的一种推广，第二个等号是时齐性的一种推广，这个证明可以通过数学归纳法完成，比较麻烦，这里省略。
同样地，有
$\begin{aligned} &P^\pi(a_T=a_T^\prime,s_T=s_T^\prime,\cdots,a_{t+2}=a_{t+2}^\prime,s_{t+2}=s_{t+2}^\prime|s_{t+1}=s_{t+1}^\prime,\cdots,a_0=a_0^\prime,s_0=s_0^\prime)\\ =&P^\pi(a_T=a_T^\prime,s_T=s_T^\prime,\cdots,a_{t+2}=a_{t+2}^\prime,s_{t+2}=s_{t+2}^\prime|s_{t+1}=s_{t+1}^\prime)\\ =&P^\pi(a_{T-t-1}=a_T^\prime,s_{T-t-1}=s_T^\prime,\cdots,a_{1}=a_{t+2}^\prime,s_{1}=s_{t+2}^\prime|s_{0}=s_{t+1}^\prime) \end{aligned}$
第一个等号是马尔可夫性的一种推广，第二个等号是时齐性的一种推广

状态价值函数和状态-行为价值函数

给定策略 $\pi$ ，状态 $s$ 的状态价值函数定义为
$V_t^\pi(s)=E^\pi\left[\sum_{i=0}^\infty\gamma^i R(s_{t+i},a_{t+i},s_{t+i+1})\bigg |s_t=s\right]$
不难证明 $V_t^\pi(s)$ 也是时齐的，也就是 $V_t^\pi(s)=V_0^\pi(s)\quad t=0,1,\cdots,\forall s\in\mathcal{S}$ ，于是我们可以省去时间下标

证：
由于 $\gamma\in(0,1)$ ，并且回报函数有界，由有界收敛定理，有
$\begin{aligned} V_t^\pi(s)=&E^\pi\left[\sum_{i=0}^\infty\gamma^i R(s_{t+i},a_{t+i},s_{t+i+1})\bigg |s_t=s\right]\\ =&\sum_{i=0}^\infty\gamma^iE^\pi\left[ R(s_{t+i},a_{t+i},s_{t+i+1})\bigg |s_t=s\right] \end{aligned}$
$\begin{aligned} &E^\pi\left[ R(s_{t+i},a_{t+i},s_{t+i+1})\bigg |s_t=s\right]\\ =&\sum_{s^\prime,s^{\prime\prime}\in\mathcal{S},a\in\mathcal{A}}P(s_{t+i}=s^\prime,a_{t+i}=a,s_{t+i+1}=s^{\prime\prime}|s_t=s)R(s^\prime,a,s^{\prime\prime})\\ =&\sum_{s^\prime,s^{\prime\prime}\in\mathcal{S},a\in\mathcal{A}}P(s_{i}=s^\prime,a_{i}=a,s_{i+1}=s^{\prime\prime}|s_0=s)R(s^\prime,a,s^{\prime\prime})\\ =&E^\pi\left[ R(s_{i},a_{i},s_{i+1})\bigg |s_0=s\right] \end{aligned}$
其中第二个由推论8得到，所以
$\begin{aligned} V_t^\pi(s) =&\sum_{i=0}^\infty\gamma^iE^\pi\left[ R(s_{t+i},a_{t+i},s_{t+i+1})\bigg |s_t=s\right]\\ =&\sum_{i=0}^\infty\gamma^iE^\pi\left[ R(s_{i},a_{i},s_{i+1})\bigg |s_0=s\right]\\ =&V_0^\pi(s) \end{aligned}$

所以此时Bellman等式简化为
$V^\pi(s)=E^\pi[R(s,a_0,s_1)+\gamma V^\pi(s_1)|s_0=s]$
展开来即是
$\begin{aligned} V^\pi(s)=E^\pi[R(s,a_0,s_1)|s_0=s]+\gamma\sum_{s^\prime\in\mathcal{S}}p(s_1=s^\prime|s_0=s)V^\pi(s_1) \end{aligned}$ 可以看出这是一个关于 $V^\pi(s)$ 的线性方程组，其未知数的个数是状态空间中状态的个数

同样地可以得出状态-行为价值函数也是时齐的：
$\begin{aligned} &Q^\pi(a,s)=E^\pi[R(s,a,s_1)|s_0=s,a_0=a]+\gamma\sum_{s^\prime\in\mathcal{S}}p(s^\prime|s,a)V^\pi(s^\prime)\\ &V^\pi(s)=\sum_{a\in\mathcal{S}}\pi(a|s)Q(a,s) \end{aligned}$

现在有两个策略 $\pi^\prime,\pi^{\prime\prime}$ ， $\pi^\prime\geq \pi^{\prime\prime}$ 定义为 $V^{\pi^\prime}(s)\ge V^{\pi^{\prime\prime}}(s)\quad \forall s\in\mathcal{S}$ ，我们的目标是选择一个最优策略 $\pi^\star$ ，使得 $\pi^\star\geq \pi \quad \forall \pi$ ，其价值函数记为 $V^*(s)$ 。