《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P1

最新推荐文章于 2024-09-27 21:30:00 发布

Gaogaogaoshu

最新推荐文章于 2024-09-27 21:30:00 发布

阅读量649

点赞数 10

分类专栏： # 强化学习文章标签：笔记强化学习

本文链接：https://blog.csdn.net/weixin_46034116/article/details/142568259

版权

强化学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

PDF 资料整理 v3 链接
视频链接
习题

actor-critic 方法仍然是策略梯度方法。强调结合策略梯度和基于价值的方法的结构。

actor：策略更新。策略用于执行动作
critic：策略评估或价值估计。

10.1 QAC

Q：动作价值 $q_t$

上节课介绍的策略梯度方法

1) 标量指标 $J(\theta)$ ： $\bar v_\pi$ 或 $\bar r_\pi$

2) 最大化 $J(\theta)$ 的梯度上升算法：

$\begin{aligned}\theta_{t+1}&=\theta_t + \alpha \nabla_\theta J(\theta_t)\\ &=\theta_t + \alpha {\mathbb E}_{S\sim\eta, A\sim \pi}\Big[\nabla_\theta \ln \pi(A|S,\theta_t)q_\pi(S,A)\Big]\end{aligned}$

3) 随机梯度上升算法

$\theta_{t+1}=\theta_t+\alpha \nabla _\theta \ln \pi (a_t|s_t,\theta) \textcolor{blue}{q_t(s_t,a_t)}$

算法： actor
估计 $q_t(s_t,a_t)$ 的算法： critic

在这里插入图片描述

〔 critic：SARSA + 价值函数近似〕

10.2 Advantage actor-critic (A2C)

引入一个基线来减小估计方差。

10.2.1 基线不变性

基线不变性是指，下式成立

${\mathbb E}_{S\sim\eta, A\sim \pi}\Big[\nabla_\theta \ln \pi(A|S,\theta_t)q_\pi(S,A)\Big]={\mathbb E}_{S\sim\eta, A\sim \pi}\Big[\nabla_\theta \ln \pi(A|S,\theta_t)\Big(q_\pi(S,A)\textcolor{blue}{-b(S)}\Big)\Big]~~~~~~~~~~(10.3)$

证明：

$\begin{aligned}{\mathbb E}_{S\sim\eta, A\sim \pi}\Big[\nabla_\theta \ln \pi(A|S,\theta_t)b(S)\Big]&=\sum\limits_{s\in {\cal S}}\eta(s)\sum\limits_{a\in {\cal A}}\pi(a|s,\theta_t)\nabla_\theta \ln \pi(a|s,\theta_t)b(s)\\ &=\sum\limits_{s\in {\cal S}}\eta(s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta_t)b(s)\\ &=\sum\limits_{s\in {\cal S}}\eta(s)b(s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta_t)\\ &=\sum\limits_{s\in {\cal S}}\eta(s)b(s)\nabla_\theta\sum\limits_{a\in {\cal A}} \pi(a|s,\theta_t)\\ &=\sum\limits_{s\in {\cal S}}\eta(s)b(s)\nabla_\theta1\\ &=0\end{aligned}$

为什么基线有用？

当我们使用样本来近似真实梯度时，它可以减少近似方差。

令 $X(S,A)\doteq\nabla_\theta \ln \pi(A|S,\theta_t)\Big[q_\pi(S,A)-b(S)\Big]~~~~~~~~~~(10.4)$

则真实梯度为 ${\mathbb E}[X(S, A)]$ 。
由于我们需要使用随机样本 $x$ 来近似 ${\mathbb E}[x]$ ，因此如果方差 $\text{var}(X)$ 很小，将是有利的。
例如，如果 $\text{var}(X)$ 接近于零，则任何样本 $x$ 都可以准确地近似 ${\mathbb E}[x]$ 。相反，如果 $\text{var}(X)$ 较大，则样本的值可能远离 ${\mathbb E}[x]$ 。

在这里插入图片描述

虽然 ${\mathbb E}[x]$ 对基线是不变的，但方差 $\text{var}(X)$ 却不是。
我们的目标是设计一个良好的基线来最小化 $\text{var}(X)$ 。

最小化 $\text{var}(X)$ 的最优基线为

$b^*(s)=\frac{{\mathbb E}_{A\sim \pi}[\Vert\nabla_\theta\ln \pi(A|s,\theta_t)\Vert^2\textcolor{blue}{q_\pi(s,A)}]}{{\mathbb E}_{A\sim \pi}[\Vert\nabla_\theta\ln \pi(A|s,\theta_t)\Vert^2]},~~~~~s\in{\cal S}~~~~~~~~~~(10.5)$

Box 10.1. 证明式 (10.5)

虽然 (10.5) 中的基线是最优的，但它太复杂，在实践中没有用处。
如果从 (10.5) 中去掉权重 $\Vert\nabla_\theta\ln \pi(A|s,\theta_t)\Vert^2$ ，我们可以得到一个次优基线，它有一个简洁的表达式:

$b^\dagger(s)={\mathbb E}_{A\sim \pi}[q_\pi(s,A)]=v_\pi(s), ~~~~~s\in {\cal S}$

$\dagger$ $~~~~~~~~~~\dagger$

这个次优基线是状态价值！！！

Box 10.1. 最优基线证明

令 $\bar x\doteq {\mathbb E}[X]$ ，其对任意 $b (s)$ 均不变。
如果 $X$ 是一个向量，它的方差为一个矩阵。
选择 $\text{var}(X)$ 的迹作为标量目标函数用于优化。

$\begin{aligned}\text{tr}[\text{var}(X)]&=\text{tr}[{\mathbb E}[(X-\bar x)(X-\bar x)^T]]\\ &=\text{tr}[{\mathbb E}[XX^T-\bar xX^T-X\bar x^T+\bar x\bar x^T]]~~~~~~\textcolor{blue}{\text{tr}(AB)=\text{tr}(BA)~~~~~~~??? 交换矩阵位置得到下式，为啥求迹能丢掉}\\ &={\mathbb E}[X^TX-X^T\bar x-\bar x^TX+\bar x^T\bar x]\\ &={\mathbb E}[X^TX]-\bar x^T\bar x~~~~~~~~~~(10.6)\end{aligned}$

由于 $\bar x$ 是不变的，式 (10.6) 表明，我们只需最小化 ${\mathbb E}[X^TX]$

则
$\begin{aligned}{\mathbb E}[X^TX]&={\mathbb E}[(\nabla_\theta \ln \pi)^T(\nabla_\theta \ln \pi)(q_\pi(S,A)-b(S))^2]\\ &={\mathbb E}[\Vert \nabla_\theta \ln \pi\Vert^2(q_\pi(S,A)-b(S))^2]\\ &=\sum\limits_{s\in{\cal S}}\eta(s){\mathbb E}_{A\sim \pi}[\Vert \nabla_\theta \ln \pi\Vert^2(q_\pi(S,A)-\textcolor{blue}{b(S)})^2]~~~~~~~~\textcolor{blue}{~b(S)~影响方差}\end{aligned}$

为确保对任意 $s\in {\cal S}$ ，均有 $\nabla_b{\mathbb E}[X^TX]=0$ ， $b (s)$ 应满足

${\mathbb E}_{A\sim \pi}[\Vert \nabla_\theta \ln \pi\Vert^2(q_\pi(S,A)-b(S))]=0,~~~~~~s\in{\cal S}$

求解上式得 $b^*(s)=\frac{{\mathbb E}_{A\sim \pi}[\Vert\nabla_\theta\ln \pi(A|s,\theta_t)\Vert^2\textcolor{blue}{q_\pi(s,A)}]}{{\mathbb E}_{A\sim \pi}[\Vert\nabla_\theta\ln \pi(A|s,\theta_t)\Vert^2]},~~~~~s\in{\cal S}$

10.2.2 算法描述

当 $b(s)=v_\pi(s)$ ，有

$\begin{aligned}\theta_{t+1} &=\theta_t+\alpha {\mathbb E}\Big[\nabla_\theta \ln \pi(A|S,\theta_t)[q_\pi(S,A)-v_\pi(S)]\Big]\\ &=\theta_t+\alpha {\mathbb E}\Big[\nabla_\theta \ln \pi(A|S,\theta_t)\textcolor{blue}{\Delta_\pi(S,A)}\Big]\end{aligned}$

其中 $\Delta_\pi(S,A)=q_\pi(S,A)-v_\pi(S)$ 称为优势函数，反映一个动作相对于其它动作的优势。

〔文献中优势函数一般表示为 $\hat A$ 〕

状态价值 $v_\pi(s)=\sum\limits_{a\in {\cal A}}\pi(a|s)q_\pi(s,a)$ 是动作价值的均值。

如果 $\Delta_\pi(S,A)>0$ ，则表示相应动作具有比平均价值更大的价值。

式 (10.7) 的随机版本为
$\begin{aligned}\theta_{t+1}&=\theta_t+\alpha \nabla_\theta \ln \pi(a_t|s_t,\theta_t)\Big[q_t(s_t,a_t)-v_t(s_t)\Big]\\ &=\theta_t+\alpha \nabla_\theta \ln \pi(a_t|s_t,\theta_t)\Delta_t(s_t,a_t)~~~~~~~~~~(10.8)\end{aligned}$

其中 $s_t, a_t$ 是 $S, A$ 在 $t$ 时刻的样本。
这里， $q_t(s_t, a_t)$ 和 $v_t(s_t)$ 分别是 $q_{\pi(\theta_t)}(s_t, a_t)$ 和 $v_{\pi(\theta_t)}(s_t)$ 的近似值。
(10.8) 中的算法基于 $q_t$ 关于 $v_t$ 的相对值而不是 $q_t$ 的绝对值来更新策略，这在直观上是合理的，因为当我们试图在某个状态下选择一个动作时，我们只关心哪个动作相对于其他动作的价值最大。

如果 $q_t(s_t, a_t)$ 和 $v_t(s_t)$ 是通过蒙特卡罗学习估计的，则 (10.8) 中的算法称为带基线的 REINFORCE。
如果 $q_t(s_t, a_t)$ 和 $v_t(s_t)$ 是通过 TD 学习来估计的，则该算法通常被称为优势行为者-评论员算法 (A2C)。
算法 10.2 对 A2C 的实现进行了总结。需要注意的是，本实现中的优势函数近似为 TD 误差:

$q_t(s_t,a_t)-v_t(s_t)\approx r_{t+1}+\gamma v_t(s_{t+1})-v_t(s_t)$

$q_\pi(s_t,a_t)-v_\pi(s_t)={\mathbb E}\Big[R_{t+1}+\gamma v_\pi(S_{t+1})-v_\pi(S_t)|S_t=s_t,A_t=a_t\Big]$

根据 $q_\pi(s_t,a_t)$ 的定义，它是成立的。
使用 TD 误差的一个优点是我们只需要使用一个神经网络来表示 $v_\pi(s)$ 。
否则，如果 $\Delta_t = q_t(s_t,a_t) - v_t(s_t)$ ，我们需要维护两个网络分别表示 $v_\pi(s)$ 和 $q_\pi(s, a)$ 。
当我们使用 TD 误差时，该算法也可以称为 TD actor-critic。
此外，值得注意的是，策略 $π(θ_t)$ 是随机的，因此是探索性的。
因此，它可以直接用于生成经验样本，而不依赖于 $\epsilon$ -greedy 等技术。

on-policy

在这里插入图片描述

探索与利用折衷

$\begin{aligned}\theta_{t+1}&=\theta_t+\alpha \textcolor{blue}{\nabla_\theta \ln \pi(a_t|s_t,\theta_t)}\Delta_t(s_t,a_t)\\ &=\theta_t+\alpha\frac{\nabla_\theta \pi(a_t|s_t,\theta_t)}{\pi(a_t|s_t,\theta_t)}\Delta_t(s_t,a_t)\\ &=\theta_t+\alpha\frac{\Delta_t(s_t,a_t)}{\pi(a_t|s_t,\theta_t)}\nabla_\theta \pi(a_t|s_t,\theta_t)\end{aligned}$

步长与相对价值 $\Delta_t$ 而不是绝对值 $q_t$ 成正比，更合理。

更好地平衡探索和利用。

10.3 异策略 Off-policy actor-critic

通过跟踪策略 $\pi(\theta)$ 生成动作样本，行为策略和拟改进的策略是同一个〔都是 $\pi$ 〕。 on-policy

〔 $\nabla_\theta J(\theta)={\mathbb E}_{S\sim \eta,\textcolor{blue}{A\sim \pi}}[·]$ 〕

重要性采样importance sampling：使用从另一个概率分布中抽取的一些样本来估计在一个概率分布中定义的期望值的一般技术。

10.3.1 Importance sampling 重要性采样【on-policy ——> off-policy】

考虑一个随机变量 $X\in {\cal X}$ ，假设 $p_0(X)$ 是一个概率分布。我们的目标是估计 ${\mathbb E}_{X\sim p_0}[X]$ ，假设我们有一些 i.i.d 【独立同分布】样本 ${x_i\}_{i=1}^n$

首先，如果遵循 $p_0$ 生成样本 ${x_i\}_{i=1}^n$ ，则平均值 $\bar x=\frac{1}{n}\sum\limits_{i=1}^n x_i$ 可以用来近似 ${\mathbb E}_{X\sim p_0}[X]$ ，因为 $\bar x$ 是 ${\mathbb E}_{X\sim p_0}[X]$ 的无偏估计，并且估计方差在 $n→\infty$ 时收敛于零。

其次，考虑一个新场景，其中样本 ${x_i\}_{i=1}^n$ 不是由 $p_0$ 生成的。
相反，它们是由另一个分布 $p_1$ 生成的。我们还能用这些样本来近似 ${\mathbb E}_{X\sim p_0}[X]$ 吗?

〔 $p_0$ ：目标策略 $\pi$
$p_1$ ：行为策略 $\beta$ 〕

答案是肯定的。然而，我们不能再用 $\bar x=\frac{1}{n}\sum\limits_{i=1}^n x_i$ 近似 ${\mathbb E}_{X\sim p_0}[X]$ ，因为 $\bar x \approx{\mathbb E}_{X\sim p_1}[X]$ 而不是 ${\mathbb E}_{X\sim p_0}[X]$

${\mathbb E}_{X\sim p_0}[X]=\sum\limits_{x\in{\cal X}}p_0(x)x=\sum\limits_{x\in {\cal X}}p_1(x)\frac{p_0(x)}{p_1(x)}x={\mathbb E}_{X\sim p_1}[\textcolor{blue}{f(X)}]~~~~~~~~~~(10.9)$

${\mathbb E}_{X\sim p_0}[X]$ ——> ${\mathbb E}_{X\sim p_1}[\textcolor{blue}{f(X)}]$

令 $\bar f\doteq \frac{1}{n}\sum\limits_{i=1}^nf(x_i)$

$\textcolor{blue}{{\mathbb E}_{X\sim p_0}[X]}={\mathbb E}_{X\sim p_1}[f(X)]\approx\bar f=\frac{1}{n}\sum\limits_{i=1}^nf(x_i)=\frac{1}{n}\sum\limits_{i=1}^n\frac{\textcolor{blue}{p_0(x_i)}}{p_1(x_i)}x_i~~~~~~~~~~(10.10)$

${\mathbb E}_{X\sim p_0}[X]$ 可以通过 $x_i$ 的加权均值进行近似

重要性权重 $\frac{p_0(x_i)}{p_1(x_i)}$

当 $p_1=p_0$ ，重要性权重为 1， $\bar f=\bar x$
当 $p_0(x_i)\geq p_1(x_i)$ ， $x_i$ 在 $p_0$ 出现的概率比在 $p_1$ 中出现的概率大，为了获得准确的均值估计，令 $\frac{p_0(x_i)}{p_1(x_i)}>1$ 可将权重拉回来。

在这里插入图片描述

10.3.2 异策略off-policy 策略梯度定理

假设 $\beta$ 是一个行为策略。
我们的目标是使用由 $\beta$ 生成的样本来学习可以最大化以下指标的目标策略 $\pi$ :

$J(\theta)=\sum\limits_{s\in{\cal S}}d_\beta(s)v_\pi(s)={\mathbb E}_{S\sim d_\beta}[v_\pi(S)]$

其中 $d_\beta$ 是遵循 $\beta$ 的状态分布。
$v_\pi$ 是策略 $\pi$ 下的状态价值。

Theorem 10.1 (Off-policy policy gradient theorem).

对于折扣因子 $\gamma \in (0,1)$ 的折扣情形

$\nabla_\theta J(\theta)={\mathbb E}_{S\sim \rho, \textcolor{blue}{A\sim \beta}}\Big[\frac{\pi(A|S,\theta)}{\beta(A|S)}\nabla_\theta \ln \pi(A|S,\theta)q_\pi(S,A)\Big]~~~~~~~~~~(10.11)$

其中状态分布 $\rho$ ： $\rho(s)\doteq\sum\limits_{s^\prime\sin {\cal S}}d_\beta(s^\prime)\text{Pr}_\pi(s|s^\prime), ~~~~~~~s\in {\cal S}$

其中 $\text{Pr}_\pi(s|s^\prime)=\sum\limits_{k=0}^\infty\gamma^k[P_\pi^k]_{s^\prime s}=[(I-\gamma P_\pi)^{-1}]_{s^\prime s}$ 在策略 $\pi$ 下从 $s^\prime$ 转移到 $s$ 的折扣总概率。

Box 10.2: Proof of Theorem 10.1

由于 $d_\beta$ 与 $\theta$ 无关， $J(\theta)$ 的梯度满足

$\nabla_\theta J(\theta)=\nabla_\theta \sum\limits_{s\in {\cal S}}d_\beta (s)v_\pi(s)=\sum\limits_{s\in {\cal S}}d_\beta(s)\nabla_\theta v_\pi(s)~~~~~~~~~~(10.12)$

$\nabla_\theta v_\pi(s)=\sum\limits_{s^\prime\in {\cal S}}\text{Pr}_\pi(s^\prime|s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)~~~~~~~~~~(10.13)$

其中 $\text{Pr}(s^\prime|s)\doteq \sum\limits_{k=0}^\infty \gamma^k[P_\pi^k]_{ss^\prime}=[(I_n-\gamma P_\pi)^{-1}]_{ss^\prime}$

将式 (10.13) 代入 (10.12)

$\begin{aligned}\nabla_\theta J(\theta)=\sum\limits_{s\in {\cal S}}d_\beta(s)\nabla_\theta v_\pi(s)&=\sum\limits_{s\in {\cal S}}d_\beta(s)\sum\limits_{s^\prime\in {\cal S}}\text{Pr}_\pi(s^\prime|s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)\\ &=\sum\limits_{s^\prime\in {\cal S}}\Big(\sum\limits_{s\in {\cal S}}d_\beta(s)\text{Pr}_\pi(s^\prime|s)\Big)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)\\ &=\sum\limits_{s^\prime\in {\cal S}}\rho(s^\prime)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)\\ &=\sum\limits_{s\in {\cal S}}\rho(s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)~~~~~~~~\textcolor{blue}{将 ~s^\prime~ 改成 ~s~}\\ &={\mathbb E}_{S\sim \rho}\Big[\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|S,\theta)q_\pi(S,a)\Big]\\ &={\mathbb E}_{S\sim \rho}\Big[\sum\limits_{a\in {\cal A}}\textcolor{blue}{\beta(a|S)\frac{\pi(a|S,\theta)}{\beta(a|S)}}\frac{\nabla_\theta \pi(a|S,\theta)}{\textcolor{blue}{\pi(a|S,\theta)}}q_\pi(S,a)\Big]~~~~~~~~\textcolor{blue}{重要性采样}\\ &={\mathbb E}_{S\sim \rho}\Big[\sum\limits_{a\in {\cal A}}\beta(a|S)\frac{\pi(a|S,\theta)}{\beta(a|S)}\nabla_\theta \ln \pi(a|S,\theta)q_\pi(S,a)\Big]\\ &={\mathbb E}_{S\sim \rho,A\sim \beta}\Big[\frac{\pi(A|S,\theta)}{\beta(A|S)}\nabla_\theta \ln \pi(A|S,\theta)q_\pi(S,A)\Big]\end{aligned}$
类似定理 9.1

在这里插入图片描述

10.3.3 算法描述

$\theta_{t+1}=\theta_t +\alpha_t\frac{\pi(a_t,s_t,\theta)}{\beta(a_t|s_t)}\nabla_\theta\ln \pi (a_t|s_t,\theta)\Delta_t(s_t,a_t)$

〔仅利用，无探索〕
$对上式进行变形：\theta_{t+1}=\theta_t +\alpha_t\frac{\Delta_t(s_t,a_t)}{\beta(a_t|s_t)}\nabla_\theta \pi (a_t|s_t,\theta)$

当 $\Delta_t$ 比较大，说明这个动作比其他动作的价值大，下一时刻将增大相应的权重。
利用
由于分母 $\beta(a|s)$ 保持不变，所以不存在探索。

——————————————

在这里插入图片描述

10.4 确定性 actor-critic 【连续动作空间】

在这里插入图片描述

〔一个状态，无限个动作 ——> 考虑用 确定性策略〕

“确定性”表示，对于任何状态，单个动作的概率为 1，而所有其他动作的概率为 0。研究确定性情况是很重要的，因为它是自然的异策略off-policy，可以有效地处理连续的动作空间。

我们一直使用 $π (a ∣ s, θ)$ 来表示一般策略，它可以是随机的，也可以是确定的。
在本节中，我们使用 $a=\mu(s,\theta)$ 明确地表示确定性策略。
不同于 $\pi$ 给出动作的概率的， $\mu$ 直接给出了动作，因为它是从 $\cal S$ 到 $\cal A$ 的映射。
这种确定性策略可以用，例如，一个神经网络，以 $s$ 为输入， $a$ 为输出， $θ$ 为参数来表示。
为了简单起见，我们通常把 $\mu(s,θ)$ 写成 $μ (s)$ 。

10.4.1 确定性策略梯度定理

Theorem 10.2 (Deterministic policy gradient theorem).

$\begin{aligned}\nabla_\theta J(\theta)&=\sum\limits_{s\in {\cal S}}\eta(s)\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}\\ &={\mathbb E}_{S\sim \eta}[\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}]~~~~~~~~~~(10.14)\end{aligned}$

其中 $\eta$ 是状态分布

与随机情况不同，式 (10.14) 所示的确定性情况中的梯度不涉及动作随机变量 $a$ 。因此，当我们使用样本来近似真实梯度时，不需要对动作进行采样。因此，确定性策略梯度方法是 off-policy。

指标 1：平均价值

$J(\theta)={\mathbb E}[v_\mu(s)]=\sum\limits_{s\in {\cal S}}d_0(s)v_\mu(s)~~~~~~~~~~(10.15)$

其中 $d_0$ 是状态的概率分布。这里，为了简单起见，选择 $d_0$ 独立于 $μ$ 。
选择 $d_0$ 有两种特殊但重要的情况。

第一种情况是 $d_0(s_0) =1$ 且 $d_0(s\neq s_0) = 0$ ，其中 $s_0$ 是感兴趣的特定状态。
在这种情况下，该策略的目标是使从 $s_0$ 开始时所能获得的折扣回报最大化。〔 $J(\theta)=v_\mu(s_0)$ 〕
第二种情况是， $d_0$ 是与目标策略〔 $\mu$ 〕不同的给定行为策略〔 $\beta$ 〕的分布。

Lemma 10.1 (Gradient of $v_µ(s)$ )

在折扣情形下，对任意 $s\in {\cal S}$ ，有

$\nabla_\theta v_\mu (s)=\sum\limits_{s^\prime \in {\cal S}}\text{Pr}_\mu (s^\prime|s)\nabla_\theta \mu(s^\prime)(\nabla_a q_\mu(s^\prime,a))|_{a=\mu(s^\prime)}~~~~~~~~~~(10.16)$

其中 $\text{Pr}_\mu (s^\prime|s)\doteq \sum\limits_{k=0}^\infty\gamma ^k[P_\mu^k]_{ss^\prime}=[(I-\gamma P_\mu)^{-1}]_{ss^\prime}$ 为策略 $\mu$ 下从 $s$ 过渡到 $s^{'}$ 的折扣总概率。
其中， $[·]_{ss^\prime}$ 表示矩阵第 $s$ 行第 $s^\prime$ 列的条目。

Box 10.3：证明 Lemma 10.1

由于策略是确定性的，有 $v_\mu(s)=q_\mu(s,\mu(s))$
$q_\mu$ 和 $\mu$ 都是 $\theta$ 的函数

$\nabla_\theta v_\mu(s)=\nabla_\theta q_\mu(s,\mu(s))=(\nabla_\theta q_\mu(s,\textcolor{blue}{a}))|_{a=\mu(s)}+\textcolor{blue}{\nabla_\theta \mu(s)}(\nabla _aq_\mu(s,a))|_{a=\mu(s)}~~~~~~~~~~(10.17)$

$(s, a)$ 的动作价值为 $q_\mu(s,a)=r(s,a)+\gamma \sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s,a)v_\mu(s^\prime)$

其中 $r(s,a)=\sum\limits_r rp(r|s,a)$

因为 $r (s, a)$ 和 $\mu$ 无关

$\nabla_\theta q_\mu(s,a)=0+\gamma \sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s,a)\nabla_\theta v_\mu(s^\prime)$

将上式代入式 (10.17)

$\nabla_\theta v_\mu(s)=\gamma \underbrace{\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s,\mu(s))}_{P_\mu \otimes I_m}\nabla_\theta v_\mu(s^\prime)+ \underbrace{\nabla_\theta \mu(s)(\nabla _aq_\mu(s,a))|_{a=\mu(s)}}_{u(s)}~~~~~~~~s\in{\cal S}$

矩阵-向量形式：

$\underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\mu(s)\\ \vdots\end{bmatrix}}_{\nabla_\theta v_\mu \in {\mathbb R}^{mn}}=\underbrace{\begin{bmatrix}\vdots\\ u(s)\\ \vdots\end{bmatrix}}_{u \in {\mathbb R}^{mn}}+\gamma (P_\mu \otimes I_m)\underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\mu(s^\prime)\\ \vdots\end{bmatrix}}_{\nabla_\theta v_\mu \in {\mathbb R}^{mn}}$

其中 $n=|\cal S|$ ， $m$ 为 $\theta$ 的维度
$P_\mu$ 是状态转移矩阵， $[P_\mu]_{ss^\prime}=p(s^\prime|s,\mu(s))$

上述矩阵-向量形式可简写为

$\nabla_\theta v_\mu=u+\gamma (P_\mu \otimes I_m)\nabla_\theta v_\mu~~~~~$ 一个关于 $s$ , 一个关于 $s^\prime$ ，这样合并是否合理呢 ?

$(I_{mn}-\gamma P_\mu \otimes I_m)\nabla_\theta v_\mu=u$

$\begin{aligned}\nabla_\theta v_\mu&=(I_{mn}-\gamma P_\mu \otimes I_m)^{-1}u\\ &=(I_n\otimes I_m-\gamma P_\mu \otimes I_m)^{-1}u\\ &=[(I_n-\gamma P_\mu)^{-1}\otimes I_m]u~~~~~~~~~~(10.18)\end{aligned}$

改回元素级形式

$\begin{aligned}\nabla_\theta v_\mu(s)&=\sum\limits_{s^\prime\in {\cal S}}[(I-\gamma P_\mu)^{-1}]_{ss^\prime}\mu(s^\prime)\\ &=\sum\limits_{s^\prime\in {\cal S}}[(I-\gamma P_\mu)^{-1}]_{ss^\prime}[\nabla_\theta \mu(s^\prime)(\nabla _aq_\mu(s^\prime,a))|_{a=\mu(s^\prime)}]~~~~~~~~~~(10.19)\end{aligned}$

$[(I-\gamma P_\mu)^{-1}]_{ss^\prime}$ 具有明确的概率解释。

因为 $(I-\gamma P_\mu)^{-1}=I+\gamma P_\mu+\gamma^2 P_\mu^2+\cdots$

$[(I-\gamma P_\mu)^{-1}]_{ss^\prime}=[I]_{ss^\prime}+\gamma [P_\mu]_{ss^\prime}+\gamma^2 [P_\mu^2]_{ss^\prime}+\cdots=\sum\limits_{k=1}^\infty \gamma^k [P_\mu^k]_{ss^\prime}$

注意， $[P_\mu^k]_{ss '}$ 是恰好经过 $k$ 个时间步从 $s$ 过渡到 $s^{'}$ 的概率。因此， $[(I-\gamma P_\mu)^{-1}]_{ss^\prime}$ ，是使用任意时间步数从 $s$ 过渡到 $s^{'}$ 的折扣总概率。
通过令 $[(I-\gamma P_\mu)^{-1}]_{ss^\prime}\doteq \text{Pr}_\mu(s^\prime|s)$ ，式 (10.19) 可得式 (10.16)。

在这里插入图片描述

Theorem 10.3 折扣情形下的确定性策略梯度原理

折扣因子 $\gamma\in(0,1)$ 的折扣情形

$\begin{aligned}\nabla_\theta J(\theta)&=\sum\limits_{s\in {\cal S}}\rho_\mu (s)\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a= \mu(s)}\\ &={\mathbb E}_{S\sim \rho_\mu}[\nabla_\theta \mu(S)(\nabla _a q_\mu (S,a))|_{a=\mu(S)}]\end{aligned}$

其中状态分布 $\rho_\mu=\sum\limits_{s^\prime\in {\cal S}}d_0(s^\prime)\text{Pr}_\mu (s|s^\prime)~~~~~~s\in {\cal S}$
$\text{Pr}_\mu (s|s^\prime)=\sum\limits_{k=0}^\infty\gamma ^k [(I-\gamma P_\mu)^{-1}]_{s^\prime s}$ 是策略 $\mu$ 下从 $s^\prime$ 转移到 $s$ 的折扣总概率。

〔注意这里没有 $A$ ，对于获得动作 $a$ 的策略无要求，一般为 off-policy 〕

Box 10.4：证明 Theorem 10.3

由于 $d_0$ 与策略 $\mu$ 无关

$\nabla_\theta J(\theta)=\sum\limits_{s\in {\cal S}}d_0(s)\nabla_\theta v_\mu (s)$

将引理 10.1 中的 $\nabla_\theta v_\mu(s)$ 代入上述方程

$\begin{aligned}\nabla_\theta J(\theta)&=\sum\limits_{s\in {\cal S}}d_0(s)\nabla_\theta v_\mu (s)\\ &=\sum\limits_{s\in {\cal S}}d_0(s)\sum\limits_{s^\prime \in {\cal S}}\text{Pr}_\mu (s^\prime|s)\nabla_\theta \mu(s^\prime)(\nabla_a q_\mu(s^\prime,a))|_{a=\mu(s^\prime)}\\ &=\sum\limits_{s^\prime \in {\cal S}}\Big(\sum\limits_{s\in {\cal S}}d_0(s)\text{Pr}_\mu (s^\prime|s)\Big)\nabla_\theta \mu(s^\prime)(\nabla_a q_\mu(s^\prime,a))|_{a=\mu(s^\prime)}\\ &=\sum\limits_{s^\prime \in {\cal S}}\rho_\mu(s^\prime)\nabla_\theta \mu(s^\prime)(\nabla_a q_\mu(s^\prime,a))|_{a=\mu(s^\prime)}\\ &=\sum\limits_{s \in {\cal S}}\rho_\mu(s)\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}~~~~~\textcolor{blue}{将 ~s^\prime~ 换成 ~s~}\\ &={\mathbb E}_{S\sim \rho_\mu}[\nabla_\theta \mu (S)(\nabla_aq_\mu (S,a))|_{a=\mu(S)}]\end{aligned}$