《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P2

最新推荐文章于 2024-09-27 21:30:00 发布

Gaogaogaoshu

最新推荐文章于 2024-09-27 21:30:00 发布

阅读量622

点赞数 24

分类专栏： # 强化学习文章标签：笔记强化学习

本文链接：https://blog.csdn.net/weixin_46034116/article/details/142590728

版权

强化学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

PDF 资料整理 v3 链接

《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P1

指标 2：平均奖励

$\begin{aligned}J(\theta)=\bar r_\mu&=\sum\limits_{s\in {\cal S}}d_\mu(s)r_\mu(s)\\ &={\mathbb E}_{S\sim d_\mu}[r_\mu(S)]~~~~~~~~~~(10.20)\end{aligned}$

其中 $r_\mu(s)={\mathbb E}[R|s,a=\mu(s)]=\sum\limits_r rp(r|s,a=\mu(s))$ 为即时奖励的期望

Theorem 10.4 无折扣情形下的确定性策略梯度原理

无折扣情形下

$\begin{aligned}\nabla_\theta J(\theta)&=\sum\limits_{s\in {\cal S}}d_\mu(s)\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}\\ &={\mathbb E}_{S\sim d_\mu}[\nabla_\theta \mu (S)(\nabla_a q_\mu(S,a))|_{a=\mu(S)}]\end{aligned}$

$d_\mu$ 是策略 $\mu$ 下的状态的状态分布。

Box 10.5：证明 Theorem 10.4

由于策略是确定性的，有 $v_\mu(s)=q_\mu(s, \mu(s))$
由于 $q_\mu$ 和 $\mu$ 都是关于 $\theta$ 的函数

$\nabla_\theta v_\mu(s)=\nabla_\theta q_\mu (s,\mu(s))=(\nabla_\theta q_\mu(s,a))|_{a=\mu(s)}+\nabla_\theta\mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}~~~~~~~~~~(10.21)$

在无折扣情形，

$\begin{aligned}q_\mu(s,a)&={\mathbb E}[R_{t+1}\textcolor{blue}{-\bar r_\mu} + v_\mu (S_{t+1})|s,a]\\ &=\sum\limits_r p(r|s,a)(r-\bar r_\mu)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\mu(s^\prime)\\ &=r(s,a)-\bar r_\mu+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\mu(s^\prime)\end{aligned}$

由于 $r(s,a)=\sum\limits_r r p(r|s,a)$ 与 $\theta$ 无关

$\nabla _\theta q_\mu (s,a)=0-\nabla _\theta\bar r_\mu+\sum\limits_{s^\prime}p(s^\prime|s,a) \nabla _\theta v_\mu(s^\prime)$

将上式代入式 (10.21)

$\nabla_\theta v_\mu(s)=-\nabla _\theta\bar r_\mu+\sum\limits_{s^\prime}p(s^\prime|s,\mu(s)) \nabla _\theta v_\mu(s^\prime)+\underbrace{\nabla_\theta\mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}}_{u(s)}~~~~~~s\in {\cal S}$

上述方程对所有 $s\in{\cal S}$ ，联合获得矩阵-向量形式;

$\underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\mu(s)\\ \vdots\end{bmatrix}}_{\nabla_\theta v_\mu \in {\mathbb R}^{mn}}=-{\bf 1}_n\otimes \nabla_\theta \bar r_\mu +(P_\mu \otimes I_m)\underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\mu(s^\prime)\\ \vdots\end{bmatrix}}_{\nabla_\theta v_\mu \in {\mathbb R}^{mn}}+\underbrace{\begin{bmatrix}\vdots\\ u(s)\\ \vdots\end{bmatrix}}_{u \in {\mathbb R}^{mn}}$

其中 $n=|\cal S|$ ， $m$ 为 $\theta$ 的维度，
$P_\mu$ 是状态转移矩阵， $[P_\mu]_{ss^\prime}=p(s^\prime|s,\mu(s))$

可简写为

$\nabla_\theta v_\mu =u-{\bf 1}_n \otimes \nabla_\theta \bar r_\mu+(P_\mu\otimes I_m)\nabla_\theta v_\mu$

移项
${\bf 1}_n \otimes \nabla_\theta \bar r_\mu=u+(P_\mu\otimes I_m)\nabla_\theta v_\mu-\nabla_\theta v_\mu~~~~~~~~~~(10.22)$

由于 $d_\mu$ 是状态分布，有 $d_\mu^T P_\mu = d_\mu^T$ ， $d_\mu^T{\bf 1}_n=1$

式 (10.22) 两边同乘 $d_\mu^T \otimes I_m$
$\begin{aligned}d_\mu^T \otimes I_m\otimes {\bf 1}_n \otimes \nabla_\theta \bar r_\mu&=d_\mu^T \otimes I_m\otimes u+d_\mu^T \otimes I_m\otimes (P_\mu\otimes I_m)\nabla_\theta v_\mu-d_\mu^T \otimes I_m\otimes \nabla_\theta v_\mu\\ \nabla_\theta \bar r_\mu&=d_\mu^T \otimes I_m u+d_\mu^T \otimes I_m \nabla_\theta v_\mu-d_\mu^T \otimes I_m \nabla_\theta v_\mu\\ &=d_\mu^T \otimes I_m u\\ &=\sum\limits_{s\in {\cal S}}d_\mu(s)u(s)\\ &=\sum\limits_{s\in {\cal S}}d_\mu(s)\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a=\mu(s)}\\ &={\mathbb E}_{S\sim d_\mu}[\nabla_\theta \mu(S)(\nabla_a q_\mu (S,a))|_{a=\mu(S)}]\end{aligned}$

10.4.2 算法描述

在这里插入图片描述

最大化 $J(\theta)$ 的梯度上升算法

$\theta_{t+1}=\theta_t+\alpha _\theta {\mathbb E}_{S\sim \eta}[\nabla_\theta \mu(S)(\nabla_a q_\mu(S,a))|_{a=\mu(S)}]$

相应的随机梯度算法为： $\theta_{t+1}=\theta_t+\alpha_\theta \nabla_\theta\mu(s_t)(\nabla_a q_\mu(s_t,a))|_{a=\mu(s_t)}$

必须特别注意为什么 critic 是异策略off-policy，但不需要重要性采样技术。
特别地，critic 需要的经验样本是 $(s_t, a_t, r_{t+1}, s_{t+1}, \tilde a_{t+1})$ ，其中 $\tilde a_{t+1}= μ(s_{t+1})$ 。这个经验样本的生成涉及两个策略。第一个是用于在 $s_t$ 生成 $a_t$ 的策略【行为策略， $a_t$ 用于和环境交互】，第二个是用于在 $s_{t+1}$ 生成 $\tilde a_{t+1}$ 的策略【目标策略 $\mu$ ，是 critic 拟评估的策略】。
应该注意的是， $\tilde a_{t+1}$ 不用于与下一个时间步中的环境进行交互。因此， $\mu$ 不是行为策略。因此，critic 是异策略off-policy。

如何选择函数 $q (s, a, w)$ ? ——> 神经网络
提出确定性策略梯度方法的原始研究工作[74]采用线性函数 $\phi^T (s, a)w$ ，其中 $\phi(s,a)$ 为特征向量。〔 DPG 〕
目前流行使用神经网络表示 $q (s, a, w)$ ，如深度确定性策略梯度(deep deterministic policy gradient, DDPG) 方法[75]。

如何选择行为策略 $\beta$ ?
它可以是任何探索性政策。它也可以是通过在 $μ$ 中加入噪声得到的随机策略[75]。在这种情况下， $μ$ 也是行为策略，因此这种方式是同策略on-policy 的实现。

10.5 总结

最简单的 actor-critic 算法 QAC。该算法类似于上一章介绍的策略梯度算法——REINFORCE。唯一的区别是 QAC 中的 Q 值估计依赖于 TD 学习，而 REINFORCE 依赖于蒙特卡罗估计。

advantage actor-critic：策略梯度对任何附加基线都是不变的。最优基线可以帮助减少估计方差。

off-policy异策略： importance sampling重要性采样

SAC、TRPO、PPO、TD3

10.6 Q & A

1、actor-critic 和策略梯度方法之间的关系是什么?
actor-critic 方法实际上是策略梯度方法。
在任何策略梯度算法中，都需要估计动作价值。当使用带有价值函数近似的时序差分学习( temporal-difference learning) 来估计动作价值时，这种策略梯度算法被称为 actor - critic。
“actor-critic” 这个名字突出了它的算法结构，它结合了策略更新和价值更新的组件。这个结构也是所有强化学习算法中使用的基本结构。

QAC + 基线技巧减小近似方差 = advantage actor-critic

Q：为什么确定性策略梯度方法是 off-policy?
A：确定性情况下的真梯度不涉及动作随机变量。
因此，当我们使用样本来近似真实梯度时，不需要对动作进行采样，因此可以使用任何策略。因此，确定性策略梯度方法是 off-policy。

〔江湖见〕