《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 9.4- Monte Carlo policy gradient (REINFORCE)-CSDN博客

本文链接：https://blog.csdn.net/weixin_46034116/article/details/142497967

PDF 资料整理 v3 链接
视频链接

⭐ 9.4 Monte Carlo policy gradient (REINFORCE)

如何用基于梯度的方法来优化指标以获得最优策略？

最大化 $J(\theta)$ 的梯度上升算法

$\begin{aligned}\theta_{t+1}&=\theta_t+\alpha\nabla_\theta J(\theta_t)\\ &=\theta_t+\alpha{\mathbb E}\Big[\nabla_\theta \ln\pi(A|S,\theta_t)q_\pi(S,A)\Big]~~~~~~~~~~(9.31)\end{aligned}$

其中 $\alpha>0$ 是一个常数学习率。

由于式 (9.31) 的真实梯度是未知的〔环境模型无法获知〕，我们可以用通过以下算法得到的随机梯度代替。

$\theta_{t+1}=\theta_t+\alpha\nabla_\theta \ln\pi(a_t|s_t,\theta_t)q_t(s_t,a_t)~~~~~~~~~~(9.32)$

其中 $q_t(s_t,a_t)$ 是 $q_\pi(s_t,a_t)$ 的近似

因为 $\nabla_\theta\ln\pi(a_t|s_t,\theta_t)=\frac{\nabla_\theta \pi(a_t|s_t,\theta_t)}{\pi(a_t|s_t,\theta_t)}$

将式 (9.32) 重写为

$\begin{aligned}\theta_{t+1}&=\theta_t+\alpha\frac{\nabla_\theta \pi(a_t|s_t,\theta_t)}{\pi(a_t|s_t,\theta_t)}q_t(s_t,a_t)\\ &=\theta_t+\alpha\underbrace{\frac{q_t(s_t,a_t)}{\pi(a_t|s_t,\theta_t)}}_{定义为 ~\beta_t}\nabla_\theta \pi(a_t|s_t,\theta_t)\\ &=\theta_t+\alpha\beta_t\nabla_\theta \pi(a_t|s_t,\theta_t)~~~~~~~~~~(9.33)\end{aligned}$

〔通过改变 $\theta$ 优化 $\pi(a_t|s_t)$ 的值〕

1、如果 $\beta_t\geq 0$ ，选择 $s_t,a_t)$ 的概率增大。即 $\pi(a_t|s_t,\theta_{\textcolor{blue}{t+1}})\geq\pi(a_t|s_t,\theta_{\textcolor{blue}{t}})$ 。〔梯度上升〕

如果 $\beta_t< 0$ ，选择 $s_t,a_t)$ 的概率减小。即 $\pi(a_t|s_t,\theta_{\textcolor{blue}{t+1}})<\pi(a_t|s_t,\theta_{\textcolor{blue}{t}})$ 。〔梯度下降〕

证明上面的直觉 ——> 数学表示
当 $\theta_{t+1}-\theta_t$ 足够小，进行泰勒展开，有

$\begin{aligned}\pi(a_t|s_t,\theta_{t+1})&\approx \pi(a_t|s_t,\theta_t)+(\nabla_\theta \pi(a_t|s_t,\theta_t))^T(\theta_{t+1}-\theta_t)\\ &=\pi(a_t|s_t,\theta_t)+(\nabla_\theta \pi(a_t|s_t,\theta_t))^T·\alpha\beta_t\nabla_\theta \pi(a_t|s_t,\theta_t)~~~~~\textcolor{blue}{将式~ (9.33)~代入} \\ &=\pi(a_t|s_t,\theta_t)+\alpha\beta_t\Vert\nabla_\theta \pi(a_t|s_t,\theta_t)\Vert_2^2\end{aligned}$
显然，当 $\beta_t \geq 0$ 时， $\pi(a_t|s_t,\theta_{\textcolor{blue}{t+1}})\geq\pi(a_t|s_t,\theta_{\textcolor{blue}{t}})$
当 $\beta_t < 0$ 时， $\pi(a_t|s_t,\theta_{\textcolor{blue}{t+1}})<\pi(a_t|s_t,\theta_{\textcolor{blue}{t}})$

探索与利用的折衷

2、由于 $\beta_t=\frac{q_t(s_t,a_t)}{\pi(a_t|s_t,\theta_t)}$ ，该算法在某种程度上权衡了探索和利用。

一方面 $\beta_t$ 和 $q_t(s_t,a_t)$ 成正比，如果 $s_t,a_t)$ 的动作价值很大，则 $\textcolor{blue}{\beta_t↑}=\frac{q_t(s_t,a_t)↑}{\pi(a_t|s_t,\theta_t)}$ ，更新后的策略将增大选择 $a_t$ 的概率。即 $\textcolor{blue}{\pi(a_t|s_t,\theta_{t+1})↑}=\pi(a_t|s_t,\theta_t)+\alpha\beta_t↑\Vert\nabla_\theta \pi(a_t|s_t,\theta_t)\Vert_2^2$
即该算法倾向于利用具有更大价值的动作。
当 $q_t(s_t,a_t)>0$ ，如果选择 $a_t$ 的概率很小，即 $\pi(a_t|s_t,\theta_t)$ 很小，将会使得 $\beta_t$ 变大〔 $\textcolor{blue}{\beta_t↑}=\frac{q_t(s_t,a_t)}{\pi(a_t|s_t,\theta_t)↓}$ 〕，更新后的策略会增大这个动作的选择概率。类似地， $\pi(a_t|s_t,\theta_{t+1})↑$
即该算法倾向于探索具有低概率的动作。

————————

梯度近似需要的样本如何获取？

采样 $S$ ： $S\sim\eta$ 。不是 $d_\pi$ 就是 $\rho_\pi$ ，表示策略 $\pi$ 下的长期行为。

采样 $A$ ：遵循 $\pi(a|s_t,\theta_t)$ 选择 $a_t$
on-policy 同策略。

实际代码实现中：首先通过遵循 $\pi(\theta)$ 生成一个回合。然后，使用回合中的每个经验样本多次更新 $\theta$ 。

伪码

在这里插入图片描述

算法 9.1：REINFORCE
初始化：策略网络权重参数 $\theta$ ；折扣因子 $\gamma \in (0,1)$ ；优化学习率 $\alpha>0$
目标：学习可将 $J(\theta)$ 最大化的最优策略
对每个回合， $\bf do$ ：
遵循策略 $\pi(\theta)$ 生成一个回合 $\{\textcolor{blue}{s_0,a_0,r_1},\cdots,\textcolor{blue}{s_{T-1},a_{T-1},r_T}\}$
对于 $t=0,1,\cdots,T-1:$
价值更新： $q_t(s_t,a_t)=\sum\limits_{k=t+1}^T\gamma^{k-t-1}r_k=r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+\cdots$
策略更新： $\theta\leftarrow\theta+\alpha\nabla_\theta\ln\pi(a_t|s_t,\theta)q_t(s_t,a_t)$