基于策略的强化学习公式推导

最新推荐文章于 2024-05-24 03:49:26 发布

一路没你

最新推荐文章于 2024-05-24 03:49:26 发布

阅读量998

点赞数

分类专栏：强化学习文章标签： PPO算法 PG算法

本文链接：https://blog.csdn.net/zhisuihen6347/article/details/100098394

版权

强化学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

基于策略的强化学习就是最大化平均收益 $\bar{R}$ ，公式如下：

$\bar{R}=\sum_\tau P_{\theta}(\tau)R(\tau)$
其中， $\tau$ 为一个episode，可以写成{ $s_1,a_1,r_1,\dots,s_H,a_H,r_H$ }。 $P_{\theta}(\tau)$ 为 $\tau$ 出现的概率，与参数 $\theta$ 有关， $R(\tau)$ 为episode $\tau$ 收益。

我们使用梯度上升求解，即： $\theta\leftarrow\theta+\eta\bigtriangledown_{\theta}\bar{R}$
首先对 $\bar{R}$ 关于 $\theta$ 求导：
$\begin{aligned} \bigtriangledown_{\theta}\bar{R}&=\sum_\tau \bigtriangledown_{\theta}P_{\theta}(\tau)R(\tau)\\ &=\sum_\tau R(\tau)P_{\theta}(\tau)\bigtriangledown_{\theta}\log P_{\theta}(\tau)\\ &=E_{\tau\sim P_{\theta}(\tau)}\left[R(\tau)\bigtriangledown_{\theta}\log P_{\theta}(\tau)\right]\\ &\approx \frac{1}{N}\sum_{\tau} R(\tau)\bigtriangledown_{\theta}\log P_{\theta}(\tau) \end{aligned}$
其中， $P_{\theta}(\tau)$ 公式如下：
$\begin{aligned} P_{\theta}=P(s_1)\prod_{t=1}^{H}\pi_{\theta}(a_t|s_t)P(s_{t+1}|s_t,a_t) \end{aligned}$
所以，
$\bigtriangledown_{\theta}\log P_{\theta}(\tau)=\sum_{t=1}^{H}\bigtriangledown_{\theta}\log \pi_{\theta}(a_t|s_t)$
代入上式得：
$\bigtriangledown_{\theta}\bar{R}\approx \frac{1}{N}\sum_{\tau} R(\tau)\sum_{t=1}^{H}\bigtriangledown_{\theta}\log \pi_{\theta}(a_t|s_t)$
将我们的数据代入上式就可以得到 $\bigtriangledown_{\theta}\bar{R}$ ，然后更新参数 $\theta$ 。

但是，这个流程是采样一批数据更新一下参数，再采样一批更新一下，每批数据利用一次，效率很低下，所以在PPO中用到了off-policy，即采样时的策略和更新的策略不是同一策略，其中用到重要性采样，这个不会的可以百度一下吧，我这边直接给出推导。

假设当前策略为 $\theta$ ，我们的数据是由 $\theta_{old}$ 产生的。

刚刚我们得到：
$\begin{aligned} \bigtriangledown_{\theta}\bar{R}&=\sum_\tau R(\tau)P_{\theta}(\tau)\bigtriangledown_{\theta}\log P_{\theta}(\tau)\\ &=\sum_\tau R(\tau)P_{\theta_{old}}(\tau)\frac{P_{\theta}(\tau)\bigtriangledown_{\theta}\log P_{\theta}(\tau)}{P_{\theta_{old}}(\tau)} \\ &=\sum_\tau R(\tau)P_{\theta_{old}}(\tau)\frac{\bigtriangledown_{\theta} P_{\theta}(\tau)}{P_{\theta_{old}}(\tau)} \end{aligned}$
那么，
$\begin{aligned} \bar{R}&=\sum_\tau R(\tau)P_{\theta_{old}}(\tau)\frac{P_{\theta}(\tau)}{P_{\theta_{old}}(\tau)}\\ &=E_{\tau\sim P_{\theta_{old}}(\tau)}\left[\frac{R(\tau)P_{\theta}(\tau)}{P_{\theta_{old}}(\tau)}\right]\\ &\approx \frac{1}{N}\sum_{\tau}\frac{R(\tau)P_{\theta}(\tau)}{P_{\theta_{old}}(\tau)} \end{aligned}$

当然， $\theta_{old}$ 和 $\theta$ 也不能差太多，所以PPO算法实现的时候会考虑两个概率分布的相对熵或者考虑截断，如图，
在这里插入图片描述
其中， $J^{\theta^k}(\theta)$ 就是我们这边的 $\bar{R}$ 。最大化这个就可以得到 $\theta$ 的更新。

此外，PPO算法还考虑基线和折扣因子，这都是对我们公式中 $R(\tau)$ 进行改写的。这两个trick比较简单，我太懒了，不想写了，就到这儿吧。

代码可以参考这个。

一路没你

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于策略的强化学习公式推导

基于策略的强化学习就是最大化平均收益Rˉ\bar{R}Rˉ，公式如下：Rˉ=∑τPθ(τ)R(τ)\bar{R}=\sum_\tau P_{\theta}(\tau)R(\tau)Rˉ=τ∑Pθ(τ)R(τ)其中，τ\tauτ为一个episode，可以写成{s1,a1,r1,…,sH,aH,rHs_1,a_1,r_1,\dots,s_H,a_H,r_Hs1,a1,r1,…,sH...
复制链接

扫一扫