Policy Optimization

最新推荐文章于 2024-08-08 07:39:46 发布

bineleanor

最新推荐文章于 2024-08-08 07:39:46 发布

阅读量572

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/z2536083458/article/details/87937008

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考资料：https://spinningup.openai.com/en/latest/spinningup/rl_intro3.html

Intro to Policy Optimization

本部分着重推导策略梯度的数学公式

关于Policy Gradient的简单求导

参数: $\pi_{\theta}$ , 目标函数：最大化 $J(\pi_{\theta})=E_{\tau\sim\pi_{\theta}}[R(\tau)]$

梯度上升：
$\theta_{k+1}=\theta_{k}+\alpha \triangledown_{\theta}J(\pi_{\theta})|_{\theta_{k}}$

$\triangledown_{\theta}J(\pi_{\theta})$ 被称作是Policy Gradient,以这种方式优化策略的方法被称作是policy gradient algorithms(包括Vanilla Policy Gradient和TRPO算法)

求导的具体步骤：

1.轨迹 $\tau=(s_0,a_0,...,s_{T+1})$ 的概率
$P(\tau|\theta)=\rho_{0}(s_{0})\prod_{t=0}^{T}P(s_{t+1}|s_{t},a_{t})\pi_{\theta}(a_t|s_t)$
2.求导技巧
$\triangledown_{\theta}P(\tau|\theta)=P(\tau|\theta)\triangledown_{\theta}logP(\tau|\theta)$
3.关于轨迹的log概率
$\begin{aligned} logP(\tau|\theta)&=\rho_{0}(s_0)\prod_{t=0}^{T}P(s_{t+1}|s_{t},a_{t})\pi_{\theta}(a_t|s_t)\\ &=log\rho_{0}(s_0)+\sum_{t=0}^{T}(logP(s_{t+1}|s_{t},a_{t})+log\pi_{\theta}(a_t|s_t)) \end{aligned}$
4.关于log概率求导

$\rho_{0}(s_0),P(s_{t+1}|s_{t},a_{t})与\pi_{\theta}无关，所以关于其求导为零$
$\begin{aligned} \triangledown_{\theta}logP(\tau|\theta)&=\triangledown_{\theta}\rho_{0}(s_0)\prod_{t=0}^{T}P(s_{t+1}|s_{t},a_{t})\pi_{\theta}(a_t|s_t)\\ &=\triangledown_{\theta}log\rho_{0}(s_0)+\triangledown_{\theta}\sum_{t=0}^{T}(logP(s_{t+1}|s_{t},a_{t})+log\pi_{\theta}(a_t|s_t))\\ &=\sum_{t=0}^{T}\triangledown_{\theta}log\pi_{\theta}(a_t|s_t) \end{aligned}$

5.综上所述
$\begin{aligned} \triangledown_{\theta}J(\pi_{\theta})&=\triangledown_{\theta}E_{\tau\sim\pi_{\theta}}[R(\tau)]\\ &=\triangledown_{\theta}\int_{\tau}P(\tau|\theta)R(\tau)\\ &=\int_{\tau}\triangledown_{\theta}P(\tau|\theta)R(\tau)\\ &=\int_{\tau}P(\tau|\theta)\triangledown_{\theta}logP(\tau|\theta)R(\tau)\\ &=E_{\tau\sim\pi_{\theta}}[\triangledown_{\theta}log\pi_{\theta}(a_t|s_t)R(\tau)] \end{aligned}$
$\Rightarrow\triangledown_{\theta}J(\pi_{\theta})=E_{\tau\sim\pi_{\theta}}[\sum_{t=0}^{T}\triangledown_{\theta}log\pi_{\theta}(a_t|s_t)R(\tau)]$