policy gradient推导和问题

最新推荐文章于 2024-04-16 15:25:52 发布

zz_ytj

最新推荐文章于 2024-04-16 15:25:52 发布

阅读量313

点赞数 1

分类专栏： policy gradient

本文链接：https://blog.csdn.net/zz_ytj/article/details/103636231

版权

policy gradient 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Policy Gradient的推导以及存在的问题

Policy Gradient Theory
存在的问题

Policy Gradient Theory

策略梯度法广泛应用在model-free类型的强化学习算法中，其基本思想是通过梯度迭代方法对策略动作分布 $\pi(a|s)$ 更新，使其达到最优策略 $\pi^*(a|s)$ 。其中最优策略满足条件：
$V^{\pi^*}(s)\ge V^{\pi}(s), \quad \forall\pi\in\Pi,\forall s\in\mathcal{S}$ 通常使用参数化的策略 $\pi_\theta$ 来计算不同状态下的动作分布，强化学习的目标可以表示为一个关于策略参数 $\theta$ 的函数 $J(\theta)$ ，通常用采样轨迹 $\tau$ 的长期奖励 $R(\tau)=\sum^T_{t=0}r_t$ 的期望值作为目标函数，即 $J(\theta)=\mathbb{E}_\tau[R(\tau)|\pi_\theta]$ 。那么对目标函数 $J(\theta)$ 关于策略参数 $\theta$ 进行求导有：
$\begin{aligned} \nabla_\theta J(\theta)&=\nabla_\theta\mathbb{E}_\tau[R(\tau)|\pi_\theta]\\ &=\nabla_\theta\int_\tau p(\tau|\pi_\theta)R(\tau)d\tau\\ &=\int_\tau p(\tau|\pi_\theta)\nabla_\theta\log p(\tau|\pi_\theta)R(\tau)d\tau\\ &=\mathbb{E}_\tau[\nabla_\theta\log p(\tau|\pi_\theta)R(\tau)] \end{aligned}$ 因为有 $p(\tau|\pi_\theta)=p(s_0)\prod_{t=0}^{T-1} p(s_{t+1}|s_t, a_t)\pi_\theta(a_t|s_t)$ 所以上式继续化简：
$\begin{aligned} \nabla_\theta J(\theta)&=\mathbb{E}_\tau[\nabla_\theta\log p(\tau|\pi_\theta)R(\tau)]\\ &=\mathbb{E}\left[\sum_{t=0}^{T-1}\nabla_\theta\log \pi_\theta(a_t|s_t)\sum_{t=0}^{T-1}r_t\right]\\ &=\mathbb{E}\left[\sum_{t=0}^{T-1}\nabla_\theta\log \pi_\theta(a_t|s_t)\left(\sum_{t'=0}^{t-1}r_{t'}+\sum^{T-1}_{t'=t}r_{t'}\right)\right]\\ &=\mathbb{E}\left[\sum_{t=0}^{T-1}\nabla_\theta\log \pi_\theta(a_t|s_t)\sum^{T-1}_{t'=t}r_{t'}\right]\\ \end{aligned}$ 最后一步是因为 $t$ 时刻之前的奖励与 $a_t$ 无关。从另一个角度看，将 $t$ 时刻的奖励 $r_t$ 看做随机变量，那么其期望为：
$\begin{aligned} \nabla_\theta\mathbb{E}_\tau[r_t|\pi_\theta]&=\nabla_\theta\int p(s_0,a_0,\cdots s_t, a_t|\pi_\theta)r_td(s_{0:t},a_{0:t})\\ &=\int p(s_0,a_0,\cdots s_t, a_t|\pi_\theta)\sum^{t}_{t'=0}\nabla_\theta\log\pi_\theta(a_{t'}|s_{t'})r_td(s_{0:t},a_{0:t})\\ &=\mathbb{E}_\tau\left[\sum^{t}_{t'=0}\nabla_\theta\log\pi_\theta(a_{t'}|s_{t'})r_t\right] \end{aligned}$ 将其带入目标函数导数中有：
$\begin{aligned} \nabla_\theta\mathbb{E}_\tau[R(\tau)|\pi_\theta]&=\nabla_\theta\mathbb{E}_\tau\left[\sum^{T-1}_{t=0}r_t|\pi_\theta\right]=\sum^{T-1}_{t=0}\nabla_\theta\mathbb{E}_\tau[r_t|\pi_\theta]\\ &=\mathbb{E}_\tau\left[\sum^{T-1}_{t=0}\left(\sum^{t}_{t'=0}\nabla_\theta\log\pi_\theta(a_{t'}|s_{t'})r_t\right)\right]\\ &=\mathbb{E}_\tau\left[\sum^{T-1}_{t=0}\nabla_\theta\log\pi_\theta(a_t|s_t)\sum^{T-1}_{t'=t}r_{t'}\right] \end{aligned}$ 结果与上式保持一致。

存在的问题

求得了目标函数的梯度后，就可以进行迭代更新策略参数： $\theta\leftarrow\theta+\alpha \nabla_\theta J(\theta)$ ，这里存在的问题主要有：

步长 $\alpha$ 的选择很重要，过大可能导致更新后的策略性能下降，导致策略无法提升到最优策略。所以要合适地选择更新步长使得迭代策略使得目标函数值是递增的；
上式求解的目标函数的梯度通常利用采样得到，这会导致大的偏差，导致训练过程的不稳定；
通常还要考虑样本efficiency问题；

根据上式求解目标函数的梯度需要在采样轨迹 $\tau$ 上的积分，这是很困难的，所以通常采用MC采样方法对其进行估计。这一估计值是无偏估计，但是往往有很高的偏差，为了减少偏差，同时仍保持无偏估计，可以将上式目标函数梯度改写为:
$\mathbb{E}_\tau\left[\sum^{T-1}_{t=0}\nabla_\theta\log\pi_\theta(a_t|s_t)\left(\sum^{T-1}_{t'=t}r_{t'}-b(s_t)\right)\right]$ 其中 $b(s_t)$ 是baseline函数，函数值只与 $s_t$ 有关。若上式满足无偏估计，则要求 $\mathbb{E}_\tau\left[\sum^{T-1}_{t=0}\nabla_\theta\log\pi_\theta(a_t|s_t)b(s_t)\right]=0$ ，证明如下：
$\begin{aligned} &\mathbb{E}_\tau\left[\sum^{T-1}_{t=0}\nabla_\theta\log\pi_\theta(a_t|s_t)b(s_t)\right]\\ &=\sum^{T-1}_{t=0}\mathbb{E}_\tau[\nabla_\theta\log\pi_\theta(a_t|s_t)b(s_t)]\\ &=\sum^{T-1}_{t=0}\mathbb{E}_{s_{0:t}, a_{0:t-1}}\left[\mathbb{E}_{s_{t+1:T-1},a_{t:T-1}}[\nabla_\theta\log\pi_\theta(a_t|s_t)b(s_t)]\right]\\ &=\sum^{T-1}_{t=0}\mathbb{E}_{s_{0:t}, a_{0:t-1}}\left[b(s_t)\mathbb{E}_{s_{t+1:T-1},a_{t:T-1}}[\nabla_\theta\log\pi_\theta(a_t|s_t)]\right]\\ &=\sum^{T-1}_{t=0}\mathbb{E}_{s_{0:t}, a_{0:t-1}}\left[b(s_t)\int_{a_t}\nabla_\theta\pi_\theta(a_t|s_t)da_t\right]\\ &=\sum^{T-1}_{t=0}\mathbb{E}_{s_{0:t}, a_{0:t-1}}\left[b(s_t)\cdot 0\right]\\ &=0 \end{aligned}$