Policy_Gradient

最新推荐文章于 2024-08-09 17:25:41 发布

Ricky050

最新推荐文章于 2024-08-09 17:25:41 发布

阅读量67

点赞数

分类专栏： RL算法文章标签：概率论机器学习

本文链接：https://blog.csdn.net/zzping01/article/details/120354656

版权

RL算法专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

准备函数
梯度下降/上升
技巧
代码执行过程
梯度更新方法

准备函数

在这里插入图片描述

把状态s和动作a串起来就得到了轨迹𝞽
$\ \tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t\}$
某轨迹出现的概率和网络参数𝜽有关的。具体：
$Probability\ p_\theta(\tau) = p(s_1)p_\theta(a_1|s_1)p(s_2|a_1,s_1)p_\theta(a_2|s_2)p(s_3|a_2,s_2)... = p(s_1)\prod_{t=1}^{T}p_\theta(a_t|s_t)p(s_{t+1}|a_t,s_t)$
注意这其中并不是所有的概率都和𝜽有关。

actor做出动作 a_t时还会输出相应的 r_t，将其求和得到这一轨迹的Reward：
$Reward\ R_\theta(\tau) = \sum_{t=1}^Tr_t$
最终目的是为了最大化R，因此需要找一个衡量指标评价R的大小。在每一个episode，此时𝜃是固定的，R是关于随机变量𝜏的函数，可以对其求期望：
$\overline{R_\theta} = E_{\tau～p_\theta(\tau)}[R_\theta(\tau)] = \sum_{\tau=1}^n R_\theta(\tau)p_\theta(\tau)$

梯度下降/上升

找R的最大值，因此要梯度上升。首先求梯度（tips: 因为在计算梯度的时候，收集到的所有数据应该是使用同一个网络计算来的，因此此时可以将R_𝜃(𝜏)仅看作是和𝜏有关，和𝜃无关。
$\nabla_\theta\overline{R_\theta} = \nabla_\theta\sum_{\tau=1}^n R_\theta(\tau)p_\theta(\tau) = \nabla_\theta\sum_{\tau=1}^n R(\tau)p_\theta(\tau) = \\ \sum_{\tau=1}^n R(\tau)\nabla_{\theta}p_\theta(\tau) = \sum_{\tau=1}^n R(\tau) p_\theta(\tau) \nabla_{\theta}log(p_\theta(\tau)) = E_{\tau～p_\theta(\tau)}[R(\tau) \nabla_{\theta}log(p_\theta(\tau))]$
因为𝜏的分布事先是不知道的，所有我们只能够通过玩游戏，然后收集数据，从中随机采样N个轨迹𝜏求平均来估算，那么上式：
$\nabla_\theta\overline{R_\theta} = E_{\tau～p_\theta(\tau)}[R(\tau) \nabla_{\theta}log(p_\theta(\tau)] ≈ \frac 1N\sum_{n=1}^n R(\tau^n) \nabla_{\theta}log(p_\theta(\tau^n))$
其中
$log(p_\theta(\tau^n)) = log(p(s_1)\prod_{t=1}^{T_n}p_\theta(a_t^n|s_t^n) p(s_{t+1}^n|a_t^n,s_t^n)) = \\ log(p(s_1)) + \sum_{t=1}^{T_n} (log(p(s_{t+1}^n|a_t^n,s_t^n))) + \sum_{t=1}^{T_n} (log(p_\theta(a_t^n|s_t^n)))$
前两项和𝜃无关，因此
$\nabla_\theta\overline{R_\theta} ≈ \frac 1N\sum_{n=1}^N R(\tau^n) \nabla_{\theta}log(p_\theta(\tau^n)) = \frac 1N\sum_{n=1}^N R(\tau^n) \sum_{t=1}^{T_n} \nabla_{\theta}log(p_\theta(a_t^n|s_t^n)) = \frac 1N\sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$

技巧

Add a baseline or normalization

$\nabla_\theta\overline{R_\theta} ≈ \frac 1N\sum_{n=1}^N \sum_{t=1}^{T_n} (R(\tau^n)-b) \nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$

其中b为R(𝜏ⁿ)的期望。

Advantage Function

引入一个定义：
$R(\tau^n)-b ≜ A^\theta(s_t,a_t)$
Advantage Function 的意义是在状态s_t时采取动作a_t相较于采取其他动作有多好（相对值）

并且一般A是由一个network estimate出来的，这个network叫critic

更进一步其实可以对R(𝜏ⁿ)进行归一化。
$\nabla_\theta\overline{R_\theta} ≈ \frac 1N\sum_{n=1}^N \sum_{t=1}^{T_n} \frac{(R(\tau^n)-\mu)}{\sigma}\nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$

Assign suitable credit

上面的式子对于某一个轨迹执行的所有的action乘以相同的R(𝜏ⁿ)，但其实这之中有的action是好的，有的是坏的。又由于前一个动作一般都会影响之后的执行过程，因此我们使用本次得到的reward和之后所有的reward的和作为本次action带来的作用，具体来说：
$\nabla_\theta\overline{R_\theta} ≈ \frac 1N\sum_{n=1}^N \sum_{t=1}^{T_n} \frac{\sum_{t'=t}^{T_n}(\gamma^{t'-t}r_t)-\mu}{\sigma} \nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$
直观理解：(a_t时产生的reward)+(之后的action产生的reward*discount)作为衡量a_t好坏的指标。一次episode做的动作不再是同一个加权值

代码执行过程

$\nabla_\theta\overline{R_\theta} ≈ \frac 1N \sum_{n=1}^N \sum_{t=1}^{T_n} \frac{\sum_{t'=t}^{T_n}(\gamma^{t'-t}r_t)-\mu}{\sigma} \nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$

1个𝜃执行N个episode；1个episode对应T_n个𝝯_𝜃log(p_𝜃(a_tⁿ|s_tⁿ))

在第n个episode中，对应𝜏ⁿ，一共进行了T_n个step，每个step对应一组：
$\nabla_{\theta}log(p_\theta(a_t^n|s_t^n))\ 和 \ \ \frac{\sum_{t'=t}^{T_n}(\gamma^{t'-t}r_t)-\mu}{\sigma}$
将每个step二者相乘得到的结果进行相加，得到：
$\sum_{t=1}^{T_n} \frac{\sum_{t'=t}^{T_n}(\gamma^{t'-t}r_t)-\mu}{\sigma} \nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$
存入到buffer

当执行完N（一般N = batch_size）个episode之后，将buffer里面的所有数据相加，得到：
$\sum_{n=1}^N \sum_{t=1}^{T_n} \frac{\sum_{t'=t}^{T_n}(\gamma^{t'-t}r_t)-\mu}{\sigma} \nabla_{\theta}log(p_\theta(a_t^n|s_t^n))$
这就是我们进行更新时要用到的gradient。使用它对𝜃进行更新之后，重复上面的过程。

梯度更新方法

Adam

RMSprop

SGD

Momentum

AdaGrad

Ricky050

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Policy_Gradient

文章目录准备函数梯度下降/上升技巧Add a baseline or normalizationAdvantage FunctionAssign suitable credit代码执行过程梯度更新方法AdamRMSpropSGDMomentumAdaGrad准备函数把状态s和动作a串起来就得到了轨迹????Trajectory τ={s1,a1,s2,a2,...,st,at}Trajectory \ \tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t\
复制链接

扫一扫

专栏目录