DRL(Deep Reinforced Learning) Policy Gradient 策略梯度优化

EEE1even

已于 2024-04-30 16:15:18 修改

阅读量813

点赞数 19

文章标签：机器学习深度学习强化学习

于 2024-04-30 14:24:12 首次发布

本文链接：https://blog.csdn.net/weixin_48435461/article/details/138344575

版权

Policy Gradient 策略梯度优化

参考李宏毅老师的课程

强化学习有三个基础的组成部分（坦克大战为例）

actor （坦克控制器）
environments （游戏界面交互）
reward function （击败敌方坦克获得奖励）

env 和 reward function 是无法控制的

调整actor中的policy，来获得最大的reward （控制坦克达成最大击杀）

policy决定actor的行为， policy部分就是一个network（即下图的Actor就是一个网络，可以通过网络来算出 $a_i$ ）

reward不是标量（scalar）而是随机变量（random variable）

在这里插入图片描述

$\text{Trajectory } \tau = \{s_1, a_1, s_2, a_2, \ldots, s_T, a_T\}$

$p_\theta(\tau) = p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_2|s_2)p(s_3|s_2,a_2)\dots \\ = p(s_1)\prod_{t=1}^T p_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$

轨迹 $\tau$ 是走完整个行动的流程；

actor的参数给定为 $\theta$ ，在参数确定的情况下，走完轨迹 $\tau$ 的概率是 $p_\theta(\tau)$

在这里插入图片描述

$\bar{R}_\theta = \sum_{\tau} R(\tau)p_\theta(\tau) = E_{\tau \sim p_\theta} [R(\tau)]$
我们希望更新actor中的参数 $\theta$ ，来使得获得的奖励函数 $R(\tau)$ 的均值（也就是期望）越大越好

如何求 $\bar{R}_\theta$ 的梯度 $\nabla\bar{R}_\theta$ ，来对actor中的参数 $\theta$ 进行策略梯度更新？ $\eta$ 为学习率
$\theta \leftarrow \theta + \eta \nabla \bar{R}_\theta$
由 $\nabla f(x) = f(x) \nabla \log f(x)$ 可以推出下述公式
$\nabla \bar{R}_\theta = \sum_{\tau} R(\tau) \nabla p_\theta(\tau) = \sum_{\tau} R(\tau) p_\theta(\tau) \frac{\nabla p_\theta(\tau)}{p_\theta(\tau)}= \sum_{\tau} R(\tau) p_\theta(\tau) \nabla \log p_\theta(\tau)\\= E_{\tau \sim p_\theta(\tau)}[R(\tau) \nabla \log p_\theta(\tau)] \approx \frac{1}{N} \sum_{n=1}^N R(\tau^n) \nabla \log p_\theta(\tau^n) \\ = \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla \log p_\theta(a_t^n | s_t^n)$

$\nabla f(x) = f(x) \nabla \log f(x)$ 记住就行，是一个定理公式

$R(\tau)$ 不要求可微，即使是黑盒也可以

表示为：
$\nabla \bar{R}_\theta =E_{\tau \sim p_\theta(\tau)}[R(\tau) \nabla \log p_\theta(\tau)]$
在这里插入图片描述

上图表示我们处理策略梯度时的流程，通过采样一批 $\tau^i$ 来作为一个 $\theta$ 更新的数据集，在更新完参数 $\theta$ 后，再重新采样一批 $\tau^i$ 继续更新；每次采样的 $\tau$ 只使用一次。因为其一直在与环境交互（即采样的 $\tau$ 都来自环境），所以也被称为 on-policy gradient

需要注意的是， $R(\tau^n)$ 在每一步计算梯度时都要作为一个权重被乘上去。

Tip 1

需要注意的是，我们在实际情况下采样并不能将所有情况都囊括其中，以下图为例，我们可能没有采样到 a 的情况，这会导致在梯度更新后，actor 选择 a 的概率降低；但实际上选择 a 也会提高 reward ，只是我们没有采样到…

在这里插入图片描述

所以我们会优化策略梯度函数：
$\nabla \bar{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (R(\tau^n) - b) \nabla \log p_\theta(a_t^n | s_t^n) \quad \text{where } b \approx E[R(\tau)]$
加入一个bias（b）来平衡这个问题，如果奖励不够，策略梯度就是负数。

Tip 2

根据公式 $\nabla \bar{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (R(\tau^n) - b) \nabla \log p_\theta(a_t^n | s_t^n)$ 可以知道， $R(\tau^n) - b$ 会作为权重乘在每一次的 $\log p_\theta(a_t^n | s_t^n)$ 中。但以下图的两个例子来说：

左边的 R = +3 说明最终的奖励是 +3 ，但是第一次的行动是 +5 ，第二次是 0 、第三次是 -2 ，说明第三次的行动被第二次影响了，如果没有第二次的行动，第三次行动可能就不会扣分。
右边的 R = -7 说明最终的奖励是 -7 ，但是如果没有第二次的行动 +0 ，可能第三次的行动就不仅仅会扣两分了，可能会扣的更多

在这里插入图片描述

所以我们不能简单的将整体的奖励 $R$ 作为权重来进行计算，要结合每一步的奖励进行计算

左边第二次、第三次行动的奖励权重为 -2 而不是乘上整体的奖励 3
右边的第二次、第三次行动的奖励权重为 -2 而不是乘上 -7

在这里插入图片描述

参考下述公式
$\nabla \bar{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (\sum_{t'=t}^{T_n} r_{t'}^n-b) \nabla \log p_\theta(a_t^n | s_t^n) \quad \text{where } b \approx E[R(\tau)]$

其中
$R(\tau^n) \rightarrow \sum_{t'=t}^{T_n} r_{t'}^n$
但由于随着行动次数越长，最开使的奖励影响越小，所以我们也要加入一个缩放因子来减少远距离时，奖励作为权重带来的影响
$\sum_{t'=t}^{T_n} r_{t'}^n \rightarrow \sum_{t'=t}^{T_n} \gamma^{t'-t} r_{t'}^n \quad \text{where } \gamma < 1$
在上述的推导步骤中，奖励的变化（即 $R(\tau^n) - b$ ）可以看作是一个函数：
$R(\tau^n) - b =A^\theta(s_t, a_t)$
其中 $\text{Advantage Function }$ ，这个函数的意义就是我们在 $s_t$ 的情况下执行 $a_t$ 相较于其他的行动能有多好

EEE1even

关注

19
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
0
评论
DRL(Deep Reinforced Learning) Policy Gradient 策略梯度优化

参考强化学习有三个基础的组成部分（坦克大战为例）env 和 reward function 是无法控制的调整actor中的policy，来获得最大的reward （控制坦克达成最大击杀）policy决定actor的行为， policy部分就是一个network（即下图的Actor就是一个网络，可以通过网络来算出aireward不是标量（scalar）而是随机变量（random variable）Trajectoryτs1a1s2a2sTaT。
复制链接

扫一扫