【强化学习】策略梯度算法（Policy Gradient）

最新推荐文章于 2024-04-16 15:25:52 发布

catchy666

最新推荐文章于 2024-04-16 15:25:52 发布

阅读量1.9k

点赞数

分类专栏： Notes 强化学习

本文链接：https://blog.csdn.net/weixin_45492196/article/details/107314642

版权

Notes 同时被 2 个专栏收录

11 篇文章 5 订阅

订阅专栏

强化学习

6 篇文章 12 订阅

订阅专栏

文章目录

策略梯度（Policy Gradient）

策略梯度（Policy Gradient）

Value Based & Policy Based

在DQN算法中，主要对价值函数进行了近似表示，基于价值来学习。但基于价值的强化学习方法存在一些局限性：

对连续动作的处理能力不足。（例如经典的PuckWord问题，大圆可操作的行为是在水平垂直共四个方向施加一个大小固定的力，借此来改变大圆的速度。假如此时该力的大小和方向是可灵活选择的，力在水平和垂直方向分解，即由两个连续变量组成，这个策略使用离散的方式是不好表达的，但Policy Based方法却容易建模）
对受限状态下的问题处理能力不足。 使用特征描述状态空间的某个状态时，有可能因为个体观测的限制或建模的局限，导致真是环境下本来不同的两个状态却在建模后有相同的特征描述，进而可能导致Value Based方法无法找到最优解。
无法解决随机策略问题。 Value Based方法对应的最优策略通常是确定性策略，因为它是从众多行为价值中选择一个最大价值的行为，而有些问题的最优策略为随机策略（比如“剪刀石头布”游戏），这种情况下无法通过基于Value的学习来求解。这是可考虑使用Policy Based强化学习方法。

What is Policy Gradient?

基于价值的强化学习算法是根据当前的状态，计算采取每个动作的价值，然后根据价值贪心的选择动作。强化学习中另一个很重要的算法——Policy Gradient则省略中间的步骤，即直接根据当前的状态来输出动作或动作的概率。
回想在Value Based方法中，对价值函数进行了近似表示； $\hat{q}\left( s,a,w\right)\approx q_\pi \left( s,a\right)$ 而在Policy Based方法中，我们采用类似的思路，对策略进行近似表示
$\pi_\theta\left( s,a\right)=P\left( a\mid s,\theta\right)\approx \pi\left(a\mid s\right)$

之前在训练神经网络时，使用最多的就是反向传播法，我们需要一个误差函数，通过梯度下降来使损失最小。但对于强化学习来说，我们不知道动作的正确与否，只能通过奖励值来判断这个动作的相对好坏。

如果一个动作得到的reward多，那么我们使其出现的概率增加，如果一个动作得到的reward少，我们使其出现的概率减小。

根据这个思想，构造如下的损失函数： $loss=-\log(prob) \times v_t$

上式 $\log(prob)$ 表示如果概率越小，反向的 $\log(prob)$ 反而越大。 $v_t$ 表示当前状态s下采取动作a所能得到的奖励，是当前的奖励和未来奖励的贴现值的求和（也就是说策略梯度算法必须完成一个完整的episode才可以进行参数更新，而不是像Value Based方法那样，每一个 $\left( s,a,r,s^{\prime}\right)$ 都可以进行参数更新）。如果prob很小的情况下，得到了一个大的reward，也就是大的 $v_t$ ，那么 $l o s s$ 就更大（我选了一个不常选的动作，却发现它能得到一个好的reward，那我就对这次的参数进行一个大幅修改）。

蒙特卡罗策略梯度过程

这里我们讨论最简单的策略梯度算法，使用价值函数 $v (s)$ 来近似代替策略梯度公式里面的 $Q_\pi (s,a)$ 。算法的流程很简单，如下所示：
输入：N个蒙特卡罗完整序列，训练步长 $\alpha$
输出：策略函数的参数 $\theta$

for 每个蒙特卡罗序列：
a. 用蒙特卡罗法计算序列每个时间位置t的状态价值 $v_t$
b. 对序列每个时间位置t，使用梯度上升法，更新策略函数的参数θ：
$\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(s_t,a_t\right)v_t$
返回策略函数的参数 $\theta$