强化学习-03--policy gradient

weixin_45650561

已于 2023-02-18 14:45:40 修改

阅读量178

点赞数

分类专栏：强化学习文章标签：强化学习

于 2020-08-05 11:03:58 首次发布

本文链接：https://blog.csdn.net/weixin_45650561/article/details/107810033

版权

强化学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

policy gradient

一、Policy Gradient算法
二、Policy Gradient算法新理解
三、tips
四、总结
参考链接：

突然从基于值的算法到基于策略的算法，有点很难以理解，代码理解也不是那么顺畅。关于policy gradient的算法原理讲解的内容不较少，或者说所写的内容不容易让人理解，这里推荐下面这些链接供大家学习参考：
深度增强学习之Policy Gradient方法1
Policy gradient(策略梯度详解)

一、Policy Gradient算法

在这里插入图片描述

二、Policy Gradient算法新理解

1、与Q-learning，Sarsa，DQN的区别

（1）Q-learning，Sarsa，DQN：这些输出是状态动作的值，根据值的大小选择适当的动作。
policy gradient ：输出直接是动作或者每个动作的概率，根据概率选择适当的动作。

（2）一个是value based，一个是policy based。

（3）Q-learning，Sarsa，DQN：有误差，减少loss，进行反向传播。
Policy Gradient：没有误差，根据奖励结果提高奖励大的动作的概率，降低奖励小的动作的概率。

（4）Q-learning，Sarsa，DQN：适用于离散动作
Policy Gradient：适用于连续动作

（5）Q-learning，Sarsa，DQN：单步更新，从一个状态，执行一个动作，到达下一个状态并获得奖励之后就进行更新。
Policy Gradient：回合更新，当一个episode执行完之后，获得总奖励，得到梯度，最后再进行参数更新。

2、理解

Policy Gradient算法的思想是先将策略表示成一个连续函数，然后用连续函数的优化方法去寻找最优的策略。最常用的是优化方法是梯度上升法（与最小化loss的梯度下降相对），这样，得先找出梯度优化的目标函数，有以下三种情况：
（1）最简单的优化目标就是初始状态收获的期望
（2）但是有的问题是没有明确的初始状态的，那么我们的优化目标可以定义平均价值
（3）或者定义为每一时间步的平均奖励

无论采用哪一种情况来表示优化目标，最终对参数求导的梯度都结果都是一样的可以表示为：
∇𝜃𝐽(𝜃)=𝔼𝜋𝜃[∇𝜃𝑙𝑜𝑔𝜋𝜃(𝑠,𝑎)𝑄𝜋(𝑠,𝑎)]
具体证明步骤可以参考策略梯度的论文附录1里面，有详细的证明过程。

Policy Gradient不通过误差反向传播，它通过观测信息选出一个行为直接进行反向传播，出人意料的是他并没有误差，而是利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。

总的来说，可以这样理解Policy Gradient算法：根据当前policy参数采样得到N个Trajectory，计算一次期望reward，然后梯度上升的方法更新policy参数，用更新后的policy再进行下一轮采样，如此往复直到收敛，得到期望reward最大的policy。最终该policy（神经网络表示）就学会了根据游戏画面做合适的action，最终赢得游戏。

梯度上升法方法更新policy参数：
在这里插入图片描述