一图看懂Policy Gradients深度强化学习算法

最新推荐文章于 2025-03-17 11:29:11 发布

薄荷-塘

最新推荐文章于 2025-03-17 11:29:11 发布

阅读量7.6k

点赞数 33

分类专栏：深度强化学习策略梯度强化学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/xz15873139854/article/details/108179193

版权

Policy Gradients 深度强化学习算法实现流程详解

前言
一、PG深度强化学习算法的产生动机？
二、算法原理
三、算法实现流程
四、与Q系列算法相比的优劣
五、总结

前言

基于Policy Gradients（策略梯度法，后文简称PG）的深度强化学习方法，思想上与基于Q-learning的系列算法有本质的不同，下面本博客争取用简洁的语言，清晰的图表对PG深度强化学习算法进行阐述，帮助初学者更好地理解算法。

一、PG深度强化学习算法的产生动机？

想要了解PG深度强化学习算法为什么会产生，需要知道在这之前诞生的Q-learning及其系列算法（如：DQN[参考这里]，Double DQN等），Q系列算法在每一步做出行动（action）之后，都要计算收益（reward），而且一般需要计算两次，一次是估计收益，一次是现实收益，两者之间的差距（gap）被视为深度神经网络的loss值，从而用于更新神经网络的参数 $\theta$ 。

而现实生活中，很多决策的行动空间是高维甚至连续（无限）的，比如自动驾驶中，汽车下一个决策中方向盘的行动空间，就是一个从[-900°，900°]（假设方向盘是两圈半打满）的无限空间中选一个值，如果我们用Q系列算法来进行学习，则需要对每一个行动都计算一次reward，那么对无限行动空间而言，哪怕是把行动空间离散化，针对每个离散行动计算一次reward的计算成本也是当前算力所吃不消的。这是对Q系列算法提出的第一个挑战：无法遍历行动空间中所有行动的reward值。

此外，现实中的决策往往是带有多阶段属性的，说白了就是：“不到最后时刻不知输赢”。以即时策略游戏（如：星际争霸，或者国内流行的王者荣耀）为例，玩家的输赢只有在最后游戏结束时才能知晓，谁也没法在游戏进行过程中笃定哪一方一定能够赢。甚至有可能发生：某个玩家的每一步行动看起来都很傻，但是最后却能够赢得比赛，比如，Dota游戏中，有的玩家虽然死了很多次，己方的塔被拆了也不管，但是却靠着偷塔取胜（虽然这种行为可能是不受欢迎的）。诸如此类的情形就对Q系列算法提出了第二个挑战，Agent每执行一个动作（action）之后的奖励（reward）难以确定，这就导致Q值无法更新。

那么，难道深度强化学习就不能处理诸如上述两类情形的问题了吗？答案当然是否定的，这就衍生出了基于PG的系列深度强化学习算法[1]。下面我将就最原始，最简单的PG深度强化学习算法进行介绍，了解之后就可以进阶更高级的算法了。