REINFORCE

不负韶华ღ

已于 2022-04-21 20:40:16 修改

阅读量1.5k

点赞数

分类专栏：强化学习文章标签： python

于 2022-04-21 19:50:15 首次发布

本文链接：https://blog.csdn.net/weixin_49346755/article/details/124326020

版权

强化学习专栏收录该内容

11 篇文章 5 订阅

订阅专栏

基本概念

强化学习问题的目标是依据策略执行一系列合适的动作以最大化累计回报。强化学习的算法主要分成三类：基于值函数的方法、基于策略的方法和两者结合的方法。也就是说，可以通过逼近值函数再利用 $\epsilon-greedy$ 策略间接的确定策略，也可以建立策略函数，将策略参数化，还可以结合这两类方法既学习值函数，又学习策略。

REINFORCE

REINFORCE是一个基于策略的算法。使用策略梯度法将策略参数化，在策略梯度法中，策略经常用一个带参数集 $\theta$ 的函数表示： $\pi_\theta(a|s)$ ，求解更新策略参数集 $\theta$ 的过程也就是策略梯度法的计算过程。策略梯度法的目标就是寻找最优 $\theta$ ，使得目标函数（也称损失函数）能够最大化期望回报值，这里的回报值是从初始状态到终止状态的回报总和。

首先考虑单步马尔可夫决策过程（MDP）的策略梯度。在该问题中，假设状态s服从分布d(s)，一个时间步后终止，得到回报r=r(s,a)。则目标函数为：
在这里插入图片描述
为了最大化目标函数 $J(\theta)$ ，采用梯度上升法求解问题：

其中 $\alpha$ 是步长，且策略梯度为：

在多步MDP的策略梯度计算公式中，用Q-值函数 $q_\pi(s,a)$ 替换 $r (s, a)$ ，也就是相当于单步MDP的梯度计算公式的推广。因此，参数 $\theta$ 的学习公式为：
在这里插入图片描述
REINFORCE算法的伪代码如下图所示，其中用回报 $v_t$ 代替Q-值函数 $q_\pi(s,a)$ 。

REINFORCE with Baseline

在多步MDP环境中，每一步的回报会有很高的方差。如果在定义目标函数时在目标函数中减去基准线函数B(s)，可以减少方差而不会改变整体的期望值，这样就会使得训练过程更加稳定。此时有：
在这里插入图片描述
在这种情况下，参数 $\theta$ 的更新方式为：

不负韶华ღ

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
REINFORCE

基本概念强化学习问题的目标是依据策略执行一系列合适的动作以最大化累计回报。强化学习的算法主要分成三类：基于值函数的方法、基于策略的方法和两者结合的方法。也就是说，可以通过逼近值函数再利用ϵ−greedy\epsilon-greedyϵ−greedy策略间接的确定策略，也可以建立策略函数，将策略参数化，还可以结合这两类方法既学习值函数，又学习策略。REINFORCEREINFORCE是一个基于策略的算法。使用策略梯度法将策略参数化，在策略梯度法中，策略经常用一个带参数集θ\thetaθ的函数表示：πθ(
复制链接

扫一扫