Actor-Critic(AC)算法学习

修行僧yicen

已于 2022-08-14 22:16:33 修改

阅读量633

点赞数

分类专栏：强化学习文章标签：算法学习机器学习

于 2022-08-14 22:08:11 首次发布

本文链接：https://blog.csdn.net/weixin_44769214/article/details/126242368

版权

强化学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

背景知识

Policy Gradient方法利用带有权重的梯度上升方法更新策略。在REINFORCE算法中，这个权重是由蒙特卡洛方法来计算未来总体回报 $G_{t}$ 的。这带来一个问题：就是待优化的策略参数 $\theta$ 只能在与环境交互完成一个Episode后，才进行更新。这种更新方式就是方差大，学习效率比较低。

前面我们用从t时刻开始的未来总奖励 $G_{t}$ 来作为权重，评价在t时刻，状态为 $s_{t}$ 时，执行动作 $a_{t}$ 的价值。我们的目的是寻找一组最优的策略参数，使得未来总奖励越高。同时， $G_{t}$ 的计算是依赖于策略与环境的交互轨迹的，而这个轨迹又具有随机性，因此我们最终的优化目的是 $G_{t}$ 的期望最大。

由马尔科夫决策过程可知，某一状态下采取某一动作，得到的回报期望可以表示为：
$Q_\pi{}(s,a)=\mathbb{E} [G_{t}|s_{t}=s,a_{t}=a]$ 因此有人提出将原始的奖励值 $G_{t}$ 用当前状态 $s_{t}$ 和 $a_{t}$ 的价值 $Q(s_{t},a_{t})$ 来代替。
在这里插入图片描述

Actor-Critic算法

网络构成

用 $Q(s_{t},a_{t})$ 代替 $G_{t}$ 后，那么该如何求解 $Q(s_{t},a_{t})$ 呢？毫不意外，我们同样用万能的神经网络来求解。因此AC算法就出现了两个神经网络。

（1）根据状态 $s_{t}$ ,指导智能体输出 $a_{t}$ 的网络，也就是策略网络 $\pi_{\theta}$ ，术语为Actor;
（2）用来评价当前状态 $s_{t}$ 下选择动作 $a_{t}$ 的好坏，即输出 $Q(s_{t},a_{t})$ ，可以理解为评委，术语为Critic。

实现细节

在REINFORCE算法中，为了提高PG算法的性能，我们通常会让未来回报 $G_{t}$ 减去一个baseline，使得权重部分（下图红色部分）有正有负。这样以来，如果是正的，我们就增加这个动作概率；反之减小它的概率。
在这里插入图片描述
现在将未来折扣奖励用 $Q(s_{t},a_{t})$ 进行了代替，上式可以转变为：
$\nabla \bar{R} _{\theta}\approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}} \left ( Q\left ( s_{t}^{n},a_{t}^{n} \right ) -b \right )\nabla\log p_{\theta}\left ( a_{t}^{n},s_{t}^{n} \right )$ 为了让权重有正有负(即下图红色部分)，一般的做法是减去 $Q(s_{t},a_{t})$ 的期望。而 $Q(s_{t},a_{t})$ 的期望就是状态 $s_{t}$ 的价值 $V(s_{t})$ 。
在这里插入图片描述
这样以来，梯度计算公式可以转化为：
$\nabla \bar{R} _{\theta}\approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}} \left ( Q\left ( s_{t},a_{t} \right ) -V(s_{t}) \right )\nabla\log p_{\theta}\left ( a_{t}^{n},s_{t}^{n} \right )$ 此时，中间的权重就会变为优势函数 $A(s_{t}^{n},a_{t}^{n})$ 。这样的算法就是优势演员-评论员算法(Advantage Actor Critic，A2C)。

如果这样实现，一个很明显的缺点是我们需要再额外增加一个网络来计算 $V(s_{t})$ 。不仅耗费资源，同时估计不准的风险也会增加。何不将二者合并，只估计一个网络呢？幸运的是，马尔科夫告诉我们，V和Q是可以互换的。
$Q_\pi{}(s_{t}^{n},a_{t}^{n})=\mathbb{E} [r_{t}^{n}+V_{\pi}(s_{t+1}^{n})]$ 我们把期望去掉，则：
$Q_\pi{}(s_{t}^{n},a_{t}^{n})=r_{t}^{n}+V_{\pi}(s_{t+1}^{n})$ 这样一来，我们就只需要一个估计状态价值的网络。梯度计算公式可以表示为：
$\nabla \bar{R} _{\theta}\approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}} \left ( r_{t}^{n}+V_{\pi}(s_{t+1}^{n})-V(s_{t}) \right )\nabla\log p_{\theta}\left ( a_{t}^{n},s_{t}^{n} \right )$
PS：关于此处为什么直接将期望去掉？答案是实验表明这样的效果最好，因此就这样用了。

算法流程

在这里插入图片描述

实现tips

AC算法包含两个网络，策略网络Actor和估算状态价值的V网络。 V网络的输入为状态，输出为V(s)，是标量。策略网络 $\pi(s)$ 输入状态，输出：离散动作，输出动作分布；连续动作，输出一个连续的向量。
由于两个网络都是状态作为输入，因此前面部分是可以参数共享的
AC算法中，同样需要探索机制。一个常见的探索的方法是对 $\pi$ 输出的分布设置一个约束。这个约束用于使分布的熵（entropy）不要太小，也就是希望不同的动作被采用的概率平均一些。这样在测试的时候，智能体才会多尝试各种不同的动作，才会把环境探索得比较好，从而得到比较好的结果。