强化学习-06--A3C

weixin_45650561

已于 2023-02-18 15:47:20 修改

阅读量197

点赞数

分类专栏：强化学习文章标签：强化学习

于 2020-08-30 16:02:45 首次发布

本文链接：https://blog.csdn.net/weixin_45650561/article/details/108307371

版权

强化学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

A3C

一、A3C算法
二、A3C算法与AC算法的区别
三、A3C的算法流程
四、A3C算法的优缺点：
五、额外收获
六、总结
参考链接：

A3C解决了Actor-Critic难以收敛的问题，同时更重要的是，提供了一种通用的异步的并发的强化学习框架，也就是说，这个并发框架不光可以用于A3C，还可以用于其他的强化学习算法。这是A3C最大的贡献。目前，已经有基于GPU的A3C框架，这样A3C的框架训练速度就更快了。

一、A3C算法

A3C算法伪代码

二、A3C算法与AC算法的区别

A3C算法与AC算法相比，主要在3处进行了优化：

1、异步训练框架(最大的优化)

经典的A3C异步训练框架图
global network是公共的神经网络模型，包含了actor网络和critic网络两部分的功能；下面有n个worker线程，每个线程里有和公共的神经网络一样的网络结构，每个线程会独立的和环境进行交互得到经验数据，这些线程之间互不干扰，独立运行。

n个worker线程和公共神经网络的更新情况：每个线程和环境交互得到一定的数据之后，就计算在自己线程里的神经网络损失函数的梯度，但是这些梯度并不更新自己线程里的神经网络，而是去更新公共的神经网络。

2、网络结构的优化

在AC算法中，使用了两个不同的网络即actor和critic；

在A3C算法中，把两个神经网络放到了一起，即输入状态为s，输出状态为价值v和对应的策略 $\pi$ 。当然，仍然可以把actor和critic看做独立的两块，分别处理，如下图所示：
网络结构的优化

3、critic评估点的优化

在AC算法中，使用了Q(s,a)作为critic的评估点；

在A2C算法中，使用了优势函数 $A (s, a) = Q (s, a) - V (s)$ ，其中Q(s)的值一般可以通过单步采样近似估计： $Q(s,a)=r+\gamma*V(s')$ ，V(s)的值需要通过critic网络学习得到,最终把优势函数 $A(s,a)=Q(s,a)-V(s)=r+\gamma*V(s')-V(s)$ 作为critic评估点；

在A3C算法中，采样更近一步，使用了N步采样，以加速收敛，此时A3C算法中的优势函数为 $A(s_{0},a)=Q(s_{0},a)-V(s_{0})=r_{0}+\gamma r_{1}+.....\gamma^{n-1} r_{n-1}+\gamma^n V(s_{n})-V(s_{0})$ 。对于Actor和Critic的损失函数部分，和Actor-Critic基本相同。还有一点小地方修改就是在actor网络的损失函数地方增加了策略π的熵，最终的损失函数为：
在这里插入图片描述
超参数 $\beta$ 为控制熵正规化的强度。