强化学习入门（七）：Actor-Critic系列算法原理

最新推荐文章于 2024-03-10 16:08:13 发布

工藤旧一

最新推荐文章于 2024-03-10 16:08:13 发布

阅读量3.8k

点赞数 5

分类专栏： # 强化学习文章标签：算法

本文链接：https://blog.csdn.net/weixin_45459911/article/details/105599472

版权

强化学习专栏收录该内容

7 篇文章 29 订阅

订阅专栏

一、AC系列算法的引出——回顾Policy gradient与Q-learning

1、回顾Policy gradient

先对policy gradient进行回顾，要记得几个要点：

给定某个state采取某个action的概率
考虑到行动输出的概率和为一，为了保证reward越大的有更大的概率被sample到，需要加上baseline b
考虑到当先action对过去的reward没有影响，从当前时间点开始进行reward的累加
考虑到时间越久，当前action对后期reward的影响越小，添加折扣系数 $\gamma$

在这里插入图片描述
上图中G表示在 $s_t$ 采取 $a_t$ 一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的，因为在某一个state采取同一个action，最后的结果不一定相同。因为state的变化也是有随机性的。

虽然经过多次实验后，可能会发现G最后会变成一个比较稳定的分布，那么理论上收集足够多的数据就能解决这一问题。
但是因为policy gradient是一个on policy的方法，每次更新参数后又要重新收集数据。如果每次都要收集非常多的数据那也会造成效率的低下。
因此为了使G变得比较稳定，我们可以用G的期望值来代替，这就需要引入value based的方法。

2、回顾Q-learning

Q-learning部分主要记住以下几个点：

状态价值函数 $V^\pi(s)$ （state value function)，表示代表使用actor $\pi$ 在遇到某一状态s后，接下来使用actor $\pi$ 一直玩到游戏结束的cumulated reward的期望值。
状态行动价值函数 $Q^\pi(s, a)$ （state-action value function)，代表使用actor $\pi$ 在遇到某一状态s，强制使用a，然后使用actor $\pi$ 一直玩到游戏结束的cumulated reward的期望值。

用TD会比较稳定；用MC会比较精确。
TD是G的有偏估计，方差小；MC是G的无偏估计，方差大。

二、Actor-Critic系列算法

1、Actor-Critic

Actor-Critic 的 Actor 的前生是 Policy Gradients , 这能让它毫不费力地在连续动作中选取合适的动作, 而 Q-learning 做这件事会很吃力。
那为什么不直接用 Policy Gradients 呢? 因为 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的以值为基础的学习法 , 能进行单步更新, 而传统的 Policy Gradients 则是回合更新, 这降低了学习效率。所以就想到把两者结合起来变成Actor-Critic。
在这里插入图片描述
文章前面提到G是一个不稳定的值，我们要使用它的期望值来代替G。
可以很容易想到，直接用 $Q^\pi(s,a)$ 来代替G的期望值，而baseline就可以使用 $V^\pi(s)$ 来代替。
因为 $V^\pi(s)$ 和 $Q^\pi(s,a)$ 是期望的关系（后面会介绍到），这样括号当中有正有负，符合要求。

2、Advantage Actor-Critic（A2C）

1、引出原因

AC有一个很大的弊端，那就是需要估算两个网络Q和V，使得估算误差扩大了两倍。
所以就想能不能只用一个网络去估计，即只使用V就能估计出Q。

2、基本原理

1、如何只用一个网络去估计

Q和V的关系为下式：
在这里插入图片描述
解释一下这个式子，因为由于在state $s_t$ 执行action $a_t$ 得到多少的reward $r_t$ ，和会跳到哪一个 $s_{t+1}$ 都是具有随机性的，所以等号右边红框部分加上期望值才等于Q-function。

这里我们做一个简化，认为等号右边红框部分不加期望也等于Q-function（实验结果说明这个简化是可以接受的）。
于是我们得到
在这里插入图片描述
进而我们可以将原式中的Q用V替换掉，即

这样就将两个网络的估计误差变为V这一个网络的估计误差了。

2、优势

由于刚才拿掉了期望值，所以现在的 r（某一个step得到的reward）是有一定随机性的。但是相较于前文的G（从某一时间点t开始到结束的cumulated reward）， r 的方差会比G小很多。
即，将方差比较大的G换成了方差比较小的r。

3、执行过程

在这里插入图片描述
其中绿框部分就是advantage函数。
执行过程：

actor $\pi$ 与环境做互动收集资料
使用TD或MC以这些资料去估计value function
套用 $r^n_t+V^\pi(s^n)_{t+1}-V^\pi(s^n_t))$ 去更新 $\pi$
形成新的actor $\pi'$ ，一直重复123步……

4、两个技巧

1、技巧1：actor和critic的参数可共享

在A2C中我们要训练actor和critic这两个网络，两个网络都是输入状态s，来输出各自的结果。
在这里插入图片描述
以游戏为例子，输入的是游戏画面，前面的网络都是CNN在提取特征，这部分对actor和critic这两个网络来说都是一样的，所以前面几个层的网络参数是可以共享的。

2、技巧2：对actor的输出进行限制

使用output entropy 作为 $\pi(s)$ 的正则项的时候，最好用较大的entropy（与之前的课笔记中所述的exploration方法类似，避免总sample到reward较大的几个action）

这样才会多尝试不同的动作进行探索，而不是一直局限于使用那些已知的reward比较高的动作。

3、Asynchronous Advantage Actor-Critic (A3C)

1、引出原因

强化学习有一个问题就是训练过程很慢，为了解决这个问题就可以使用A3C算法。

2、基本原理

A3C的原理也很简单——既然一个actor训练速度慢，那就开多个actor，最后这些actor会把各自学到的经验集合起来，这样就实现数倍的训练速度。
在这里插入图片描述

3、执行过程

执行过程如下：

每个worker从global network复制参数
不同的worker与环境去做互动
不同的worker计算出各自的gradient
不同的worker把各自的gradient传回给global network
global network接收到gradient后进行参数更新

注意：假设worker 1一开始从global network复制到的参数是 $\theta_1$ ，在worker 1传回gradient之前，global network先收到其他worker的gradient并把参数更新到 $\theta_2$ ，这时worker 1仍然可以再传回gradient。

三、Pathwise Derivative Policy Gradient

1、算法原理

1、引出原因

以棋魂为例子，阿光作为actor下棋，佐为做critic。
在原始的actor-critic中，佐为只判断阿光下的某一步棋好还是不好。
而在Pathwise Derivative Policy Gradient中，critic会引导actor，让它知道采取什么动作才是好的。

2、基本思想

具体来看这个算法。训练一个Actor，以状态s为输入，动作a为输出。训练一个Q function，以状态s和Actor输出的动作a为输入，以Q value为输出。这样就变成把Actor和Q function连接起来形成的一个大的网络。
在这里插入图片描述
在训练整个网络的时候，会固定住Q的参数，用gradient ascend的方法去调Actor的参数，使它输出的a最后能输出尽可能大的Q value。（类似于GAN，这里的Q是GAN里的discriminator，Actor则是GAN里的generator）

3、执行过程

在这里插入图片描述
具体步骤：

actor 去和环境做互动收集资料。
根据这些资料来训练Q function的网络去估计Q value，训练好网络后把它的参数固定住。
训练Actor网络，使它输出的动作a送到Q function的网络中能得到大的Q value，一直沿着这个方向训练下去。
形成新的actor ，重复123步……

2、与Q-learning执行过程的对比

1、Q-learning的执行步骤

在这里插入图片描述

2、四个改动

在这里插入图片描述

3、与GAN的关联

在这里插入图片描述
由于该方法与GAN类似，可以根据已有的研究进行两个领域的研究方向迁移，为之后的研究提供一定的思路。

参考：
https://blog.csdn.net/cindy_1102/article/details/87988606
https://blog.csdn.net/ACL_lihan/article/details/104087569

工藤旧一

关注

5
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
强化学习入门（七）：Actor-Critic系列算法原理

文章目录一、AC系列算法的引出——回顾Policy gradient与Q-learning1、回顾Policy gradient2、回顾Q-learning二、Actor-Critic系列算法1、Actor-Critic2、Advantage Actor-Critic（A2C）1、引出原因2、基本原理1、如何只用一个网络去估计2、优势3、执行过程4、两个技巧1、技巧1：actor和critic的参...
复制链接

扫一扫