Actor-Critic_actor-critic matlab-CSDN博客

本文链接：https://blog.csdn.net/zzping01/article/details/120354379

文章目录

Actor-Critic
Asynchronous Advantage Actor-Critic(A3C)
Pathwise Derivative Policy Gradient
- Algorithm

Actor-Critic

演员-评论家算法(Actor-Critic Algorithm)是一种结合policy based和value based的强化学习方法，其中：

演员(Actor)是指策略函数 $\pi(a \mid s)$ ，即学习一个策略来得到尽量高的回报。
评论家(Critic)是指值函数 $V_\pi(s)$ ，对当前策略的值函数进行估计，即评估演员的好坏。
借助于值函数，演员-评论家算法可以进行单步更新参数，不需要等到回合结束才进行更新。

Review: Policy Gradient & Q-learning

在这里插入图片描述

$gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (\sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b) \nabla logp_\theta(a_t^n \mid s_t^n)$

$G_t^n \triangleq \sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n$

$G_t^n$ 代表的是从t时刻开始discount后的奖励，因为 $r^n$ 是一个随机变量，所以 $G_t^n$ 的方差会很大。方差大就会导致在训练的过程中sample到的有限的 $G_t^n$ 是比较没有代表性的，那产生的误差就会比较大。另外据Q- function的定义易得：
$\operatorname{E}[G_t^n] = Q^{\pi_\theta}(s_t^n,a_t^n)$

只需要将 $\sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n$ 替换成 $Q^{\pi_\theta}(s_t^n,a_t^n)$ ，就很直观的把Q-learning和policy gradient结合起来了。
更进一步地，baseline b 可以用 $V^{\pi_\theta}(s_t^n)$ 来替代。实际上， $V^{\pi_\theta}(s_t^n) = \operatorname{E}[Q^{\pi_\theta}(s_t^n,a_t^n)]$ ，因此二者Q-V的值有正有负，即代表动作好与坏。

替换完得到下式：
$gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(Q^{\pi_\theta}(s_t^n,a_t^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{1}$

Advantage Actor-Critic(A2C)

为什么叫 Advantage？因为 $\sum_{t'=t}^{T_n} \gamma^{t'-t}r_{t'}^n - b$

因为 $Q^\pi(s_t^n,a_t^n) = \operatorname{E}[r_t^n + \gamma V^\pi(s_{t+1}^n)] = r_t^n + \gamma V^\pi(s_{t+1}^n)$ （去掉期望值并且都换成V是paper实验里面验证的）代入(1)式，得：
$gradient\ for\ update = \nabla_\theta \overline{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} {\color{red}(r_t^n + \gamma V^\pi(s_{t+1}^n) - V^{\pi_\theta}(s_t^n))} \nabla logp_\theta(a_t^n \mid s_t^n) \tag{2}$

tips for A2C

在这里插入图片描述

Tip1：输出动作的分布（离散动作空间）或者动作的矢量（连续动作空间）的网络 $\pi(s)$ 和输出价值函数的网络 $V^\pi(s)$ 可以共享前面几层。因为输入都是同样的s，可以通过前面几层将常见的s–image 抽象成high level 信息
Tips2：给 $\pi(s)$ 加约束，希望熵大点好，意味着每种动作的选取概率差不多，有利于actor去探索环境。

Asynchronous Advantage Actor-Critic(A3C)

在这里插入图片描述

Worker i 拷贝整个网络参数 $\theta^1$ ，采样数据后计算 $\nabla\theta$ ，而后更新网络参数
在 Worker i 工作的时候，其他的Worker也在工作，也许更新参数的时候公式就不再是 $\theta^1 + \eta \nabla \theta$ 而是 $\theta^2 + \eta \nabla \theta$
就是说所有人同时都在工作，加快了效率，就像影分身同时学习不同的技能，进行叠加

Pathwise Derivative Policy Gradient

这个方法可以看成是 Q-learning 解连续动作的一种特别的方法，也可以看成是一种特别的 Actor-Critic 的方法。

特点：Pathwise Derivative Policy Gradient 中的 critic 会直接告诉 actor 不仅会评价动作的好坏，还会告诉我们做什么样的动作才可以得到比较大的 value。

在这里插入图片描述

actor 的工作就是解 arg max 问题。这个 actor 的工作就是输入一个状态 s，希望可以输出一个动作 a。这个动作 a 被丢到 Q-function 以后，它可以让 $Q^\pi(s,a)$ 的值越大越好。
实际训练的时候会把两个网络接起来组成一个较大的网络。固定住 Q 的参数，只去调 actor 的参数，用 gradient ascent 的方法去最大化 Q 的输出。
这就是一个 conditional GAN。Q 就是 discriminator，但在强化学习就是 critic，actor 在 GAN 里面就是 generator，其实它们是同一件事情。

Algorithm

在这里插入图片描述

相比于Q-learning，有四处变化：

收集数据时，不再根据 Q 选取动作，而是用 $\pi$ 来决定选取的动作
target network 里面输入 $s_{t+1}$ 后的动作选取不是看哪个动作带来的 $\widehat{Q}$ 最大，而是直接根据 $\widehat{\pi}$ 选取action
比 Q-learning 多更新一个网络 $\pi$ ，并且更新的目标是为了Q最大化
C步之后，多了一个 $\widehat{\pi}$ 的参数置为和训练网络一