【强化学习】Actor-Critic算法

最新推荐文章于 2024-08-06 17:32:05 发布

catchy666

最新推荐文章于 2024-08-06 17:32:05 发布

阅读量2.9k

点赞数 2

分类专栏： Notes 强化学习

本文链接：https://blog.csdn.net/weixin_45492196/article/details/107323986

版权

Notes 同时被 2 个专栏收录

11 篇文章 5 订阅

订阅专栏

强化学习

6 篇文章 12 订阅

订阅专栏

在策略梯度（Policy Gradient）中，了解了基于策略（Policy Based）的强化学习方法基本思路。但由于该算法需要完整的状态序列，同时单独对策略函数进行迭代更新，不易收敛。
本篇来学习Policy Based和Value Based相结合的方法：Actor-Critic算法

Actor-Critic算法简述

演员（Actor）使用策略函数，负责生成动作Action，并与环境交互；
评价者（Critic）使用价值函数，负责评价Actor的表现，并指导Actor后续行为动作。

上一篇的策略梯度，策略函数就是我们的Actor，但是那里是没有Critic的（使用蒙特卡罗法来计算每一步的价值部分替代Critic的功能）。因此现在使用类似DQN中的价值函数来替代蒙特卡罗法，作为一个比较通用的Critic。

也就是说在Actor-Critic算法中，我们需要做两组近似，第一组是策略函数的近似：
$\pi_\theta\left( s,a\right)=P\left( a\mid s,\theta\right)\approx \pi\left(a\mid s\right)$
第二组是价值函数的近似：
$\hat{v}\left( s,w\right)\approx v_\pi \left( s\right)$

$\hat{q}\left( s,a,w\right)\approx q_\pi \left( s,a\right)$

上一篇策略的参数更新公式是： $\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(s_t,a_t\right)v_t$ ，梯度更新部分中， $\log\pi_\theta\left(s_t,a_t\right)$ 是我们的分值函数，不用动，要变成Actor的话改动的是 $v_t$ ，这里不再使用蒙特卡罗法得到，而应从Critic得到。参照之前DQN的做法，即用一个Q网络作为Critic，该网络的输入为状态，输出为动作的价值。

Actor-Critic算法可选形式

基于状态价值，Actor的策略函数参数更新的法公式为：
$\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(s_t,a_t\right)V\left(s,w\right)$
基于动作价值：
$\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(s_t,a_t\right)Q\left(s,a,w\right)$
基于TD误差，其表达式为 $\delta\left(t\right)=R_{t+1}+\gamma V\left(S_{t+1}\right)-V\left(S_t\right)$ 或 $\delta\left(t\right)=R_{t+1}+\gamma Q\left(S_{t+1},A_{t+1}\right)-Q\left(S_t,A_t\right)$ ：
$\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(s_t,a_t\right)\delta\left(t\right)$
基于优势函数，优势函数A的定义： $A\left(S,A,w,\beta \right)=Q\left(S,A,w,\alpha,\beta \right)-V\left(S,w,\alpha \right)$ ，即动作价值函数与状态价值函数的差值：
$\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(s_t,a_t\right)A\left(S,A,w,\beta \right)$

对于Critic本身的模型参数 $w$ ，一般采用MSE损失函数来做迭代更新。

Actor-Critic算法流程

这里给一个Actor-Critic算法的流程总结，评估点基于TD error，Critic使用神经网络计算TD error并更新网络参数，Actor使用神经网络来更新网络参数。

算法输入： 迭代轮数 $T$ ，状态特征维度 $n$ ，动作集 $A$ ，步长 $\alpha$ ， $\beta$ ，衰减因子 $\gamma$ ，探索率 $\epsilon$ ，Critic & Actor网络结构
算法输出： Actor网络参数 $\theta$ ，Critic网络参数 $w$

随机初始化所有的状态和动作对应的价值 $Q$
for i from 1 to T，进行迭代。
a) 初始化 $S$ 为当前状态序列的第一个状态，得到其特征向量 $\phi(S)$
b) 在Actor网络中使用 $\phi(S)$ 作为输入，输出动作 $A$ ，基于动作 $A$ 得到下一状态 $S^{\prime}$ ，反馈 $R$
c) 在Critic网络中分别使用 $\phi(S)$ ， $\phi(S^{\prime})$ 作为输入，得到Q值输出 $V (S)$ ， $V(S^{\prime})$
d) 计算TD error $\delta=R+\gamma V\left(S^{\prime}\right)-V\left(S\right)$
e) 使用均方误差损失函数 $\sum \left(R+\gamma V\left(S^{\prime} \right) -V\left(S,w\right) \right) ^2$ 作Critic网络参数 $w$ 的梯度更新
f) 更新Actor网络参数 $\theta$ ：
$\theta = \theta + \alpha\bigtriangledown_\theta\log\pi_\theta\left(S_t,A_t\right)\delta$

Actor-Critic算法小结

Actor-Critic算法虽已经是一个很好的算法框架，但离实际应用还比较远。主要原因是这两个神经网络，都需要梯度更新，而且相互依赖。
但该算法收敛性不好，仍需要改进。目前改进的比较好的有两个经典算法，一个是DDPG算法，使用了双Actor神经网络和双Critic神经网络的方法来改善收敛性。这个方法我们在从DQN到Nature DQN的过程中已经用过一次了。另一个是A3C算法，使用了多线程的方式，一个主线程负责更新Actor和Critic的参数，多个辅线程负责分别和环境交互，得到梯度更新值，汇总更新主线程的参数。而所有的辅线程会定期从主线程更新网络参数。这些辅线程起到了类似DQN中经验回放的作用，但是效果更好。

学习笔记参考刘建平Pinard博客