SAC：柔性动作-评价

不负韶华ღ

已于 2022-04-24 11:07:48 修改

阅读量5.4k

点赞数 4

分类专栏：强化学习文章标签： python

于 2022-04-24 10:51:07 首次发布

本文链接：https://blog.csdn.net/weixin_49346755/article/details/124374761

版权

强化学习专栏收录该内容

11 篇文章

订阅专栏

基本概念

SAC

SAC全称Soft Actor-Critic，中文名柔性动作-评价。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是off-policy的强化学习算法。

SAC和TD3的网络结构类似，主网络都拥有1个Actor网络和2个Critic网络。但是，对于SAC来说，目标网络只有两个Critic网络，没有Actor网络。也就是说，SAC有1个Actor网络和4个Critic网络。

Actor网络的输入为状态，输出为动作概率 $\pi(a_t,s_t)$ （对于离散动作空间而言）或者动作概率分布参数（对于连续动作空间而言）；
Critic网络的输入为状态，输出为状态的价值。其中V Critic网络的输出为 $v (s)$ ，代表状态价值对的估计； Q Critic 网络的输出为 $q (a, s)$ ，代表动作-状态对价值的估计。
在这里插入图片描述
Q Critic网络的更新过程：

从经验池buffer中采出的数据 $s_t,a_t,s_{t+1},r_{t+1})$ 进行Critic网络的更新，基于最优贝尔曼方程，用 $U_t^{(q)}=r_t+\gamma v(s_{t+1})$ 作为状态 $s_t$ 的真实价值估计，而用实际采用的动作 $a_2$ 的 $q_i(s_t,a_2)$ 值 $i\in(0,1)$ 作为状态 $s_t$ 的预测价值估计，最后用MSEloss作为Loss函数，对神经网络 $Q_0$ ， $Q_1$ 进行训练。

MSELoss意味着对从经验池buffer中取一个batch的数据进行了求平均的操作。
在这里插入图片描述
V Critic网络的更新过程：

也是从经验池中拿出数据 $s_t,a_t,s_{t+1},r_{t+1})$ 进行V Critic网络的更新，用V Critic网络的输出作为预测值，用含熵的式子进行状态价值估计，即下式作为V Critic网络输出的真实值：
在这里插入图片描述
最后用MSEloss作为Loss函数，对神经网络 $V$ 进行训练。

Actor网络的更新过程：

对Actor网络训练的loss稍微有些复杂，其表达式为：