深度强化学习笔记02【DDPG】

cqjtu_szu_zpz

已于 2024-08-19 11:44:06 修改

阅读量938

点赞数 13

分类专栏：深度强化学习笔记文章标签：笔记深度学习机器学习

于 2024-08-16 17:09:21 首次发布

本文链接：https://blog.csdn.net/zpz84761695/article/details/141263950

版权

深度强化学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

DQN不便解决连续动作空间问题，因为其算法中用于critic更新的回归拟合方程存在求解max问题，所以仅适用于离散动作空间。
前面提到的DQN仅用Critic完成训练是不严谨的，只是便于同Actor-Critic等方法区分类比。下图将结合DQN到DDPG进行梳理，但此图可能存在问题，了解框架即可。

DDPG（deep DPG）即DPG（deterministic policy gradient）与DQN（deep Q network)的结合。DDPG所做的事就是用actor得到一个action，去近似critic需要得到的最大Q值的action，也就是critic输入的action是由actor所确定的：
$\max_aQ^*(s,a)≈Q_{\theta}(s,{\pi}_{\theta}(s))$ 其中 ${\pi}_{\theta}(s)$ 就是由actor所确定的action：1）作为critic的输入能输出最大Q值；2）只输出一个动作（确定性）。此外，DDPG是基于Actor-Critic框架下源自DQN的方法，也有用到DQN中的relay buffer和target network。
总而言之，DDPG主要做了两件事：1）学习一个Q function（critic）；2）学习一个policy（actor）。并且在此policy下的actor仅输出一个action，作为critic的输入能得到输出近似最大Q值。

1. Q Learning Side of DDPG（critic）

根据贝尔曼最优方程：
$Q^*(s,a)=r_s^a+{\gamma}{\sum_{s'∈S}}P_{ss'}^a\max_aQ^*(s',a')$ 上述方程maxQ前面的累加与概率转移矩阵其实是对maxQ求期望的过程。所以其另一种写法即：
$Q^*(s,a)=E_{s'～S}[r_s^a+{\gamma}\max_{a'}Q^*(s',a')]$ DQN中的critic通过该方程更新。DDPG要做的是用一个带参数的神经网络 $Q_{\phi}(s,a)$ 来逼近 $Q^*(s,a)$ 。假设buffer中已有足够经验（actor所做的）为 $(s, a, r, s^{'}, d)$ 且已知 $s^{'}$ ，则 $a'={\pi}_{\phi}(s')$ 。通过TD学习，建立以均方误差为损失的目标函数：
$J(\phi)=L(\phi)=E_{(s,a,r,s',d)～D}[(Q_{\phi}(s,a)-(r+{\gamma}(1-d)Q_{\phi}(s',a')))^2]$ 使用gradient descent方法求minimum：
$▽_{\phi}J(\phi)=▽_{\phi}E_{(s,a,r,s',d)～D}[(Q_{\phi}(s,a)-(r+{\gamma}(1-d)Q_{\phi}(s',a')))^2]$ 实作中利用重要性采样近似该期望，也就是用mini-batch的平均梯度近似目标函数梯度：
$▽_{\phi}J(\phi)=▽_{\phi}\frac{1}{|B|}{\sum}_{(s,a,r,s',d)～B}(Q_{\phi}(s,a)-(r+{\gamma}(1-d)Q_{\phi}(s',a')))^2$ 其中 $B$ 为mini-batch的大小。利用相邻状态Q进行差分训练的方法即TD法，它的缺点是每次更新后回归拟合方程都会改变，不利于训练的稳定性，解决方法是延用DQN中的target网络，target网络的参数不再随着每次更新后立即更新，而是更新若干次后再与online网络（原网络）同步更新，在此期间的online网络更新依靠target网络。所以目标函数梯度：
$▽_{\phi}J(\phi)=▽_{\phi}\frac{1}{|B|}{\sum}_{(s,a,r,s',d)～B}(Q_{\phi}(s,a)-(r+{\gamma}(1-d)Q_{\hat{\phi}}(s',{\pi}_{\hat{\theta}}(s'))))^2$
其中 $\phi$ 和 $\theta$ 分别表示critic和actor网络的参数， $\hat{\phi}$ 和 $\hat{\theta}$ 分别表示critic和actor的target网络参数。
DDPG的target网络更新参数不再像DQN中的一样进行硬更新： $\hat{\phi}=\phi$ 。而是采用软更新： $\hat{\phi}'={\tau}\phi+(1-\tau)\hat{\phi}$ 。其中 $\tau$ 是一个超参数，表示更新的软硬程度。至此完成了critic的更新。
正如前面所说，遍历连续动作空间中所有动作的Q值是十分困难的，DDPG则利用了一个target policy网络（actor的target网络）去计算近似critic输出最大Q值的action： ${\pi}_{\hat{\theta}}(s')$ 。（为了稳定性，用actor的target网络训练critic，所以是 $\hat{\theta}$ ）

2. Policy Learning Side of DDPG（actor）

actor的目标就是找到唯一一个action，其作为critic的输入能输出最大Q值。也就是学习训练 $a=\pi_{\theta}(s)$ 使得 $Q_{\phi}(s,a)$ 最大：
$max_{\theta}E_{s～S}[Q_{\phi}(s,\pi_{\theta}(s))]$ $J(\theta)=E_{s～S}[Q_{\phi}(s,\pi_{\theta}(s))]$ 使用gradient boosting方法求解，因为是连续动作空间，所以Q对action是可微的：
$▽_{\theta}J(\theta)=\frac{\partial{Q}}{\partial{\theta}}=\frac{\partial{Q_{\phi}(s,{\pi}_{\theta}(s))}}{\partial{{\pi}_{\theta}(s)}}*\frac{\partial{{\pi}_{\theta}(s)}}{\partial{\theta}}$
至此完成了actor的更新，与critic一样，actor网络也可以用target网络进行更新。更为详细的DDPG算法如下：
在这里插入图片描述