强化学习-07--DPG、DDPG

weixin_45650561

已于 2023-02-18 16:03:35 修改

阅读量927

点赞数 1

分类专栏：强化学习文章标签：深度学习人工智能计算机视觉

于 2020-11-11 21:34:41 首次发布

本文链接：https://blog.csdn.net/weixin_45650561/article/details/109631928

版权

强化学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

DPG、DDPG

一、DPG算法新理解
- 1、确定性策略
- 2、与随机策略梯度的区别
二、DDPG（Deep Deterministic Policy Gradient）算法
三、DDPG算法流程
四、DDPG算法新理解
五、额外收获
- 1、重要性采样
参考链接：

越往后面学感觉越陌生，极度怀疑自己之前到底看过这些算法没有。举步维艰啊!

Paper：
DPG:Deterministic policy gradient algorithms
DDPG:Continuous Control with Deep Reinforcement Learning
Github：https://github.com/xiaochus/Deep-Reinforcement-Learning-Practice

一、DPG算法新理解

这种算法主要应用于off-policy(on-policy也适用)

1、确定性策略

确定性策略：在状态St时，每次采取的动作都是一个确定的action， $a=\mu(s)$ ；
随机策略：在状态St时，每次采取的动作很可能不一样，随机选择动作, $\pi(a|s)=P(a|s)$ 。

2、与随机策略梯度的区别

在这里插入图片描述

从梯度更新的公式上来看：确定性策略少了对action的积分，多了reward对action的导数。
这个不同造就了确定性策略相比于随机策略在高维动作空间的时候更容易训练。

二、DDPG（Deep Deterministic Policy Gradient）算法

在这里插入图片描述

三、DDPG算法流程

在这里插入图片描述

四、DDPG算法新理解

这种算法采用AC框架，可用于解决连续动作空间上的深度强化学习问题。

采用莫烦的一句话来概括DDPG：Google deepmind提出的一种使用actor-critic结构，但是输出的不是行为发概率，而是具体的行为，用于连续动作（continuous action）的预测，DDPG结合了之前获得成功的DQN结构，提高了actor-critic是的稳定性和收敛性。

1、与DPG的不同之处

（1）采用卷积神经网络作为策略函数 μ 和Q函数的近似，即策略网络和Q网络；然后使用深度学习的方法来训练上述神经网络。

（2）网络结构和个数不同

从DPG到DDPG的过程，可以类比于DQN到DDQN的过程。除了经验回放之外，还有双网络，即当前网络和目标网络的概念。而由于现在本就有actor和critic两个网络，那么双网络就变成了4个网络，分别是：actor当前网络、actor目标网络、critic当前网络、critic目标网络。

DDPG 4个网络的功能：

Actor当前网络：负责策略网络参数𝜃的迭代更新，负责根据当前状态s选择当前动作a，用于和环境交互生成s’,r,。
Actor目标网络：负责根据经验回放池中采样的下一状态s’选择最优下一动作a’。网络参数θ′定期从θ复制。
Critic当前网络：负责价值网络参数w的迭代更新，负责计算负责计算当前Q值Q(s,a,w)。目标Q值 $y^{'} = r + γ Q^{'} (s^{'}, a^{'}, w^{'})$ 。
Critic目标网络：负责计算目标Q值中的Q’(s’,a’,w’)部分。网络参数w’定期从w复制。

2、与DQN不同

（1）目标网络的参数更新方式不同

DDPG从当前网络到目标网络的网络参数复制与DQN不同，DQN中是直接把当前Q网络的参数复制到目标Q网络中，也就是w’=w,DDPG中没有使用这话硬更新，而是选择了软更新，即每次参数只更新一点点：
$w'\leftarrow\tau w+(1-\tau)w'$
$\theta'\leftarrow\tau\theta+(1-\tau)\theta'$
其中 $\tau$ 是更新系数，一般取的比较小，比如为0.1或者0.001这样的值。