深度强化学习第十二章——Deep Deterministic Policy Gradient（DDPG）-CSDN博客

本文链接：https://blog.csdn.net/weixin_45549370/article/details/109564872

DDPG（Deep Deterministic Policy Gradient）是深度强化学习中的一种算法，结合了DPG（Deterministic Policy Gradient）的确定性策略和深度学习。DPG解决了策略梯度在连续动作空间中计算的难题，而DDPG则进一步引入了Actor-Critic框架，使用四个神经网络：Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络，通过目标网络稳定训练过程并利用经验回放缓冲区提高学习效率。

摘要由CSDN通过智能技术生成

深度强化学习第十二章——Deep Deterministic Policy Gradient（DDPG

1.Deterministic Policy Gradient(DPG)
- 1.2 为什么要DPG
2. Deep Deterministic Policy Gradient(DDPG)
- 2.1 AC算法
- 2.2 DDPG的四个网络
3.DDPG 与 DPG

从名字上看DDPG是由D(Deep)+D(Deterministic)+PG(Policy Gradient)组成

1.Deterministic Policy Gradient(DPG)

首先，我们先来了解下DPG是什么

确定性策略梯度(Deterministic Policy Gradient，简称DPG)。

1.2 为什么要DPG

不是有策略梯度(PG)了吗，为什么还有有DPG嘞

对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的采集大量样本。

即通过PG学习得到了随机策略之后，在每一步行为时，我们还需要对得到的最优策略概率分布进行采样，才能获得action的具体值。

而action通常是高维的向量，比如25维、50维。在高维的action空间的频繁采样，无疑是很耗费计算能力。

而且计算梯度需要通过蒙特卡洛采样来进行估算，也需要在高维的action空间进行采样，耗费+1。

简单来说，就是像暴力求解一样，太烧计算机了，得换种解法

所以在2014年，由Deepmind的D.Silver等提出 Deterministic policy gradient algorithms，即确定性策略算法。
一定的策略 $\mu$ ，对应一定的确定性动作的策略网络的参数 $\theta^{\mu }$ ，在同一个状态 $s$ 处，，动作 $a_t$ 是唯一确定的,