【深度强化学习】TD3算法：DDPG的进化

最新推荐文章于 2025-03-16 18:35:51 发布

catchy666

最新推荐文章于 2025-03-16 18:35:51 发布

阅读量3.8w

点赞数 47

分类专栏：强化学习 Notes 文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/weixin_45492196/article/details/107866309

版权

Notes 同时被 2 个专栏收录

11 篇文章

订阅专栏

强化学习

6 篇文章

订阅专栏

文章目录

0）简述TD3
1）Double Network
2）Delayed
3）Target Policy Smoothing Regularization
算法流程
总结

0）简述TD3

算法原文：Fujimoto, Scott, Herke van Hoof, and Dave Meger. “Addressing Function Approximation Error in Actor-Critic Methods.” arXiv preprint arXiv:1802.09477 (2018).

TD3：Twin Delayed Deep Deterministic Policy Gradient ，双延迟深度确定性策略梯度。
Deep Deterministic Policy Gradient, DDPG算法不了解的可以看这里。
TD3算法是一个对DDPG优化的版本，即TD3也是一种基于AC架构的面向连续动作空间的DRL算法，主要包括三个非常主要的优化。

1）Double Network

DDPG源于DQN，是DQN解决连续控制问题的一种方法。然而DQN存在过估计问题。

(1) 什么是过估计？

过估计是指估计的值函数比真实的值函数大。

(2) 为什么DQN存在过估计的问题？

因为DQN是一种off-policy的方法，每次学习时，不是使用下一次交互的真实动作，而是使用当前认为价值最大的动作来更新目标值函数，所以会出现对Q值的过高估计。通过基于函数逼近方法的值函数更新公式可以看出：
$\theta_{t+1}=\theta_t+\alpha\left[r+\gamma \max_{a^\prime}Q(s^\prime,a^\prime;\theta^-)-Q(s,a;\theta)\right]\bigtriangledown Q(s,a;\theta)$

(3) 怎么解决这个问题？

为了解决过估计的问题，Hasselt提出了Double Q Learning方法，将此方法应用到DQN中，就是Double DQN，即DDQN。
所谓的Double Q Learning是将动作的选择和动作的评估分别用不同的值函数来实现。
动作的选择： $arg\max_aQ(S_{t+1},a;\theta_t)$
动作的评估：选出 $a^*$ 后，利用 $a^*$ 处的动作值函数构造TD目标，TD目标公式为： $Y^{DoubleQ}_t\equiv R_{t+1}+\gamma Q(S_{t+1},arg\max_aQ(S_{t+1},a;\bm{\theta}_t);\bm{\theta}^\prime _t)$
DDQN借鉴了Double Q-learning的思想，将选取action和估计value分别在predict network 和 target network网络上计算，有效优化了DQN的Q-Value过高估计问题。

而过估计这个问题也会出现在DDPG中。而要解决这个问题的思路，就在DQN的优化版本中——DDQN。
在TD3中，使用 两套网络(Twin) 表示不同的Q值，通过选取最小的那个作为我们更新的目标（Target Q Value），抑制持续地过高估计。 ——TD3的基本思路

※有一点需要注意，DDPG算法涉及了4个网络，所以TD3需要用到6个网络。
1. 先看DDPG的网络结构：
在这里插入图片描述
2. 可看出在DDPG中，通过Critic网络估计动作值。一个Critic的估计可能较高，那么我们再加入一个：

上图目标网络Q1(A')和Q2(A')取最小值min(Q1,Q2)，代替了DDPG的Q'(A')计算更新目标，即Ytarget = r + gamma * min(Q1, Q2)
Ytarget将作为Q1和Q2两个网络的更新目标