TD3：双延迟深度确定性策略梯度

最新推荐文章于 2025-06-07 11:59:33 发布

不负韶华ღ

最新推荐文章于 2025-06-07 11:59:33 发布

阅读量6.9k

点赞数 6

分类专栏：强化学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49346755/article/details/124374263

版权

强化学习专栏收录该内容

11 篇文章

订阅专栏

本文详细解析了TD3算法，它是DDPG的改进版，通过双Critic网络、延迟Actor更新和随机噪声优化来提高稳定性。重点介绍了网络结构、更新策略和参数调整技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本概念

TD3

TD3全称Twin Delayed Deep Deterministic Policy Gradient，中文名双延迟深度确定性策略梯度。简单来说TD3算法是一个相对于DDPG算法优化的版本。TD3算法在DDPG算法的基础上，主要有三个方面的优化：

1、网络结构的优化：TD3在DDPG基础上增加了一个Critic网络，主网络上TD3有2个Critic网络和一个Actor网络，同时Target目标网络也有主网络的一个备份。为什么增加一个Critic网络？原因很简单，增加一个Critic网络，就可以形成对比，通过选取最小的Q值，来避免持续过高的估计。这在只有一个Critic网络是做不到的，当然还可以再增加一个Critic网络。
在这里插入图片描述
2、更新方式的优化：DDPG网络的更新方式是Critic网络参数更新一次，Actor参数也跟着更新一次。但是在TD3网络中，并不是这样的，它采用延迟更新的策略。也就是说，Critic网络更新多次后，Actor网络才更新一次。

为什么采用延迟更新？这样做的目的主要是为了稳定Q值，减少一些错误的更新。想象一下，原本是最高点，当Actor好不容易到达最高点，Q值更新了，这里并不是最高点了。这是Actor只能转头再继续寻找新的最高点；更坏的情况是Actor被困在次高点，没能找到正确的最高点。

3、参数更新的优化：在更新Critic网络时候加入随机噪声 $\tilde{a}$ ，以达到对Critic网络波动的稳定性。

Critic网络参数更新的方式为：
在这里插入图片描述
TD3算法的伪代码如下图所示：

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不负韶华ღ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。