TD3算法的运行过程理解

最新推荐文章于 2024-08-21 20:59:34 发布

爱学习的Floyd

最新推荐文章于 2024-08-21 20:59:34 发布

阅读量562

点赞数 8

文章标签：算法 python

本文链接：https://blog.csdn.net/weixin_53537053/article/details/135537420

版权

Twin Delayed DDPG (TD3) 是一种用于解决连续动作空间上的强化学习问题的算法，它是 DDPG (Deep Deterministic Policy Gradient) 的改进版本。以下是 TD3 算法的基本运行过程：

初始化：
- 初始化神经网络参数，包括 Actor 网络、两个 Critic 网络（Twin Critic，用于减小估计的 Q 值的方差），以及目标 Critic 网络。
- 设置经验回放缓冲区，用于存储过去的经验元组，这些元组包含观测值、动作、奖励等信息。
- 初始化其他超参数，如学习率、目标更新率、噪声参数等。
定义 Actor 和 Critic 网络：
- Actor 网络输出动作值。
- Critic 网络评估 Q 值，TD3 中有两个 Critic 网络，用于减小估计的 Q 值的方差。
选择动作：
- 使用 Actor 网络选择当前状态下的动作，可能加入一些探索噪声以促使探索。
执行动作并观察环境：
- 将选择的动作应用于环境，观察下一个状态和奖励。
将经验存入回放缓冲区：
- 将观察、动作、奖励、下一个状态等信息存入经验回放缓冲区。
从回放缓冲区中采样一批数据：
- 从经验回放缓冲区中随机采样一批数据用于训练 Critic 网络和更新 Actor 网络。
计算 Critic 的 Q 值和更新网络参数：
- 使用目标 Critic 网络估计目标 Q 值，然后计算 Critic 的损失并更新 Critic 网络参数。
- 使用延迟更新策略，不是每次都更新 Critic 网络。
更新 Actor 网络：
- 计算 Actor 网络的损失，根据 Critic 网络的输出和 Actor 的动作，使用梯度上升法更新 Actor 网络。
更新目标 Critic 网络：
- 使用软更新策略，更新目标 Critic 网络的参数。
调整探索噪声：
- 随着训练的进行，逐渐减小探索噪声的强度，使得在训练后期更加依赖 Actor 网络输出的动作。
重复步骤3-10 直到满足停止条件。