深度强化学习笔记
文章平均质量分 85
以OpenAI spinning up文档中提供学习的算法VPG、TRPO/PPO、DDPG、TD3、SAC为学习目标
cqjtu_szu_zpz
共勉
展开
-
深度强化学习笔记03【DDPG pytorch样例代码】
样例代码基于python中pytorch深度学习框架,环境为gym提供的摇摆钟控制,即通过控制钟摆旋转的角度使得其保持固定在某个特定位置(gym-Pendulum)原创 2024-08-19 14:14:54 · 325 阅读 · 0 评论 -
深度强化学习笔记04【TD3】
TD3是对DDPG的改进,主要解决的是critic网络高估Q值的问题原创 2024-08-19 17:04:52 · 764 阅读 · 0 评论 -
深度强化学习笔记06【总结:DDPG/TD3/SAC】
总结:1)DDPG解决DQN难以处理连续动作空间问题:DDPG = DQN + DPG;2)TD3解决过估计Q值问题:TD3 = DDPG + clipped double-Q learning + "delayed" policy updates + target policy smoothing;3)SAC将SPG与DDPG结合:SAC = DDPG + SPG + clipped double-Q learning + entropy-regularization + reparameterized.原创 2024-08-22 21:48:47 · 789 阅读 · 0 评论 -
深度强化学习笔记02【DDPG】
DQN不便解决连续动作空间问题,因为其算法中回归拟合方程存在max问题,所以仅适用于离散动作空间,DDPG借助DPG的思想,利用actor输出唯一action作为critic的输入,能够使得critic的输出Q值最大,此外DDPG还沿用了DQN中的target network和relay buffer原创 2024-08-16 17:09:21 · 938 阅读 · 0 评论 -
深度强化学习笔记01【Policy-Gradient/Actor-Critic/DQN/PPO】
本系列文为作者本人在学习过程中笔记,为本人复盘学习用,主观色彩浓厚,且仅适合对DRL有一定了解的人阅读!原创 2024-08-15 01:45:03 · 334 阅读 · 0 评论 -
深度强化学习笔记05【SAC】
不严谨的解释:SAC跟TD3的主要区别就是SAC加入了entropy-regularization来增加早期训练探索性,防止过早收敛至局部最优,这导致需要对V值和Q值重新定义一下。原创 2024-08-20 20:45:10 · 838 阅读 · 0 评论