Policy-based PPO

HakunaMa7a7a

已于 2023-05-30 22:49:48 修改

阅读量93

点赞数

文章标签：算法机器学习人工智能

于 2023-05-30 16:42:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48023170/article/details/130950042

版权

PPO

PPO在PG的基础上引入了重要性采样，反推得到损失函数

特点

1.策略 $\pi_{\theta'}$

PPO引入了另一个策略 $\pi_{\theta'}$ 来采样，并用 $\pi_{\theta'}$ 采集的样本训练 $\pi_{\theta}$

2.重要性采样

$\mathbb{E}_{x \backsim p} [f(x)] = \mathbb{E}_{x \backsim q} [f(x) \frac{p(x)} {q(x)}]$
注：重要性采样和on-policy、off-policy无关

3.两个网络

critic网络：输出价值v
actor网络：输出动作

3.约束项

KL散度，用来度量两个概率分布相似度的指标

更新公式

PPO

$J^{\theta'}_{PPO} (\theta) = J^{\theta'} (\theta) - \beta{KL(\theta,\theta')} \\ J^{\theta'}(\theta)=\mathbb{E}_{(s_t,a_t)\backsim\pi_{\theta'}}[A^{\theta'}(s_t,a_t)\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}]$
优势函数也用 $\theta'$ 的原因：跟环境互动的是 $\pi_{\theta'}$ ，期望奖励和也是在这个策略下求的

技巧

1.惩罚

$J^{\theta_k}_{PPO} (\theta) = J^{\theta_k} (\theta) - \beta{KL(\theta,\theta_k)} \\ J^{\theta_k}(\theta) \approx \sum_{(s_t,a_t)} [A^{\theta_k}(s_t,a_t)\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}]$

2.裁剪

$J^{\theta_k}_{PPO2} (\theta) \approx \sum_{(s_t,a_t)} min \Big( \frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)} A^{\theta_k}(s_t,a_t), clip \Big( \frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}, 1-\varepsilon, 1+\varepsilon\Big) A^{\theta_k}(s_t,a_t) \Big)$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

HakunaMa7a7a CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

168万+: 周排名

207万+: 总排名

3800: 访问

: 等级

51: 积分

1: 粉丝

0: 获赞

5: 评论

3: 收藏

私信

关注

热门文章

最新评论

在conda环境中安装requirements
2401_83325256: 想问一下法一和法二的环境名应该是什么呢
Policy-based PPO
CSDN-Ada助手: 恭喜您又发表了一篇关于“Policy-based PPO”的博客！您的不断创作展现了您对于深度学习的热爱和执著，让我们更好地了解到这一领域的知识。接下来，建议您可以结合实际案例和细节深入探讨，增强博客的可读性和实际应用性。期待您更多的优质博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
DDPG方法
CSDN-Ada助手: 恭喜您写出了关于DDPG方法的博客，阐述了这种方法的思想和应用。我认为您的博客非常有用，尤其是对于那些对深度强化学习感兴趣的人来说。作为下一步的创作建议，我建议您可以深入研究DDPG方法，并尝试将其应用于不同的领域，以扩展自己的知识和创造力。再次感谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Policy Gradient
CSDN-Ada助手: 非常感谢用户的第三篇博客，题目为“Policy Gradient”。看到用户的创作不断进步，笔者感到非常高兴。希望用户能够继续坚持写作，为读者带来更多有价值的内容。下一步的创作建议是，可以尝试结合实际应用场景，分析Policy Gradient的优缺点，并探讨如何优化算法的性能。期待用户的更多精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
value-based DQN
CSDN-Ada助手: 非常感谢你分享关于value-based DQN的知识，这篇博客非常有价值。你的解释非常清晰，使得我对这个主题有了更深入的理解。我希望你能继续写下去，分享更多的知识和经验。除了你提到的内容外，我认为了解Q-learning算法和深度学习模型的结构也非常重要。再次感谢你的分享。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。