Lecture 13(Extra Material)：PPO

最新推荐文章于 2024-07-21 19:18:55 发布

zzz_qing

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量173

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzz_qing/article/details/130543971

版权

On-policy v.s.Off-policy

On-policy: The agent learned and the agent interacting with the environment is the same.
Off-policy: The agent learned and the agent interacting with the environment is different.

Issue of Importance Sampling:

尽管q可以是任意的，但是q和p不能相差太多。如下图，VARx~p和VARx~q计算公式的第一项（即两个红框圈出来的地方）不同，如果q和p差别很大，p(x)/q(x)的值很大或很小，VARx~p和VARx~q就会相差很大。当sample的data不够多的时候，结果有可能出现很大的偏差：

例如下图，当sample次数不够的时候，左式和右式可能会有很大的差距：

下面把Importance Sampling用在off-policy的case：

Importance Sampling要求Pθ和Pθ'不能差太多（即上面提到的q和p不能相差太多），这两个distribution差太多的话，important sampling的结果就会不好。如何避免它们差太多——PPO。

PPO计算公式中的KL diversions，它所计算的θ和θ'之间的距离并不是参数上的距离，而是它们behavior上的距离。

在做RL的时候，之所以考虑的不是参数上的距离，而是action上的距离，是因为很有可能对actor来说，参数的变化跟action的变化不是完全一致的。有时候参数小小的变了一下，output的行为就变很多，或者参数变很多，但output的行为没什么改变。我们真正在意的是actor它的行为上的差距。

PPO algorithm:

PPO2 algorithm:

min()这部分式子，能够让Pθ和Pθ'的差距不会太大。implement PPO2比implement PPO简单一点。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lecture 13(Extra Material)：PPO

在做RL的时候，之所以考虑的不是参数上的距离，而是action上的距离，是因为很有可能对actor来说，参数的变化跟action的变化不是完全一致的。我们真正在意的是actor它的行为上的差距。如下图，VARx~p和VARx~q计算公式的第一项（即两个红框圈出来的地方）不同，如果q和p差别很大，p(x)/q(x)的值很大或很小，VARx~p和VARx~q就会相差很大。PPO计算公式中的KL diversions，它所计算的θ和θ'之间的距离并不是参数上的距离，而是它们behavior上的距离。
复制链接

扫一扫

zzz_qing CSDN认证博客专家 CSDN认证企业博客

码龄5年

44: 原创

118万+: 周排名

221万+: 总排名

9309: 访问

: 等级

448: 积分

9: 粉丝

2: 获赞

7: 评论

12: 收藏

私信

关注

热门文章

分类专栏

论文精读 2篇

最新评论

Overcoming catastrophic forgetting in neural networks
xuebing55555: 请问有完整实现代码吗？
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 非常棒的博客！学习元学习是非常有趣和有用的！我们希望看到更多关于此主题的内容。我们建议您写一篇有关如何使用元学习来优化深度学习模型的博客。谢谢你的分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615663682?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
The first GAN——Generative Adversarial Nets
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/614789723。
[机器学习]Lecture 1：Regression，Pokemon classification，Logistic Regression
CSDN-Ada助手: 非常感谢您分享这篇博客。恭喜您能够坚持创作，继续保持哦！同时，我希望您能够在未来的博客中，更深入地探讨机器学习的其他方面，例如深度学习和神经网络等等。期待您的下一篇作品，谢谢！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。