强化学习的学习之路（三十五）_2021-02-04：Tips in Policy Gradient Descent

最新推荐文章于 2021-04-03 00:46:53 发布

Chou_pijiang

最新推荐文章于 2021-04-03 00:46:53 发布

阅读量156

点赞数

分类专栏：强化学习-基础知识文章标签：强化学习人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyh19980527/article/details/114109698

版权

强化学习-基础知识专栏收录该内容

60 篇文章 110 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Tips in Policy Gradient Descent

首先policy gradient的variance是非常大的，它的gradient噪声比较大（来自trajectory的累积reward）。为了克服它，可以尝试将训练的batch size加到非常大。
另外，由于gradient的noise很大，学习率会比较难调节，很多时候使用ADAM勉强可行。而一般而言，我们会使用类似PPO/TRPO那样的专用于policy gradient的自动确定学习步长的方法

上一篇：强化学习的学习之路（三十四）_2021-02-03：Off-Policy policy gradient
下一篇：强化学习的学习之路（三十六）_2021-02-05： Actor Critic - Reducing variance with critic

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习的学习之路（三十五）_2021-02-04：Tips in Policy Gradient Descent

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，目录我单独放在一篇单独的博客里面了。完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！Tips in Policy Gradient Descen
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。