策略梯度法

2000_愚人之旅

已于 2024-04-19 17:24:10 修改

阅读量570

点赞数 10

文章标签：人工智能

于 2024-04-19 17:23:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47175797/article/details/137972142

版权

策略梯度法

策略近似及其优势
- 在之前的学习中，总是依赖于动作价值函数的学习，可以称为间接强化学习
- 在策略梯度方法中，通过直接对策略进行参数化，对策略参数进行学习，称为直接强化学习
- 使用这种方法的优势有：
  - 动作选择更具有柔性，任何动作选择不是非1即0，而是对应一个概率
  - 对于最优策略是一个随机策略的情景，策略近似相较于动作价值求解更具优势，可以以不同的概率选择随机策略
策略梯度定理
- 在分幕式问题中，性能指标可以用策略下初始状态的状态价值定义
- 其梯度的求解具有很好的理论基础，具体证明见P321

REINFORCE：蒙特卡洛策略梯度
- 蒙特卡洛的精髓便是用均值代替期望
- 分别把真实状态、动作引入进来，把对随机变量所有可能取值的求和运算替换为求策略下的期望，再对期望进行采样
- 推到下得到随机梯度上升：

带有基线的REINFORCE
- 蒙特卡洛算法虽然有较好的收敛特性，但由于方差问题，其收敛速度较慢
- 出于此考虑，可以在价值估计时添加一基线来减小方差

- 这里可以使用状态价值函数作为基线，也可以证明这种情况下方差的值最小
“行动器-评判器”方法（Actor-Critic RL）
- 在上一步采用基线时，并没有用于自举操作（用后继各个状态的价值估计值来更新当前某个状态的价值估计值）
- 使用时序差分算法可以改善蒙特卡洛方法大方差的缺陷，提高收敛速度
- 这里便可以使用时序差分的单步、多步算法：

持续性问题的策略梯度
- 对于持续性问题，首先要重新定义性能

- 证明见P331

2000_愚人之旅

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
策略梯度法

策略梯度法。
复制链接

扫一扫

2000_愚人之旅 CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

149万+: 周排名

15万+: 总排名

1761: 访问

: 等级

103: 积分

27: 粉丝

52: 获赞

4: 评论

18: 收藏

私信

关注

热门文章

最新评论

深度学习计算
CSDN-Ada助手: 恭喜作者发布了新的博客文章《深度学习计算》，文章内容深入浅出，让读者受益良多。希望作者能继续保持创作的热情和精神，不断探索深度学习领域的更多知识和技术。建议作者可以进一步探讨深度学习计算的实际应用场景，或者分享一些实践经验，让读者更加深入地了解这一领域。期待作者的下一篇精彩文章！愿您在创作的道路上越走越远，不断进步！
策略梯度法
CSDN-Ada助手: 恭喜用户写了第四篇博客“策略梯度法”！持续创作是非常重要的，能够帮助自己深入学习和理解知识，也能够分享给他人，希望您能够继续坚持下去。下一步建议可以尝试结合实例或案例来说明策略梯度法的应用，这样可以让读者更容易理解和接受。期待您更多精彩的创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
基于函数逼近的同轨策略预测
CSDN-Ada助手: 恭喜作者发布了第三篇博客“基于函数逼近的同轨策略预测”，内容涉及到函数逼近在同轨策略预测中的应用，让读者对这一领域有了更深入的了解。希望作者能够继续保持创作的激情和勇气，不断探索新领域，为读者带来更多有价值的内容。或许在下一篇博客中，可以深入探讨函数逼近的优缺点，或者结合实际案例进行分析，让读者更加直观地感受到其应用的实际效果。期待作者的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
时序差分学习
CSDN-Ada助手: 太棒了！你的第二篇博客内容紧扣“时序差分学习”，看来你对这个主题有很深入的了解。希望你能继续保持创作的热情，分享更多有价值的知识给大家。除了时序差分学习，你或许可以进一步探讨一下强化学习中的其他算法，比如Q-learning、SARSA等，这些也是很有意思的研究方向。期待看到你更多的精彩内容，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
蒙特卡洛方法
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。