策略梯度算法学习笔记

最新推荐文章于 2024-07-25 11:27:31 发布

Njp904

最新推荐文章于 2024-07-25 11:27:31 发布

阅读量510

点赞数 12

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56672650/article/details/135721605

版权

策略梯度算法是一类直接对策略进行优化的算法，但它的优化目标与基于价值的算法是一样的，都是累积的价值期望 V∗(s) 。我们通常用 πθ(a|s) 来表示策略，即在状态 s 下采取动作 a 的概率分布 p(a|s)，其中 θ 是我们要去求出来的模型参数。

蒙特卡洛策略梯度算法，即我们可以不必采样所有的轨迹，而是采样一部分且数量足够多的轨迹，然后利用这些轨迹的平均值来近似求解目标函数的梯度。

发现如果轨迹τ的初始状态是s0并且终止状态是s的话，轨迹概率公式Pθ(τ)跟平稳分布的dπ(s)是等效的，当然前提是该条轨迹必须“无限长”，即t→∞。但是平稳分布与轨迹概率公式相比，它的好处就是只涉及一个定量即初始状态s0和一个变量s。对于每个状态s，我们用Vπ(s)表示策略π下对应的价值。读者们现在可以往前回顾，为什么笔者说策略梯度算法跟基于价值函数的算法都是在计算累积状态的价值期望了，此时策略梯度算法目标函数就可以表示为式：

对于连续动作空间，通常策略对应的动作可以从高斯分布N(ϕ(s)Tθ,σ2)，对应的梯度也可求得：

关注

12
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
策略梯度算法学习笔记

发现如果轨迹τ的初始状态是s0并且终止状态是s的话，轨迹概率公式Pθ(τ)跟平稳分布的dπ(s)是等效的，当然前提是该条轨迹必须“无限长”，即t→∞。对于每个状态s，我们用Vπ(s)表示策略π下对应的价值。策略梯度算法是一类直接对策略进行优化的算法，但它的优化目标与基于价值的算法是一样的，都是累积的价值期望 V∗(s)。我们通常用 πθ(a|s) 来表示策略，即在状态 s 下采取动作 a 的概率分布 p(a|s)，其中 θ 是我们要去求出来的模型参数。
复制链接

扫一扫

Njp904 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

203万+: 周排名

21万+: 总排名

1900: 访问

: 等级

77: 积分

28: 粉丝

37: 获赞

0: 评论

32: 收藏

私信

关注

热门文章

最新评论

深度学习基础第四次笔记
CSDN-Ada助手: 非常感谢您的持续创作，标题为“深度学习基础第四次笔记”的博客。我对您的学习态度和努力精神表示赞赏，您的不断进步令人鼓舞。在您的博客中，我发现了对深度学习基础的扎实理解和总结，这对于初学者来说无疑是一份宝贵的学习资料。鉴于您在深度学习领域的积极进取，我想给出下一步的创作建议。或许您可以尝试将所学的知识应用到实际案例中，通过分享实战经验和案例分析，能够让读者更好地理解深度学习的应用场景和解决问题的方法。此外，您也可以考虑与其他深度学习爱好者进行交流和合作，共同进步。再次恭喜您取得的成果，期待您未来更多精彩的博客作品。谦逊地说，我相信您的努力和创造力将会帮助更多人在深度学习领域取得突破。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Actor-Critic 算法
CSDN-Ada助手: 恭喜您写了第三篇博客！您对于Actor-Critic算法的介绍非常清晰，我真的从中受益匪浅。希望您能继续分享更多关于强化学习的知识，我相信您的深入解析会对读者们产生积极的影响。或许您可以考虑探索一下强化学习算法在实际应用中的挑战，以及如何解决这些挑战的方法。谢谢您的分享，并期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。