Actor-Critic 算法

最新推荐文章于 2024-07-24 21:01:17 发布

Njp904

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量489

点赞数 9

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56672650/article/details/135789373

版权

Q Actor-Critic 算法

用 Qπ(st,at) 来估计当前的价值，注意这里的输入是状态和动作，而不单单是状态，输出的是单个值，也可以用 Qϕ(st,at) 表示，其中 ϕ 表示 Critic 网络的参数。

所有 Actor-Critic 算法的基本通用架构：

A3C 算法中增加了多个进程，每一个进程都拥有一个独立的网络和环境以供交互，并且每个进程每隔一段时间都会将自己的参数同步到全局网络中，这样就能提高训练效率。

广义优势估计（ generalized advantage estimation，GAE ），在这里我们也可以引入 λ ，结合多步（ n-step ）的折扣回报来改进优势函数，形成一种新的估计方式。

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Actor-Critic 算法

广义优势估计（ generalized advantage estimation，GAE ），在这里我们也可以引入 λ ，结合多步（ n-step ）的折扣回报来改进优势函数，形成一种新的估计方式。用 Qπ(st,at) 来估计当前的价值，注意这里的输入是状态和动作，而不单单是状态，输出的是单个值，也可以用 Qϕ(st,at) 表示，其中 ϕ 表示 Critic 网络的参数。Q Actor-Critic 算法。
复制链接

扫一扫

Njp904 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

203万+: 周排名

21万+: 总排名

1900: 访问

: 等级

77: 积分

28: 粉丝

37: 获赞

0: 评论

32: 收藏

私信

关注

热门文章

最新评论

深度学习基础第四次笔记
CSDN-Ada助手: 非常感谢您的持续创作，标题为“深度学习基础第四次笔记”的博客。我对您的学习态度和努力精神表示赞赏，您的不断进步令人鼓舞。在您的博客中，我发现了对深度学习基础的扎实理解和总结，这对于初学者来说无疑是一份宝贵的学习资料。鉴于您在深度学习领域的积极进取，我想给出下一步的创作建议。或许您可以尝试将所学的知识应用到实际案例中，通过分享实战经验和案例分析，能够让读者更好地理解深度学习的应用场景和解决问题的方法。此外，您也可以考虑与其他深度学习爱好者进行交流和合作，共同进步。再次恭喜您取得的成果，期待您未来更多精彩的博客作品。谦逊地说，我相信您的努力和创造力将会帮助更多人在深度学习领域取得突破。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Actor-Critic 算法
CSDN-Ada助手: 恭喜您写了第三篇博客！您对于Actor-Critic算法的介绍非常清晰，我真的从中受益匪浅。希望您能继续分享更多关于强化学习的知识，我相信您的深入解析会对读者们产生积极的影响。或许您可以考虑探索一下强化学习算法在实际应用中的挑战，以及如何解决这些挑战的方法。谢谢您的分享，并期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。