PADDLE②-③Q-learning算法。on/off policy差别

最新推荐文章于 2024-01-02 17:15:00 发布

x234230751

最新推荐文章于 2024-01-02 17:15:00 发布

阅读量185

点赞数

文章标签：算法 paddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/x234230751/article/details/130001913

版权

本文深入探讨了Q-learning算法，这是一种离策略的强化学习方法。与SARSA的on-policy策略不同，Q-learning使用ε-greedy策略进行行动选择，而在更新Q表时采用贪婪策略。核心思想是平衡当前奖励与未来潜在奖励。通过Q-table进行状态-动作值的更新，并通过伪代码和实际应用示例展示了Q-learning的工作流程。同时，文章对比了Q-learning与SARSA的主要区别，指出Q-learning无需知道下一步具体动作，直接按照最优策略更新。

摘要由CSDN通过智能技术生成

Ⅰ：Q Learning：

Learning是Value-Based的强化学习算法，强化学习五个部分为：Agent（智能体）Environment（环境）State（状态）Action（行动）Reward（奖励）而Q算法的额外在于他的统计方式-Q表格（矩阵）Q-Value（State, Action）。

Q-Learning是off-policy的，因为它的行动策略和评估策略不是一个策略。这也是它跟SARSA的一个差别，SARSA是on-policy。差别为：

Q-Learning中每次采取Action的行动策略是ε-greedy策略，而在学习更新Q表的时候使用的评估策略是

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PADDLE②-③Q-learning算法。on/off policy差别

它的核心思想是：当我们在特定时间点和状态下去考虑下一步的决策，我们不仅仅要关注当前决策立即产生的Reward，同时也要考虑当前的决策衍生产生未来持续性的Reward。简单来说是希望学习更新过程缓慢一些，不希望某一步的学习跨度过大，从而对整个的学习结果造成比较大的偏差。因为Q（s,a）会更新迭代很多次，不能因为某一次的学习对最终的Q-value产生非常大的影响。进阶方程亦是广泛使用的方程为---------Bellman 方程。策略，而在学习更新Q表的时候使用的评估策略是。Q-Learning是。
复制链接

扫一扫

x234230751 CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

139万+: 周排名

66万+: 总排名

2469: 访问

: 等级

113: 积分

1: 粉丝

3: 获赞

5: 评论

6: 收藏

私信

关注

热门文章

分类专栏

飞桨paddle学习 4篇

最新评论

ubuntu加载出initramfs如何处理
CSDN-Ada助手: 非常感谢您分享这篇关于ubuntu加载出initramfs的处理方法的博客，对于像我这样的初学者来说，这些实用的技巧非常有帮助。希望您能继续分享您的经验，让更多的人受益。另外，关于该主题的扩展知识和技能，我觉得了解一些关于文件系统和内核的原理会非常有帮助。希望我的建议能对您有所帮助，同时也希望能够学习到更多关于ubuntu的知识。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
PADDEL②-①强化、Q表格与马尔可夫决策
CSDN-Ada助手: 恭喜您写出了又一篇很棒的博客！您的标题非常吸引人，内容也很有深度。我觉得您可以继续探究一些与强化学习相关的算法或应用，比如深度强化学习、多智能体强化学习等等。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148
MADDPG实验Ubuntu进行流程
CSDN-Ada助手: 恭喜您写了第四篇博客，阐述了MADDPG在Ubuntu下的实验流程，内容详实，让读者受益匪浅。希望您能够继续坚持创作，分享更多深入的技术研究和实践经验。下一步可以考虑探讨MADDPG在其他操作系统或环境下的应用，或者与其他算法的对比实验。期待您的更多精彩作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148 看奖励名单。
PADDLE①强化学习
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
PADDLE①强化学习
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/614429234。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。