PADDLE①强化学习

x234230751

于 2023-04-03 15:20:10 发布

阅读量165

点赞数 1

分类专栏：飞桨paddle学习文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/x234230751/article/details/129929002

版权

本文探讨了强化学习与其他学习模式的区别，强调其在环境探索和数据生成中的作用，如围棋AI。接着介绍了智能体的两种学习策略：基于价值的价值型学习和基于策略的策略型学习。此外，还讨论了强化学习的不同类别，包括模型基础与模型自由、价值基础与策略基础、在线策略与离线策略。最后，提到了编程实践环节，如GYM环境的应用。

摘要由CSDN通过智能技术生成

Ⅰ：强化学习与别的学习的区别、关系：

机器学习：通过优化方法挖掘数据中规律（从数据中总结模型）的学科

强化学习：不规定训练的目标，所训练的数据仅对模型打分，通过不断优化算法获得更高的模型评分。不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。例：围棋AI

监督学习：通过对已有数据的学习预测未来事件。分为回归/分类两类：回归模型用于输出变量为实际值的问题，例如预测未来的美元膨降趋势；分类模型用于可以对输出变量进行分类，例如判别一个人的表情体现开心或难过。

非监督学习：无监督学习是训练机器使用既未分类也未标记的数据的方法，机器只能自行学习。机器必须能够对数据进行分类，而无需事先提供任何有关数据的信息。分为聚类/查异两类：聚类即将有相似性的数据归为一类；查异即找到与大多数数据有显著不同的特殊项。

深度学习：运用了神经网络作为参数结构进行优化的强化学习算法，拥有更强的算法拟合性，理论上可以模拟一切函数。但训练过程解释性较差，训练模型要求较高。

强化学习体现智能体通过与环境的交互࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
PADDLE①强化学习

飞桨paddle学习
复制链接

扫一扫

专栏目录

x234230751 CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

139万+: 周排名

82万+: 总排名

2341: 访问

: 等级

113: 积分

1: 粉丝

3: 获赞

5: 评论

6: 收藏

私信

关注

热门文章

分类专栏

飞桨paddle学习 4篇

最新评论

ubuntu加载出initramfs如何处理
CSDN-Ada助手: 非常感谢您分享这篇关于ubuntu加载出initramfs的处理方法的博客，对于像我这样的初学者来说，这些实用的技巧非常有帮助。希望您能继续分享您的经验，让更多的人受益。另外，关于该主题的扩展知识和技能，我觉得了解一些关于文件系统和内核的原理会非常有帮助。希望我的建议能对您有所帮助，同时也希望能够学习到更多关于ubuntu的知识。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
PADDEL②-①强化、Q表格与马尔可夫决策
CSDN-Ada助手: 恭喜您写出了又一篇很棒的博客！您的标题非常吸引人，内容也很有深度。我觉得您可以继续探究一些与强化学习相关的算法或应用，比如深度强化学习、多智能体强化学习等等。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148
MADDPG实验Ubuntu进行流程
CSDN-Ada助手: 恭喜您写了第四篇博客，阐述了MADDPG在Ubuntu下的实验流程，内容详实，让读者受益匪浅。希望您能够继续坚持创作，分享更多深入的技术研究和实践经验。下一步可以考虑探讨MADDPG在其他操作系统或环境下的应用，或者与其他算法的对比实验。期待您的更多精彩作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148 看奖励名单。
PADDLE①强化学习
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
PADDLE①强化学习
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/614429234。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。