PADDLE①强化学习

本文探讨了强化学习与其他学习模式的区别,强调其在环境探索和数据生成中的作用,如围棋AI。接着介绍了智能体的两种学习策略:基于价值的价值型学习和基于策略的策略型学习。此外,还讨论了强化学习的不同类别,包括模型基础与模型自由、价值基础与策略基础、在线策略与离线策略。最后,提到了编程实践环节,如GYM环境的应用。
摘要由CSDN通过智能技术生成

Ⅰ:强化学习与别的学习的区别、关系:

 

机器学习:通过优化方法挖掘数据中规律(从数据中总结模型)的学科

强化学习:不规定训练的目标,所训练的数据仅对模型打分,通过不断优化算法获得更高的模型评分。不仅能利用现有数据,还可以通过对环境的探索获得新数据,并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索,而探索是为了获取数据进行更好的学习。例:围棋AI

监督学习:通过对已有数据的学习预测未来事件。分为回归/分类两类:回归模型用于输出变量为实际值的问题,例如预测未来的美元膨降趋势;分类模型用于可以对输出变量进行分类,例如判别一个人的表情体现开心或难过。

非监督学习:无监督学习是训练机器使用既未分类也未标记的数据的方法,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。分为聚类/查异两类:聚类即将有相似性的数据归为一类;查异即找到与大多数数据有显著不同的特殊项。

深度学习:运用了神经网络作为参数结构进行优化的强化学习算法,拥有更强的算法拟合性,理论上可以模拟一切函数。但训练过程解释性较差,训练模型要求较高。

 强化学习体现智能体通过与环境的交互࿰

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值