强化学习reinforcement learning

强化学习入门到精通

提示:我会不定期更新我的所有文章,我会把我学习过程中觉得不错的内容不定时添加进去,希望大家可以收藏,或许每次看到更新的内容都有不同的理解。我会发布(深度学习&强化学习&深度强化学习&联邦学习的内容)
第一章 强化学习基本概念



前言

强化学习又称为再励学习或评价学习,采用类似于人类和动物学习中的试错机制,通过不断获取外部环境的反馈信息优化调整计算模型或动作行为,实现对序贯决策问题的优化求解。由于外部环境反馈信息的形式和内容比样本数据更加灵活广泛且可以在线获取,故强化学习具有非常广泛的应用前景,被认为是一种最接近人类学习行为的学习方法。


提示:以下是本篇文章正文内容,下面案例可供参考

一、强化学习基本内容

1. 强化学习结构图

结构图如下:

图片来源“汪荣贵教授”
图片来源“汪荣贵教授”

2. 基本概念

1.状态值函数也就是 策略π(状态映射到行为,通俗讲:本质上,策略函数是表示在每个状态执行什么行为;最终目标是找到在每个状态指定正确行为的最优策略,从而使得奖励最大化)
2.状态值函数:执行策略后状态的值,确定了策略π下从状态s开始的期望回报。
3.状态~行为值函数(Q函数):
4.值函数,Q函数的贝尔曼方程 通过它来求解最优策略

二、已知模型&未知模型

1.已知模型

已知模型强化学习(即已知转移概率和奖励概率):动态规划求解:值迭代 策略迭代两算法求解贝尔曼方程
未知模型强化学习(不知道转移概率和奖励概率):蒙特卡罗方法,未知环境最优策略 适合情景任务,情景过长不行
时间差分,属于未知模型


总结

目前更新暂不完善,但我会一直更新下去。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习是一种通过与环境互动来学习最佳行为策略的机器学习方法。为了开始学习这一领域,首先需要了解一些强化学习的基本算法。《Reinforcement Learning: An Introduction》(Sutton and Barto, 1998)是一本经典的强化学习教材,可以帮助初学者了解强化学习的基本概念和算法。该书介绍了强化学习的基本原理、价值函数、贝尔曼方程等重要概念,并介绍了一些经典的强化学习算法,如蒙特卡洛方法、时序差分学习、Q-learning等。这些算法是理解强化学习的基石,对初学者来说非常有帮助。 另外一本不错的入门教材是《Algorithms for Reinforcement Learning》(Szepesvári, 2009),这本书更加强调强化学习的算法和数学基础。它详细介绍了动态规划、值迭代、策略迭代、TD学习等强化学习算法,并提供了一些例子和应用场景,有助于初学者更深入地理解强化学习算法的原理和实际应用。 除了书籍,MOOC平台上也有一些优秀的强化学习入门课程,如Coursera上的《Reinforcement Learning Specialization》和Udemy上的《Practical Reinforcement Learning》。这些课程结合了理论和实践,通过视频、案例分析等方式向学习者介绍强化学习的基本原理和算法,并帮助学习者掌握强化学习的实际应用技能。 总之,要想学习强化学习,首先需要了解一些基本的强化学习算法,上述提到的书籍和课程都是不错的入门资料,可以帮助初学者快速入门强化学习领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值