《强化学习》-读书笔记-总目录

书籍百度网盘:https://pan.baidu.com/s/1miP38tM

原书籍地址:http://incompleteideas.net/sutton/book/bookdraft2017nov5.pdf

课程代码地址:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

课程资料地址:http://incompleteideas.net/sutton/book/the-book-2nd.html

一. 导论

  • 1.1 强化学习
  • 1.2 示例
  • 1.3 强化学习要素
  • 1.4 局限性和适用范围
  • 1.5 扩展实例:井字棋
  • 1.6 本章小结
  • 1.7 强化学习的早期历史

I 表格型求解方法

第I部分介绍简单问题的的求解算法,简单问题是指其状态和动作空间小到可以用数组或表格的形式表示价值函数。
后续分别介绍:多臂赌博机、有限马尔科夫过程,以及解决有限马尔科夫过程的三个基本方法:动态规划、蒙特卡洛、时序差分学习

  • 动态规划具有严格清晰的数学基础,且已被深入研究,但他需要完整、精确的环境模型
  • 蒙特卡洛不需要环境模型,但是不适合一步一步的增量式更新计算
  • 时序差分不需要环境模型,并且是完全增量式的,但是过程复杂,很难分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值