书籍百度网盘:https://pan.baidu.com/s/1miP38tM
原书籍地址:http://incompleteideas.net/sutton/book/bookdraft2017nov5.pdf
课程代码地址:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
课程资料地址:http://incompleteideas.net/sutton/book/the-book-2nd.html
一. 导论
- 1.1 强化学习
- 1.2 示例
- 1.3 强化学习要素
- 1.4 局限性和适用范围
- 1.5 扩展实例:井字棋
- 1.6 本章小结
- 1.7 强化学习的早期历史
I 表格型求解方法
第I部分介绍简单问题的的求解算法,简单问题是指其状态和动作空间小到可以用数组或表格的形式表示价值函数。
后续分别介绍:多臂赌博机、有限马尔科夫过程,以及解决有限马尔科夫过程的三个基本方法:动态规划、蒙特卡洛、时序差分学习
- 动态规划具有严格清晰的数学基础,且已被深入研究,但他需要完整、精确的环境模型
- 蒙特卡洛不需要环境模型,但是不适合一步一步的增量式更新计算
- 时序差分不需要环境模型,并且是完全增量式的,但是过程复杂,很难分析