《强化学习》-读书笔记-总目录

小了白了兔_白了又了白

已于 2022-02-13 14:29:57 修改

阅读量697

点赞数 2

分类专栏：强化学习文章标签：强化学习

于 2020-12-30 17:24:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49703603/article/details/111956316

版权

书籍百度网盘：https://pan.baidu.com/s/1miP38tM

原书籍地址：http://incompleteideas.net/sutton/book/bookdraft2017nov5.pdf

课程代码地址：https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

课程资料地址：http://incompleteideas.net/sutton/book/the-book-2nd.html

一. 导论

1.1 强化学习
1.2 示例
1.3 强化学习要素
1.4 局限性和适用范围
1.5 扩展实例：井字棋
1.6 本章小结
1.7 强化学习的早期历史

I 表格型求解方法

第I部分介绍简单问题的的求解算法，简单问题是指其状态和动作空间小到可以用数组或表格的形式表示价值函数。
后续分别介绍：多臂赌博机、有限马尔科夫过程，以及解决有限马尔科夫过程的三个基本方法：动态规划、蒙特卡洛、时序差分学习

动态规划具有严格清晰的数学基础，且已被深入研究，但他需要完整、精确的环境模型
蒙特卡洛不需要环境模型，但是不适合一步一步的增量式更新计算
时序差分不需要环境模型，并且是完全增量式的，但是过程复杂，很难分析

最低0.47元/天解锁文章

小了白了兔_白了又了白

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。