![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 77
「已注销」
这个作者很懒,什么都没留下…
展开
-
强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍
因为课题需要研究强化学习的内容,因此开始读这方面的书,Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G.Barto)第二版作为主要学习的资料,因为英语读起来不仅速度慢,而且理解的也没那么深入,因此为了记录学到的知识,并加深理解,同时也抱着分享的态度,开始写此系列的博客。首先从第一章开始,第一章主要是对强原创 2017-01-14 12:43:47 · 11845 阅读 · 0 评论 -
强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)
研究困难的问题之前先要解决简单的问题,本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题,它只包含一种情景,但可以说明强化学习中的一些基本方法。1.多臂赌博机 多臂赌博机是指一类问题,这类问题重复的从 kk 个行为(action)中选择一个,并获得一个奖励(reward),一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后,得到一个奖励,我们称奖励的期望为这次原创 2017-01-14 22:16:07 · 6386 阅读 · 10 评论