强化学习
文章平均质量分 95
yucong96
这个作者很懒,什么都没留下…
展开
-
《强化学习Sutton》读书笔记(三)——动态规划(Dynamic Programming)
此为《强化学习》第四章。策略评估策略评估 (Policy Evaluation) 首先考虑已知策略π(a|s)π(a|s)\pi(a|s),求解vπ(s)vπ(s)v_\pi(s)。根据上一节中状态值函数的Bellman等式,有 vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(s′)]vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(...原创 2018-09-04 13:40:44 · 1633 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(六)——n步Bootstrapping(n-step Bootstrapping)
此为《强化学习》第七章 n-step Bootstrapping 。nnn步Bootstrapping是MC和TD(0)的综合。随着对参数nnn的调整,我们可以看到TD是如何过渡到MC的。而最佳的方法往往就是介于TD和MC之间。nnn步TD估计在上一章的TD(0)方法中,我们有 v(St)←v(St)+α(Gt−v(St))v(St)←v(St)+α(Gt−v(St))v(S_...原创 2018-09-07 19:13:47 · 1119 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(四)——蒙特卡洛方法(Monte Carlo Methods)
此为《强化学习》第五章。上一节中的动态规划方法需要知道整个environment的信息,但有的时候,我们只有经验 (Experience) (比如一组采样),而对environment没有任何其他知识;或者我们有一个可以交互的黑盒,通过黑盒可以进行仿真得到experience,但具体黑盒内的概率模型也是不知道的(或者非常难以计算的)。这种情况下,动态规划方法不再适用,蒙特卡洛方法 (Monte...原创 2018-09-05 13:25:39 · 1973 阅读 · 2 评论 -
《强化学习Sutton》读书笔记(五)——时序差分学习(Temporal-Difference Learning)
此为《强化学习》第六章 Temporal-Difference Learning 。时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合,它可以像MC那样,不需要知道环境的全部信息,通过交互就能学习;同时,它也可以像DP那样,在(其他值函数)估计的基础上进行估计,从而不需要求解完整个事件(Episo...原创 2018-09-06 13:09:16 · 2160 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(七)——列表法的计划与学习(Planning and Learning with Tabular Methods)
此为第八章 Planning and Learning with Tabular Methods 。在上述章节中,我们已经看到了DP是基于模型 (Model-Based) 的,而MC和TD是模型无关的 (Model-Free) 。基于模型的方法中,Planning(下文定义这个词)是最主要的一步;而对于模型无关的问题,Learning是最核心的步骤。Planning和Learning有很多异同...原创 2018-09-12 14:45:42 · 888 阅读 · 1 评论