2018年09月_yucong96

原创应用数学课堂笔记（一）——欧拉方程

引理：设f(x)∈C[x0,x1],g(x)∈C0∞[x1,x2]f(x) \in C[x_0,x_1], g(x) \in C_0^{\infty}[x_1,x_2]f(x)∈C[x0,x1],g(x)∈C0∞[x1,x2]，其中C0∞C_0^{\infty}C0∞表示在边界上导数为0，中间无限次可导。如果有∫x1x2f(x)g(x)dx=0,∀y∈C0∞[x1,x2]\int_...

2018-09-21 00:03:50 3264

原创《强化学习Sutton》读书笔记（七）——列表法的计划与学习（Planning and Learning with Tabular Methods）

此为第八章 Planning and Learning with Tabular Methods 。在上述章节中，我们已经看到了DP是基于模型 (Model-Based) 的，而MC和TD是模型无关的 (Model-Free) 。基于模型的方法中，Planning（下文定义这个词）是最主要的一步；而对于模型无关的问题，Learning是最核心的步骤。Planning和Learning有很多异同...

2018-09-12 14:45:42 880 1

原创《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）

此为《强化学习》第七章 n-step Bootstrapping 。nnn步Bootstrapping是MC和TD(0)的综合。随着对参数nnn的调整，我们可以看到TD是如何过渡到MC的。而最佳的方法往往就是介于TD和MC之间。nnn步TD估计在上一章的TD(0)方法中，我们有 v(St)←v(St)+α(Gt−v(St))v(St)←v(St)+α(Gt−v(St))v(S_...

2018-09-07 19:13:47 1110

原创《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

此为《强化学习》第六章 Temporal-Difference Learning 。时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合，它可以像MC那样，不需要知道环境的全部信息，通过交互就能学习；同时，它也可以像DP那样，在（其他值函数）估计的基础上进行估计，从而不需要求解完整个事件(Episo...

2018-09-06 13:09:16 2149

原创《强化学习Sutton》读书笔记（四）——蒙特卡洛方法（Monte Carlo Methods）

此为《强化学习》第五章。上一节中的动态规划方法需要知道整个environment的信息，但有的时候，我们只有经验 (Experience) （比如一组采样），而对environment没有任何其他知识；或者我们有一个可以交互的黑盒，通过黑盒可以进行仿真得到experience，但具体黑盒内的概率模型也是不知道的（或者非常难以计算的）。这种情况下，动态规划方法不再适用，蒙特卡洛方法 (Monte...

2018-09-05 13:25:39 1967 2

原创《强化学习Sutton》读书笔记（三）——动态规划（Dynamic Programming）

2018-09-04 13:40:44 1619

原创《强化学习Sutton》读书笔记（二）——有限马尔科夫决策过程（Finite Markov Decision Processes）

此为《强化学习》第三章。用户-环境接口马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ，其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第ttt时刻，用户处于状态StStS_t，得到奖励RtRtR_t，在某个策略下选择了行为AtAtA_t，从而进...

2018-09-03 16:05:30 1420

原创《强化学习Sutton》读书笔记（一）——多臂赌博机（Multi-armed Bandits）

此为《强化学习》第二章。多臂赌博机问题描述问题描述略。理想状态下，如果我们可以知道做出行为aaa时得到的期望价值，那问题就结了，按期望选择最大的就好了。它的表达式为： q∗(a)≐E[Rt|At=a]q∗(a)≐E[Rt|At=a]q_*(a) \doteq \mathbb{E}[ R_t | A_t = a ]其中，选择行为aaa的理论期望价值q∗(a)q∗(a)q_*(a)...

2018-09-02 16:12:29 2203

原创《共轭梯度法》读书笔记（三）——共轭梯度法

共轭梯度法共轭方向法中，最大的问题在于寻找一组彼此独立的向量u1,...,unu1,...,unu_1,...,u_n，如果选取不当，那么和高斯消元法就没有区别了。共轭梯度法 (Conjugate Gradient)实际上是一种特殊的共轭方向法，它取ui=r(i)ui=r(i)u_i = r_{(i)}。首先为何残差是彼此独立的？首先，由于共轭方向法每次（A正交地）消除了一个维度上的误差，...

2018-09-01 15:47:27 5415

yucong96的博客