自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 应用数学课堂笔记(一)——欧拉方程

引理:设f(x)∈C[x0,x1],g(x)∈C0∞[x1,x2]f(x) \in C[x_0,x_1], g(x) \in C_0^{\infty}[x_1,x_2]f(x)∈C[x0​,x1​],g(x)∈C0∞​[x1​,x2​],其中C0∞C_0^{\infty}C0∞​表示在边界上导数为0,中间无限次可导。如果有∫x1x2f(x)g(x)dx=0,∀y∈C0∞[x1,x2]\int_...

2018-09-21 00:03:50 3264

原创 《强化学习Sutton》读书笔记(七)——列表法的计划与学习(Planning and Learning with Tabular Methods)

此为第八章 Planning and Learning with Tabular Methods 。在上述章节中,我们已经看到了DP是基于模型 (Model-Based) 的,而MC和TD是模型无关的 (Model-Free) 。基于模型的方法中,Planning(下文定义这个词)是最主要的一步;而对于模型无关的问题,Learning是最核心的步骤。Planning和Learning有很多异同...

2018-09-12 14:45:42 880 1

原创 《强化学习Sutton》读书笔记(六)——n步Bootstrapping(n-step Bootstrapping)

此为《强化学习》第七章 n-step Bootstrapping 。nnn步Bootstrapping是MC和TD(0)的综合。随着对参数nnn的调整,我们可以看到TD是如何过渡到MC的。而最佳的方法往往就是介于TD和MC之间。nnn步TD估计在上一章的TD(0)方法中,我们有 v(St)←v(St)+α(Gt−v(St))v(St)←v(St)+α(Gt−v(St))v(S_...

2018-09-07 19:13:47 1110

原创 《强化学习Sutton》读书笔记(五)——时序差分学习(Temporal-Difference Learning)

此为《强化学习》第六章 Temporal-Difference Learning 。时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合,它可以像MC那样,不需要知道环境的全部信息,通过交互就能学习;同时,它也可以像DP那样,在(其他值函数)估计的基础上进行估计,从而不需要求解完整个事件(Episo...

2018-09-06 13:09:16 2149

原创 《强化学习Sutton》读书笔记(四)——蒙特卡洛方法(Monte Carlo Methods)

此为《强化学习》第五章。上一节中的动态规划方法需要知道整个environment的信息,但有的时候,我们只有经验 (Experience) (比如一组采样),而对environment没有任何其他知识;或者我们有一个可以交互的黑盒,通过黑盒可以进行仿真得到experience,但具体黑盒内的概率模型也是不知道的(或者非常难以计算的)。这种情况下,动态规划方法不再适用,蒙特卡洛方法 (Monte...

2018-09-05 13:25:39 1967 2

原创 《强化学习Sutton》读书笔记(三)——动态规划(Dynamic Programming)

此为《强化学习》第四章。策略评估策略评估 (Policy Evaluation) 首先考虑已知策略π(a|s)π(a|s)\pi(a|s),求解vπ(s)vπ(s)v_\pi(s)。根据上一节中状态值函数的Bellman等式,有 vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(s′)]vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(...

2018-09-04 13:40:44 1619

原创 《强化学习Sutton》读书笔记(二)——有限马尔科夫决策过程(Finite Markov Decision Processes)

此为《强化学习》第三章。用户-环境接口马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ,其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第ttt时刻,用户处于状态StStS_t,得到奖励RtRtR_t,在某个策略下选择了行为AtAtA_t,从而进...

2018-09-03 16:05:30 1420

原创 《强化学习Sutton》读书笔记(一)——多臂赌博机(Multi-armed Bandits)

此为《强化学习》第二章。多臂赌博机问题描述问题描述略。理想状态下,如果我们可以知道做出行为aaa时得到的期望价值,那问题就结了,按期望选择最大的就好了。它的表达式为: q∗(a)≐E[Rt|At=a]q∗(a)≐E[Rt|At=a]q_*(a) \doteq \mathbb{E}[ R_t | A_t = a ]其中,选择行为aaa的理论期望价值q∗(a)q∗(a)q_*(a)...

2018-09-02 16:12:29 2203

原创 《共轭梯度法》读书笔记(三)——共轭梯度法

共轭梯度法共轭方向法中,最大的问题在于寻找一组彼此独立的向量u1,...,unu1,...,unu_1,...,u_n,如果选取不当,那么和高斯消元法就没有区别了。共轭梯度法 (Conjugate Gradient)实际上是一种特殊的共轭方向法,它取ui=r(i)ui=r(i)u_i = r_{(i)}。首先为何残差是彼此独立的?首先,由于共轭方向法每次(A正交地)消除了一个维度上的误差,...

2018-09-01 15:47:27 5415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除