读书笔记
文章平均质量分 96
yucong96
这个作者很懒,什么都没留下…
展开
-
Frank Luna DirectX12阅读笔记:绘制的不同主题(第十五章-第二十三章)
第十五章 第一人称摄像机和动态索引摄像机部分略15.5 动态索引之前,每个render item都需要传一个材质和一个纹理(保存在每个item的constant buffer中),如果场景中有大量物体,使用了同样的材质和纹理,那么每次渲染重新传,是比较耗时的。动态索引指在一次draw call时就上传所有的材质和纹理,而每个render item的 constant buffer只需要记录一个材质ID和纹理ID,则就能节省很多时间,具体策略如下:构建一个structured buffer,来存储原创 2021-04-28 19:17:16 · 463 阅读 · 0 评论 -
Frank Luna DirectX12阅读笔记:初始化与基本绘制(第四章-第七章)
资源www.d3dcoder.netwww.merclearning.com第四章 Direct3D初始化4.1 预备知识4.1.1 Direct3D 12 总述更底层更少抽象更接近GPU架构大大降低CPU开销提升多线程支持4.1.2 COM(Component Object Model)从COM接口中得到COM对象,而不需要使用C++的new释放COM对象需调用COM对象的Release方法,而不需要使用deleteWRL(Windows Runtime Library)原创 2021-04-26 15:47:07 · 742 阅读 · 0 评论 -
Frank Luna DirectX12阅读笔记:绘制进阶(第八章-第十四章)
目录第八章 光照8.1 光和材质的交互8.2 法向8.3 光照中其他重要的向量8.4 Lambert余弦定律8.5 散射光(diffuse lighting)8.6 环境光(ambient lighting)8.7 镜面光(specular lighting)8.7.1 Fresnel效应8.7.2 粗糙度8.8 光照模型8.9 材质的实现8.10 平行光源8.11 点光源8.12 聚光源8.13 光照的实现8.14 Demo第九章 纹理9.1 复习纹理和资源9.2 纹理坐标9.3 纹理数据来源9.4 创建原创 2021-04-28 19:13:32 · 641 阅读 · 0 评论 -
集异璧摘录:pq系统-加法-乘法-合数-素数
加法公理:x-qxp-规则:xqypz →\rightarrow→ x-qypz-解释:q为equal,p为plus,公理表示(x+1)=x+1,规则表示如果x=y+z,则(x+1)=y+(z+1)乘法公理:xqxt-规则:xqytz →\rightarrow→ xyqytz-解释:q为equal,t为times合数公理:xqxt-规则1:xqytz →\rightarrow→...原创 2019-05-18 22:12:48 · 662 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(七)——列表法的计划与学习(Planning and Learning with Tabular Methods)
此为第八章 Planning and Learning with Tabular Methods 。在上述章节中,我们已经看到了DP是基于模型 (Model-Based) 的,而MC和TD是模型无关的 (Model-Free) 。基于模型的方法中,Planning(下文定义这个词)是最主要的一步;而对于模型无关的问题,Learning是最核心的步骤。Planning和Learning有很多异同...原创 2018-09-12 14:45:42 · 902 阅读 · 1 评论 -
《强化学习Sutton》读书笔记(五)——时序差分学习(Temporal-Difference Learning)
此为《强化学习》第六章 Temporal-Difference Learning 。时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合,它可以像MC那样,不需要知道环境的全部信息,通过交互就能学习;同时,它也可以像DP那样,在(其他值函数)估计的基础上进行估计,从而不需要求解完整个事件(Episo...原创 2018-09-06 13:09:16 · 2188 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(二)——有限马尔科夫决策过程(Finite Markov Decision Processes)
此为《强化学习》第三章。用户-环境接口马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ,其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第ttt时刻,用户处于状态StStS_t,得到奖励RtRtR_t,在某个策略下选择了行为AtAtA_t,从而进...原创 2018-09-03 16:05:30 · 1441 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(四)——蒙特卡洛方法(Monte Carlo Methods)
此为《强化学习》第五章。上一节中的动态规划方法需要知道整个environment的信息,但有的时候,我们只有经验 (Experience) (比如一组采样),而对environment没有任何其他知识;或者我们有一个可以交互的黑盒,通过黑盒可以进行仿真得到experience,但具体黑盒内的概率模型也是不知道的(或者非常难以计算的)。这种情况下,动态规划方法不再适用,蒙特卡洛方法 (Monte...原创 2018-09-05 13:25:39 · 1981 阅读 · 2 评论 -
《强化学习Sutton》读书笔记(一)——多臂赌博机(Multi-armed Bandits)
此为《强化学习》第二章。多臂赌博机问题描述问题描述略。理想状态下,如果我们可以知道做出行为aaa时得到的期望价值,那问题就结了,按期望选择最大的就好了。它的表达式为: q∗(a)≐E[Rt|At=a]q∗(a)≐E[Rt|At=a]q_*(a) \doteq \mathbb{E}[ R_t | A_t = a ]其中,选择行为aaa的理论期望价值q∗(a)q∗(a)q_*(a)...原创 2018-09-02 16:12:29 · 2217 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(六)——n步Bootstrapping(n-step Bootstrapping)
此为《强化学习》第七章 n-step Bootstrapping 。nnn步Bootstrapping是MC和TD(0)的综合。随着对参数nnn的调整,我们可以看到TD是如何过渡到MC的。而最佳的方法往往就是介于TD和MC之间。nnn步TD估计在上一章的TD(0)方法中,我们有 v(St)←v(St)+α(Gt−v(St))v(St)←v(St)+α(Gt−v(St))v(S_...原创 2018-09-07 19:13:47 · 1133 阅读 · 0 评论 -
《强化学习Sutton》读书笔记(三)——动态规划(Dynamic Programming)
此为《强化学习》第四章。策略评估策略评估 (Policy Evaluation) 首先考虑已知策略π(a|s)π(a|s)\pi(a|s),求解vπ(s)vπ(s)v_\pi(s)。根据上一节中状态值函数的Bellman等式,有 vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(s′)]vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(...原创 2018-09-04 13:40:44 · 1654 阅读 · 0 评论