强化学习
韩绘锦
苟有恒何必三更灯火五更鸡,最无益莫过一日曝十日寒。
展开
-
chapter3
表格型方法这节课我们通过最简单的表格型的方法来讲解如何使用 value-based 方法去求解强化学习。SarsaMDP[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9nc3tXUz-1603978388061)(img/3.1.png)]**强化学习的三个重要的要素:状态、动作和奖励。**强化学习智能体跟环境是一步一步交互的,就是我先观察一下状态,然后再输入动作。再观察一下状态,再输出动作,拿到这些 reward 。它是一个跟时间相关的序列决策的问题。举个例子,原创 2020-10-29 21:33:27 · 214 阅读 · 0 评论 -
Reinforement Learning-chapter2
MDP[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dziiSPRZ-1603465708983)(img/2.1.png)]这节课我会给大家介绍马尔可夫决策过程。在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程。第二部分会介绍马尔可夫决策过程中的 policy evaluation,就是当给定一个决策过后,怎么去计算它的价值函数。第三部分会介绍马尔可夫决策过程的控制,具体原创 2020-10-23 23:09:14 · 211 阅读 · 0 评论 -
Reinforement Learning-chapter1
Reinforement LearningReinforcement Learning[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sG1oATCa-1603206541533)(img/1.1.png)]**强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。**示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。A原创 2020-10-20 23:09:38 · 744 阅读 · 1 评论