强化学习
野风同学
https://readlecture.cn
ReadLecture是一款音视频转录、总结工具,方便长视频学习,提升效率。
展开
-
强化学习——蒙特卡洛方法
学习目标理解Prediction和Control的差别;理解什么是first-visit和every-visit;理解什么是on-policy和off-policy;理解蒙特卡洛方法的Prediction和Control问题;Prediction和Control其实这两个名词在总结动态规划方法的文章中也提到过了,但是没有细说,这里再简单的说明一下。预测(Prediction)和控制(Control)是MDP中的两类问题:预测问题输入:MDP ⟨S,A,P,R,γ⟩\langle\mat原创 2020-06-22 21:26:24 · 1917 阅读 · 0 评论 -
强化学习——MDPs求解之动态规划
学习目标理解策略评估(Policy Evaluation)和策略提升(Policy Improvement);理解策略迭代(Policy Iteration)算法;理解值迭代(Value Iteration)算法;理解策略迭代和值迭代的不同之处;动态规划方法的局限性;Python实现格子世界(Gridworld)策略迭代和值迭代。动态规划(Dynamic Programming, DP)是一种解决复杂问题的方法,它通过定义问题状态和状态之间的关系,将复杂问题拆分成若干较为简单的子问题,使得原创 2020-06-01 16:38:03 · 1336 阅读 · 2 评论 -
强化学习——马尔科夫决策过程和贝尔曼方程
学习目标Agent和Environment之间的交互过程;理解马尔科夫决策过程(Markov Decision Processes,MDPs)和如何解读转换图;理解值函数(Value Functions)、动作值函数(Action-Value Functions)和决策函数(Policy Functions)理解贝尔曼方程(Bellman Equations)和值函数或者动作值函数的贝尔曼最优方程。Agent与Environment的交互对于从交互过程中学习,最终达到目标的这原创 2020-06-01 16:35:44 · 1053 阅读 · 0 评论 -
强化学习——环境库OpenAI Gym
前言前段时间各大新闻媒体都在报道SpaceX的马斯克,因为其公司成功发射“猎鹰9号”火箭。马斯克是一个极具传奇色彩的人物,其成就也足以让他名垂青史。但今天我们要讨论的不是马斯克这个人,而是马斯克牵头建立的人工智能非营利组织OpenAI下一个强化学习工具库Gym,它可以被用来开发和比较强化学习算法。简单的说,gym就是提供了强化学习中与agent交互的environments,gym中的环境都留出了供我们设计算法的相应接口,这为我们节省了不少事。下面就来看看这个gym库里有哪些东西吧~安装要求Pyth原创 2020-05-31 10:46:11 · 1100 阅读 · 0 评论 -
强化学习——简介
前言我最先了解到强化学习还是看见论文中有使用强化学习算法去玩游戏,并且玩得比人类还好,之后AlphaGo系列的围棋机器人战胜世界高手也让我更进一步知道了强化学习的威力。本系列强化学习笔记将以DeepMind AlphaGo的主要研究人员David Silver《深度强化学习》视频公开课以及强化学习圣经——《Reinforcement Learning:An Introduction》(Second edition)的内容为主,并穿插介绍一些我学习过程中的实践案例。强化学习的范畴机器学习,深度学习大家都原创 2020-05-31 10:22:56 · 786 阅读 · 0 评论