强化学习理论
文章平均质量分 93
本专栏力求尽可能还原David Silver的视频演讲,力求用通俗的语言、丰富的示例讲解来深入浅出的解释强化学习中的各种概念算法。作为强化学习入门的重要材料,希望大家共同学习!
xyk_hust
大家好,欢迎访问我的博客,我是小编似冷非寒,我来自华中科技大学机械学院,喜欢研究机器学习、强化学习、深度学习领域。我的信仰是:从零到精通,与天赋无关,全靠汗水成就。相信不断奋斗的你,终有一天会成为别人眼中的大神...加油吧!少年...
展开
-
David Silver《强化学习RL》第九讲 探索与利用
本讲系统的介绍了在强化学习领域如何有效的进行探索,给出了几类探索算法,通过引入后悔值,借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性,随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。本讲的一些算法在之前的讲解中或多或少有所涉及,本章偏重于从一些统计理论角度出发给出一些探索方法的有效性证明。 简介 Introduction探索和...原创 2019-01-30 16:57:30 · 2070 阅读 · 0 评论 -
David Silver《强化学习RL》第八讲 整合学习与规划
本课程之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助。本讲即关注这两个问题。通过构建一个模型,个体具备了一定程度的独立思考能力,即在与环境发生实际交互之前思考各种可能的行为其对能带给环境及自身的改变。通过个体的思考以及联合其与环境的实际交互经验,个体在解决大规模MDP问题时可以取得更好的结果。本讲涉及的内容多属于宏观架构...原创 2019-01-27 17:41:29 · 502 阅读 · 0 评论 -
David Silver《强化学习RL》第七讲 策略梯度
前一讲主要讲解的是价值函数的近似,然后根据价值函数来制定策略。本讲中策略P(a|s)将从一个概率集合摇身变成函数本身π(s,a),通过借助策略相关的目标函数梯度的引导,寻找与目标函数的极值,进而得到最优策略。本讲组织架构如下:先提出价值函数在某些情况下不能很好的解决问题,同时直接基于策略的分析在某些场合具有价值函数不能替代的优点,接着引入了直接基于策略学习所需要的目标函数的设计,引入了策略梯度...原创 2019-01-20 14:43:45 · 1346 阅读 · 0 评论 -
David Silver《强化学习RL》第六讲 价值函数的近似表示
之前的内容都是讲解一些强化学习的基础理论,这些知识只能解决一些中小规模的问题,很多价值函数需要用一张大表来存储,获取某一状态或行为价值的时候通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解,而许多实际问题都是这些拥有大量状态和行为空间的问题,因此只掌握了前面5讲内容,是无法较好的解决实际问题的。本讲开始的内容就主要针对如何解决实际问题。本讲主...原创 2019-01-16 21:05:11 · 1370 阅读 · 0 评论 -
David Silver《强化学习RL》第五讲 不基于模型的控制
某种程度上来说,这个课程所有的内容最后都会集中于本讲内容,通过本讲的学习,我们将会学习到如何训练一个Agent,使其能够在完全未知的环境下较好地完成任务,得到尽可能多的奖励。本讲是基础理论部分的最后一讲,本讲以后的内容都是关于实际应用强化学习解决大规模问题的理论和技巧。本讲的技术核心主要基于先前一讲以及更早的一些内容,如果对先前的内容有深刻的理解,那么理解本讲内容将会比较容易。 简介 In...原创 2019-01-09 16:38:59 · 2516 阅读 · 6 评论 -
David Silver《强化学习RL》第四讲 不基于模型的预测
简介 Introduction通过先前的讲解,我们明白了如何从理论上解决一个已知的MDP:通过动态规划来评估一个给定的策略,并且得到最优价值函数,根据最优价值函数来确定最优策略;也可以直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。从本讲开始将花连续两讲的时间讨论解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题,也就是讲述如何直接从Agent与环境的交互来得得到一...原创 2019-01-06 16:15:27 · 601 阅读 · 0 评论 -
David Silver《强化学习RL》第三讲 动态规划寻找最优策略
本讲着重讲解了利用动态规划来进行强化学习,具体是进行强化学习中的“规划”,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数。本讲是整个强化学习课程核心内容的引子。简介 Introduction动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时...原创 2019-01-01 15:44:01 · 1692 阅读 · 0 评论 -
David Silver《强化学习RL》第二讲 马尔可夫决策过程
在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。 下面将从以下四个部分展开介绍:马尔科夫过程 Markov Process 马尔科夫奖励过程 Markov Reward Proces...原创 2018-11-29 10:46:38 · 1275 阅读 · 0 评论 -
David Silver《强化学习RL》第一讲 介绍
本讲是对于强化学习整体的一个简单介绍,描述了强化学习是什么,解决什么问题,大概用什么样的方式来解决问题。介绍了强化学习中常用的概念。这些概念非常重要,贯穿于整个强化学习始终,但是在这一讲,读者仅需对这些概念有个初步的印象。引子1. An Introduction to Reinforcement Learning, Sutton and Barto, 19982. Algorithms...原创 2018-11-25 16:51:39 · 853 阅读 · 0 评论