强化学习
呜哇呜哇shhh
这个作者很懒,什么都没留下…
展开
-
强化学习5.1
第5章 蒙特卡罗方法在本章中,我们将考虑我们用第一种学习方法来估计价值函数并发现最佳策略。与前一章不同,这里我们不假设对环境的完整了解。蒙特卡罗方法只需要经验——来自与环境的实际或模拟交互的状态,动作和奖励的样本序列。从实际经验中学习是非常引人注目的,因为它不需要事先了解环境的动态,但仍然可以获得最佳的行为。从模拟经验学习也很强大。虽然需要模型,但模型只需要生成样本转换,而不是动态编程(DP)所...翻译 2019-02-28 00:58:46 · 377 阅读 · 0 评论 -
强化学习 5.2
虽然我们对二十一点任务中的环境有完整的了解,但使用DP方法计算值函数并不容易。 DP方法需要分发下一个事件——特别是它们需要由四参数函数p给出的环境动态——而且并不容易确定。例如,假设玩家的总和是14,他选择坚持。作为经销商出示卡片的函数,他以+1的奖励终止的概率是多少?必须在应用DP之前计算所有概率,并且这种计算通常很复杂且容易出错。相反,蒙特卡罗方法所需的生成样本游戏很简单。经常出现这种情况;...翻译 2019-03-01 00:39:29 · 331 阅读 · 0 评论 -
强化学习 5.4
5.4没有探索开始的蒙特卡罗控制我们如何避免探索开始的不太可能的假设?确保无限选择所有操作唯一的一般方式是代理继续选择他们。有两种方法可以确保这一点,从而产生我们所谓的on-policy方法和off-policy方法。On-policy方法试图评估或改进用于制定决策的政策,而off-policy方法则用于评估或改进与用于生成数据的政策不同的政策。上面开发的蒙特卡罗ES方法是一个on-policy...翻译 2019-03-02 00:46:19 · 772 阅读 · 0 评论 -
强化学习 8.1
第8章用计算机方法进行规划和学习在本章中,我们开发了强化学习方法的统一视图,这些方法需要环境模型,例如动态规划和启发式搜索,以及可以在没有模型的情况下使用的方法,例如蒙特卡罗和时间差分方法。这些分别称为基于模型和无模型的强化学习方法。基于模型的方法依赖于计划作为其主要组成部分,而无模型方法主要依赖于学习。虽然这两种方法之间存在着真正的差异,但也存在很大的相似之处。特别是,这两种方法的核心是价值...翻译 2019-03-06 00:39:52 · 786 阅读 · 0 评论 -
强化学习 6.1
第6章时间差异学习如果必须将一个想法确定为强化学习的核心和新颖,那么毫无疑问它将是时间差异(TD)学习。 TD学习是蒙特卡罗思想和动态规划(DP)思想的结合。与蒙特卡罗方法一样,TD方法可以直接从原始体验中学习,而无需环境动态模型。与DP一样,TD方法部分基于其他学习估计更新估计,而无需等待最终结果(它们是自举)。 TD,DP和蒙特卡罗方法之间的关系是强化学习理论中反复出现的主题;本章是我们探...翻译 2019-03-03 00:24:41 · 1197 阅读 · 0 评论 -
强化学习8.10
8.10推出算法推出算法是基于应用于模拟轨迹的蒙特卡罗控制的决策时间规划算法,所有模拟轨迹都在当前环境状态下开始。他们通过平均从每个可能的行动开始的许多模拟轨迹的返回值然后遵循给定的策略来估计给定策略的行动值。当动作值估计被认为足够准确时,执行具有最高估计值的动作(或动作之一),之后从所得到的下一状态重新执行该过程。正如Tesauro和Galperin(1997)所解释的那样,他们尝试使用推出算...翻译 2019-03-06 16:40:46 · 289 阅读 · 0 评论 -
强化学习6.6
6.6预期的Sarsa考虑与Q学习一样的学习算法,除了考虑到当前策略下每个动作的可能性,它使用预期值而不是最大化下一个状态 - 动作对。 也就是说,考虑具有更新规则的算法但这遵循Q学习的模式。 给定下一个状态St + 1,该算法在确定性方向上与Sarsa在移位中移动的方向相同,因此称为Erpected Sarsa。 其备份图如图6.4右侧所示。图6.3:作为α的函数的TD控制方法对于cl...翻译 2019-03-04 08:41:02 · 465 阅读 · 0 评论 -
强化学习 第7章
第七章n-step引导在本章中,我们统一了蒙特卡罗(MC)方法和前两章中介绍的one-step临时(TD)方法。 MC方法和one-step TD方法都不是最好的。在本章中,我们将介绍n-step TD方法,这个方法概括了两种方法,以便可以根据需要平滑地从一种方法转换到另一种方法,以满足特定任务的需求。n-step方法在一端采用MC方法,在另一端采用one-step TD方法。最好的方法通常...翻译 2019-03-04 19:37:56 · 696 阅读 · 0 评论