强化学习 6.1

第6章
时间差异学习

如果必须将一个想法确定为强化学习的核心和新颖,那么毫无疑问它将是时间差异(TD)学习。 TD学习是蒙特卡罗思想和动态规划(DP)思想的结合。与蒙特卡罗方法一样,TD方法可以直接从原始体验中学习,而无需环境动态模型。与DP一样,TD方法部分基于其他学习估计更新估计,而无需等待最终结果(它们是自举)。 TD,DP和蒙特卡罗方法之间的关系是强化学习理论中反复出现的主题;本章是我们探索它的开始。在我们做之前,我们将看到这些想法和方法相互融合,并且可以以多种方式组合。特别是,在第7章中,我们介绍了n步算法,它提供了从TD到蒙特卡罗方法的桥梁,在第12章中我们介绍了TD(λ)算法,它将它们无缝地统一起来。
像往常一样,我们首先关注政策评估或预测问题,即估算给定政策π的价值函数vπ的问题。对于控制问题(找到最优策略),DP,TD和蒙特卡罗方法都使用广义策略迭代(GPI)的一些变体。方法中的差异主要在于他们对预测问题的方法的差异。
6.1 TD预测
TD和蒙特卡罗方法都使用经验来解决预测问题。给出跟随策略π的一些经验,两种方法都更新了他们对该经验中发生的非终结状态St的vπ的估计V。粗略地说,蒙特卡罗方法一直等到访问后的返回已知,然后使用该返回作为V(St)的目标。适用于非平稳环境的简单的每次访问蒙特卡罗方法是
在这里插入图片描述
其中Gt是跟随时间t的实际回报,α是一个恒定的步长参数(c.f.,Equation 2.4)。 我们称这个方法为constant-αMC。 蒙特卡罗方法必须等到剧集结束才能确定V(St)的增量(只有Gt已知),TD方法只需要等到下一个时间步。 在时间t + 1,它们立即形成目标并使用观察到的奖励Rt + 1和估计V(St + 1)进行有用的更新。 最简单的TD方法进行更新
在这里插入图片描述
立即过渡到St + 1并接收Rt + 1。 在实际中,蒙特卡洛更新的目标是Gt,而TD更新的目标是Rt + 1 + γV(St + 1)。 这种TD方法称为TD(0)或one-step TD,因为它是第12章和第7章中开发的TD(λ)和n-step步TD方法的特例。下面的方框指定TD(0) 完全以程序的形式。
在这里插入图片描述
因为TD(0)部分基于现有估计进行更新,所以我们说它是一种自举方法,就像DP一样。 我们从第3章知道
在这里插入图片描述
粗略地说,蒙特卡罗方法使用(6.3)的估计作为目标,而DP方法使用(6.4)的估计作为目标。 蒙特卡洛目标是估计值,因为(6.3)中的预期值未知; 使用样本返回来代替实际预期收益。 DP目标是一个估计,不是因为预期值,假设完全由环境模型提供,但因为vπ(St + 1)未知且当前估计值为V(St + 1) 用来代替。 TD目标是两个原因的估计:它在(6.4)中对预期值进行采样,并使用当前估计值V而不是真实vπ。 因此,TD方法将蒙特卡罗的采样与DP的自举相结合。 正如我们将要看到的那样,通过谨慎和想象,这将使我们在获得蒙特卡罗和DP方法的优势方面走得很远。在这里插入图片描述
右侧是表格TD(0)的备份图。备份图顶部的状态节点的值估计基于从其到紧随着状态的一个样本转换而更新。我们将TD和蒙特卡洛更新称为样本更新,因为它们涉及展望样本后继状态(或状态 - 动作对),使用后续值和计算备份值的奖励,以及然后相应地更新原始状态(或状态 - 动作对)的值。样本更新不同于DP方法的预期更新,因为它们基于单个样本后继,而不是基于所有可能后继的完整分布。
最后,请注意TD(0)更新中括号中的数量是一种误差,测量St的估计值与更好的估计值Rt + 1 + γV(St + 1)之间的差异。这个数量称为TD误差,在整个强化学习过程中以各种形式出现:
在这里插入图片描述
请注意,每次TD误差都是当时估算的误差。 因为TD误差取决于下一个状态和下一个奖励,所以直到一个步骤之后才实际可用。 也就是说,(δt是V(St)中的错误,在时间t + 1可用。另请注意,如果阵列V在剧集期间没有变化(因为它不是蒙特卡罗方法),那么蒙特卡罗误差可以写成TD误差的总和:
在这里插入图片描述
如果在剧集期间更新V(当它在TD(0)中是),则此身份不准确,但如果步长很小,那么它可能仍然保持近似。 这种身份的概括在时间差异学习的理论和算法中起着重要作用。
练习6.1如果V在剧集中发生变化,那么(6.6)只能保持近似; 双方之间的差异是什么? 设Vt表示在TD错误(6.5)和TD更新(6.2)中在时间t使用的状态值阵列。 重做上面的推导以确定必须添加到TD错误总和的额外量,以便等于蒙特卡罗误差。
示例6.1:开车回家 每天下班回家时,您都会尝试预测回家需要多长时间。当您离开办公室时,您会记下时间,星期几,天气以及其他可能相关的内容。说这个星期五你正好在6点钟离开,你估计要回家需要30分钟。当你到达你的车是6:05,你注意到它开始下雨。在雨中交通通常较慢,所以你重新估计从那时起需要35分钟,或总共40分钟。十五分钟后,您及时完成了旅程的高速公路部分。当您退出二级道路时,您将总旅行时间的估计值减少到35分钟。不幸的是,此时你被困在一辆慢卡车后面,而且道路太窄而无法通过。你最终不得不跟随卡车,直到你6:40到达住的小街。三分钟后你就回家了。
因此,状态,时间和预测的顺序如下:
在这里插入图片描述
这个例子中的rewards是旅程每一段的经过时间。我们不打折(γ= 1),因此每个状态的return是从该州开始的实际时间。每个州的价值是预期的时间。第二列数字给出了遇到的每个状态的当前估计值。
查看蒙特卡罗方法操作的一种简单方法是绘制序列上预测的总时间(最后一列),如图6.1(左)所示。红色箭头表示constant-α MC方法(6.1)推荐的预测变化,α= 1.这些正是每个状态的估计值(预测的行走时间)与实际return(实际时间)之间的误差。例如,当你离开高速公路时,你认为回家仅需15分钟,但实际上需要23分钟。公式6.1适用于此点,并确定退出公路后的估计时间的增量。误差,Gt-V(St),此时为8分钟。假设步长参数α为1/2。然后,由于这种经验,退出高速公路后的预计时间将向上修改四分钟。在这种情况下,这可能是一个太大的变化;卡车可能只是一个不幸的休息。无论如何,只有在你到家之后才能进行变更。只有在这一点上你才知道任何实际的回报。
在学习开始之前,是否有必要等到最终结果已知?假设在另一天你再次估计离开办公室时需要30分钟才能开车回家,但是你会陷入大规模的交通拥堵状态。离开办公室二十五分钟后,你仍然可以在高速公路上碰碰保险杠。你现在估计还需要25分钟才能回家,共计50分钟。当你在交通中等待时,你已经知道你30分钟的初步估计太乐观了。你必须等到回家才增加对初始状态的估计吗?根据蒙特卡罗的方法,你必须,因为你还不知道真正的回报。
在这里插入图片描述
图6.1:通过蒙特卡罗方法(左)和TD方法(右)在驾驶家庭示例中推荐的变化。
另一方面,根据TD方法,您可以立即学习,将初始估计值从30分钟转移到50分。事实上,每个估计值都会转移到紧随其后的估计值。回到驾驶的第一天,图6.1(右)显示了TD规则(6.2)推荐的预测变化(如果α= 1,这些是规则所做的更改)。每个误差与预测随时间的变化成比例,即与预测中的时间差异成比例。
除了在等待交通时给你一些事情,有几个计算原因,为什么根据你当前的预测学习是有利的,而不是等到你知道实际回报时终止。我们将在下一节简要讨论其中的一些内容。
练习6.2 这是一个练习,以帮助您发展直觉,了解为什么TD方法通常比蒙特卡罗方法更有效。考虑驾驶家庭示例以及如何通过TD和蒙特卡罗方法解决它。你能想象一个TD更新平均比蒙特卡罗更新更好的情景吗?举一个示例场景 - 过去经验和当前状态的描述 - 您期望TD更新更好。这里有一个提示:假设你有很多下班回家的经验。然后你搬到一个新的建筑物和一个新的停车场(但你仍然在同一个地方进入高速公路)。现在您开始学习新建筑的预测。在这种情况下,你能看出为什么TD更新可能会好得多,至少最初是这样吗?可能在原始场景中发生同样的事情?
6.2 TD预测方法的优点
TD方法部分基于其他估计更新其估计。他们通过猜测来学习猜测 - 他们引导。这是一件好事吗? TD方法与蒙特卡罗和DP方法相比有哪些优势?开发和回答这些问题将涉及本书的其余部分以及更多内容。在本节中,我们简要地预测一些答案。
显然,TD方法比DP方法具有优势,因为它们不需要关于其奖励和下一状态概率分布环境模型。
TD方法相对于蒙特卡罗方法的另一个最明显的优势是它们自然地以在线,完全递增的方式实现。使用蒙特卡罗方法,必须等到一集的结束,因为只有这样才能知道返回,而使用TD方法,只需要等待一个时间步。令人惊讶的是,这通常是一个重要的考虑因素。一些应用程序有很长的剧集,所以延迟所有学习直到剧集结束太慢。其他应用程序是持续的任务,根本没有剧集。最后,正如我们在前一章中所提到的,一些蒙特卡罗方法必须忽略或折扣采取实验行动的事件,这可能会大大减慢学习速度。 TD方法不太容易受到这些问题的影响,因为无论采取何种后续行动,它们都会从每次转变中学习。
但TD方法听起来有效吗?当然,从下一个学习一个猜测是方便的,而不是等待实际的结果,但我们仍然可以保证收敛到正确的答案吗?令人高兴的是,答案是肯定的。对于任何固定策略π,已证明TD(0)收敛到vπ,如果它足够小,则表示恒定步长参数,如果步长参数按照惯例减小,则概率为1随机近似条件(2.7)。大多数收敛证明仅适用于上面(6.2)所述算法的基于表格的情况,但是一些也适用于一般线性函数逼近的情况。这些结果将在第9章的更一般性设置中讨论。
如果TD和蒙特卡罗方法渐近地收敛到正确的预测,那么一个自然的下一个问题是“哪个首先到达那里?”换句话说,哪种方法学得更快? 哪能更有效地利用有限的数据? 目前,这是一个悬而未决的问题,即没有人能够在数学上证明一种方法比另一种方法收敛得更快。 事实上,甚至不清楚说出这个问题的最恰当的正式方式是什么! 然而,在实践中,通常发现TD方法比constant-α MC方法在随机任务上收敛得更快,如例6.2所示。
例6.2随机游走
在这个例子中,我们在应用于以下马尔可夫奖励过程时,凭经验比较TD(0)和constant-α MC的预测能力:
在这里插入图片描述
马尔可夫奖励过程(MRP)是没有行动的马尔可夫决策过程。 我们经常在关注预测问题时使用MRP,其中不需要将由于环境引起的动态与由于代理引起的动态区分开来。 在该MRP中,所有剧集以中心状态C开始,然后以相同的概率在每一步上以左或右一个状态前进。 剧集终止于最左侧或最右侧。 当一集在右边终止时,会产生+1的奖励; 所有其他奖励都是零。 例如,典型的剧集可能包含以下状态和奖励序列:C,0,B,0,C,0,D,0,E,1。因为此任务是未折扣的,所以每个状态的真实值是从该状态开始在右侧终止的概率。 因此,中心状态的真值是vπ(C)= 0.5。 所有状态A到E的真实值分别为1/6,2/6,3/6,4/6和5/6。
在这里插入图片描述
上面的左图显示了在TD(0)的单次运行中在不同数量的剧集之后学习的值。 100集之后的估计值与它们达到真实值的时间差不多 - 具有恒定的步长参数(在此示例中α= 0.1),这些值随着最近一集的结果而无限地波动。 右图显示了两种方法对于各种α值的学习曲线。 显示的性能度量是学习的值函数和真值函数之间的均方根(RMS)误差,在五个状态上取平均值,然后平均超过100次运行。 在所有情况下,对于所有s,近似值函数被初始化为中间值V(s)= 0.5。 在这项任务中,TD方法始终优于MC方法。
练习6.3从随机游走示例的左图中显示的结果看来,第一集仅导致V(A)的变化。这告诉你第一集发生了什么?为什么只有这一状态的估计值发生了变化?确切地说它改变了多少?
练习6.4随机游走示例右图中显示的特定结果取决于步长参数value的值。如果使用更广泛的α值,您认为关于哪种算法更好的结论是否会受到影响?是否存在不同的固定值α,其中任何一种算法的表现都要比显示的好得多?为什么或者为什么不?
练习6.5在随机游走示例的右图中,TD方法的RMS误差似乎下降然后再上升,特别是在高α时。可能是什么导致了这个?你认为这总是会发生,或者它可能是近似值函数初始化的函数吗?
练习6.6在例6.2中,我们指出随机游走示例的真实值是1/6,2/6,3/6,4/6和5/6,对于状态A到E.描述至少两种可以计算这些的不同方式。您认为我们实际使用哪个?为什么?

6.3 TD(0)的最优性
假设只有有限的经验,比如10集或100个时间步。在这种情况下,使用增量学习方法的常见方法是重复呈现经验,直到该方法收敛于答案。给定近似值函数V,对于访问非终结状态的每个时间步长t计算由(6.1)或(6.2)指定的增量,但是值函数仅通过所有增量的总和改变一次。然后,使用新的值函数再次处理所有可用的经验,以产生新的整体增量,依此类推,直到值函数收敛。我们将此批次称为更新,因为只有在处理完每批完整的培训数据后才会进行更新。
在批量更新下,只要选择α足够小,TD(0)就会确定性地收敛到与步长参数α无关的单个答案。constant-α MC方法也在相同条件下确定性地收敛,但是产生不同的答案。理解这两个答案将有助于我们理解两种方法之间的差异。在正常更新下,方法不会一直移动到各自的批次答案,但在某种意义上,他们会在这些方向上采取措施。
在尝试理解一般的两个答案之前,对于所有可能的任务,我们首先看一些例子。
例6.3:批量更新下的随机游走 TD(0)和constant-α MC的批量更新版本如下应用于随机游走预测示例(例6.2)。在每一集新剧集之后,到目前为止所见的所有剧集都被视为一批。它们被重复地呈现给算法,TD(0)或constant-α MC,其中α足够小以使值函数收敛。然后将得到的值函数与vπ进行比较,绘制五个状态(以及整个实验的100次独立重复)的平均均方根误差,得到图6.2所示的学习曲线。请注意,批量TD方法始终比批量蒙特卡罗方法更好。
在这里插入图片描述
图6.2:随机游走任务批量训练下TD(0)和constant-α MC的性能。
在批量训练下,constant-α MC收敛到值V(s),这是在访问每个状态s之后经历的实际回报的样本平均值。 这些是最佳估计,因为它们最小化了训练集中实际回报的均方误差。 从这个意义上来说,令人惊讶的是,批量TD方法能够根据右图所示的根均值误差测量值更好地执行。 批量TD如何能够比这种最佳方法表现更好? 答案是蒙特卡罗方法仅以有限的方式是最优的,并且TD以与预测回报更相关的方式是最优的。
例6.4:你是预测者现在自己扮演未知马尔可夫奖励过程的回报预测者的角色。 假设你观察了以下八集:
在这里插入图片描述
这意味着第一集在状态A开始,转换为B,奖励为0,然后从B终止,奖励为0.其他七集甚至更短,从B开始并立即终止。鉴于这批数据,您认为最佳预测是什么,估计V(A)和V(B)的最佳值?每个人都可能同意V(B)的最佳值是3/4,因为在状态B的八次中有六次,过程立即终止,返回1,而另外两次在B中,过程立即终止并返回0。在这里插入图片描述
但是,根据这些数据,估算V(A)的最佳值是多少?这里有两个合理的答案。一个是观察到过程处于状态A的100%时间它立即到达B(奖励为0);因为我们已经确定B的值为3/4,所以A的值也必须为3/4。
查看这个答案的一种方法是它首先建模马尔可夫过程,在这种情况下如右图所示,然后计算给定模型的正确估计,在这种情况下确实给出V(A)= 3/4。这也是批量TD(0)给出的答案。
另一个合理的答案就是观察我们已经看过A一次,其后的回报是0;因此,我们估计V(A)为0.这是批量蒙特卡罗方法给出的答案。请注意,它也是给出训练数据最小平方误差的答案。实际上,它给数据带来零误差。但我们仍然希望第一个答案会更好。如果该过程是Markov,我们预计第一个答案将对未来数据产生较低的误差,即使蒙特卡罗对现有数据的回答更好。
实施例6.4说明了批次TD(0)和批量蒙特卡罗方法发现的估计值之间的一般差异。批量蒙特卡罗方法总是找到最小化训练集上的均方误差的估计,而批处理TD(0)总是找到对马尔可夫过程的最大似然模型完全正确的估计。通常,参数的最大似然估计是其生成数据的概率最大的参数值。在这种情况下,最大似然估计是从观察到的事件中以明显方式形成的马尔可夫过程的模型:从i到j的估计转移概率是从i到j的观察到的转变的分数,以及相关联的预期奖励是在这些转变中观察到的奖励的平均值。给定此模型,如果模型完全正确,我们可以计算值函数的估计值,该估计值将完全正确。这被称为确定性等价估计,因为它等同于假设基础过程的估计是确定的而不是近似的。通常,批次TD(0)收敛于确定性等价估计。
这有助于解释为什么TD方法比蒙特卡罗方法更快收敛。在批处理形式中,TD(0)比蒙特卡罗方法更快,因为它计算真实的确定性等价估计。这解释了随机游走任务中批处理结果中显示的TD(0)的优势(图6.2)。与确定等效性估计的关系也可以部分地解释非批量TD(0)的速度优势(例如,实施例6.2,第125页,右图)。尽管非批量方法没有达到确定性等效或最小平方误差估计,但它们可以被理解为大致在这些方向上移动。 Nonbatch TD(0)可能比constant-α MC更快,因为它正朝着更好的估计方向发展,即使它没有完全到达那里。目前,关于在线TD和蒙特卡罗方法的相对效率,没有更明确的说法。
最后,值得注意的是,尽管确定性等价估计在某种意义上是最优解,但直接计算它几乎是不可行的。如果n = | S |是状态的数量,然后仅形成过程的最大似然估计可能需要n2个存储器的量级,并且如果按常规方式完成,则计算相应的值函数需要n3个计算步骤的量级。在这些术语中,确实令人惊讶的是TD方法可以使用不超过n阶的存储器和训练集上的重复计算来近似相同的解。在具有大状态空间的任务中,TD方法可能是近似确定性等价解的唯一可行方法。
练习6.7设计TD(0)更新的off-policy版本,可以与任意目标策略π一起使用并覆盖行为策略b,在每个步骤t使用重要性采样率ρt:t(5.3)。
6.4 Sarsa:on-policy TD控制
我们现在转向使用TD预测方法来控制问题。 像往常一样,我们遵循广义策略迭代(GPI)的模式,这次只使用TD方法进行评估或预测部分。 与蒙特卡罗方法一样,我们面临着进行勘探和开发贸易的需要,而且再次分为两大类:on-policy和off-policy。 在本节中,我们将介绍on-policy的TD控制方法。
第一步是学习动作值函数而不是状态值函数。 特别是,对于on-policy方法,我们必须估计当前行为政策的qπ(s,a)和所有状态和行动a。 这可以使用基本上与上述用于学习vπ的相同的TD方法来完成。 回想一下,一集由一系列状态和状态 - 动作对组成:
在这里插入图片描述
在上一节中,我们考虑了从州到州的转变,并学习了国家的价值观。 现在我们考虑从状态 - 动作对转换到状态 - 动作对,并学习状态 - 动作对的值。 这些案例在形式上是相同的:它们都是具有奖励过程的马尔可夫链。 确保TD(0)下状态值收敛的定理也适用于相应的动作值算法:
在这里插入图片描述
该更新在每次从非终结状态St转换之后完成。如果St + 1是终端,则Q(St + 1,At + 1)被定义为零。此规则使用五元组事件的每个元素(St,At,Rt + 1,St + 1,At + 1),它们构成从一个状态 - 动作对到下一个状态 - 动作对的转换。这个五元组产生了算法的名称Sarsa。 Sarsa的备份图如右图所示。在这里插入图片描述
可以直接设计基于Sarsa预测方法的on-policy控制算法。正如在所有on-policy方法中一样,我们不断估计行为政策π的qπ,同时将π改为qπ的贪婪。 Sarsa控制算法的一般形式在下一页的框中给出。
Sarsa算法的收敛属性取决于策略对Q的依赖性。例如,可以使用ε-greedy或ε-soft策略。只要所有状态 - 动作对被无限次访问并且策略收敛于贪婪策略的限制(例如,可以安排),Sarsa就以概率1收敛到最优策略和动作 - 值函数。 ε-greedy政策通过设置ε= 1 / t。
练习6.8 显示(6.6)的动作值版本适用于TD误差δt = Rt + 1 + γQ(St + 1,At + 1)-Q(St,At)的动作值形式,再次假设值不会逐步变化。
在这里插入图片描述
例6.5:Windy Gridworld 下面的插图是一个标准的网格世界,有开始和目标状态,但有一个差异:在网格中间有一个向上运行的侧风。这些动作是标准的四上,下,右和左 - 但在中间区域,结果的下一个状态向上移动一个“风”,其强度因列而异。在每列下方给出风的强度,向上移动的细胞数量。例如,如果您是目标右侧的一个单元格,则左侧的操作会将您带到目标上方的单元格。这是一个无折扣的情节任务,持续奖励-1,直到达到目标状态。
右边的图表显示了将ε-greedy Sarsa应用于此任务的结果,其中ε= 0.1,α= 0.5,并且所有s,a的初始值Q(s,a)= 0。图表的斜率增加表明目标随着时间的推移更快地达到。通过8000个时间步骤,贪婪的政策长期以来是最优的(从中显示出来的轨迹);继续ε-greedy探索将平均情节长度保持在17步左右,比最低值15更多。请注意,蒙特卡罗方法在这里不能轻易使用,因为所有政策都不能保证终止。如果发现某项政策导致代理人保持同一状态,然后下一集永远不会结束。像Sarsa这样的在线学习方法没有这个问题,因为他们在这一集中很快就会知道这些政策很差,并转而采用其他方法。在这里插入图片描述
练习6.9:带有King’s Moves的Windy Gridworld(编程)重新解决有风的网格世界,假设有八种可能的动作,包括对角线移动,而不是通常的四种动作。额外行动你能做得多好多少?除了由风引起的第九次动作之外,你能做到更好吗?
练习6.10:随机风(编程)用King的移动重新解决有风的网格世界任务,假设风的效果(如果有的话)是随机的,有时从每列给出的平均值变化1。也就是说,你完全按照这些值移动的时间的三分之一,如上一个练习中所示,但也有三分之一的时间将一个单元格移动到该单元格之上,另外三分之一的时间移动一个单元格。例如,如果你是目标右侧的一个单元格并向左移动,那么三分之一的时间将一个单元格移动到目标上方,三分之一的时间将两个单元格移动到目标上方, - 第三次你移动到目标。
6.5 Q-learning:Off-策略TD控制
强化学习的早期突破之一是开发了一种名为Q-learning(Watkins,1989)的off-policy TD控制算法,由下式定义
在这里插入图片描述
在这种情况下,学习的动作 - 值函数Q直接近似q*,即最佳动作 - 值函数,与所遵循的策略无关。 这极大地简化了算法的分析并实现了早期的收敛证明。 该策略仍然具有一个效果,即它确定访问和更新哪些状态 - 动作对。但是,正确收敛所需的只是所有对继续更新。 正如我们在第5章中所观察到的那样,这是一个最小要求,因为在一般情况下保证找到最佳行为的任何方法都必须要求它。
在该假设和步长参数序列的通常随机近似条件的变体下,Q已经显示出以概率1到q*收敛。 Q学习算法以程序形式显示如下。
在这里插入图片描述
Q学习的备份图是什么?规则(6.8)更新状态 - 动作对,因此顶级节点(更新的根)必须是一个小的,填充的动作节点。更新也来自动作节点,最大化在下一个状态下可能执行的所有操作。因此,备份图的底部节点应该是所有这些动作节点。最后,请记住,我们指出将这些“下一个动作”节点的最大值放在它们之间(图3.4-右)。你能猜出现在的图表是什么吗?如果是这样,请在转到第134页的图6.4中的答案之前进行猜测。
例6.6:Cliff行走 这个网格世界的例子比较了Sarsa和Q-learning,强调了on-policy(Sarsa)和off-policy(Q-learning)方法之间的差异。考虑右边显示的gridworld。这是一个标准的未折扣的,偶然的任务,具有开始和目标状态,以及导致向上,向下,向右和向左移动的常见操作。所有过渡的奖励均为-1,除了那些标记为“TheCliff”的区域。步入此区域会产生-100的奖励并立即将代理发送回开始。
右边的图表显示了Sarsa和Qlearning方法的性能,其中ε= 0.1。在初始瞬态之后,Q学习学习最优策略的值,该策略沿着cliff的边缘传播。不幸的是,由于ε-greedy动作选择,这导致它偶尔会下降。另一方面,Sarsa将动作选择考虑在内,并学习通过网格上部的更长但更安全的路径。虽然Q学习实际上学习了最优政策的价值,但其在线表现比学习迂回政策的Sarsa差。当然,如果ε逐渐减少,那么两种方法都会渐近地收敛到最优政策。在这里插入图片描述
练习6.11 为什么Q学习被认为是一种策略控制方法?
练习6.12假设动作选择贪婪。 Q-learning与Sarsa的算法完全相同吗?他们会做出完全相同的动作选择和重量更新吗?

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值