强化学习 5.4

最新推荐文章于 2024-06-03 01:08:01 发布

呜哇呜哇shhh

最新推荐文章于 2024-06-03 01:08:01 发布

阅读量765

点赞数

分类专栏：强化学习文章标签：强化学习

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

5.4没有探索开始的蒙特卡罗控制
我们如何避免探索开始的不太可能的假设？确保无限选择所有操作唯一的一般方式是代理继续选择他们。有两种方法可以确保这一点，从而产生我们所谓的on-policy方法和off-policy方法。On-policy方法试图评估或改进用于制定决策的政策，而off-policy方法则用于评估或改进与用于生成数据的政策不同的政策。上面开发的蒙特卡罗ES方法是一个on-policy方法的例子。在本节中我们将展示如何不使用不切实际的探索开始的假设来设计一个on-policy蒙特卡罗控制方法。 off-policy方法将在下一节中讨论。
在on-policy控制方法中，策略通常是软的，意味着对于所有sϵS和所有aϵA(s)，π(a|s)> 0,但逐渐越来越接近确定性最优政策。第2章中讨论的许多方法都提供了这个机制。我们在本节中介绍的on-policy方法使用“ε-greedy policies”，意思是大部分时间他们选择具有最大估计动作值的动作，但有ε的可能性他们改为随机选择一个动作。也就是说，一切都是不合理的行动被赋予最小的选择概率，剩下的大部分概率，给予贪婪的行动。ε-greedy政策是ε-soft策略的示例，定义为对于所有状态和行动，对于一些ε> 0，π(a|s)的策略。在ε-soft政策中，ε-greedy政策在某种意义上是那些最接近贪婪的。
政策上蒙特卡罗控制的总体思路仍然是GPI。和蒙特Carlo ES一样，我们使用首次访问MC方法来估计动作值函数。然而，如果没有探索开始的假设，我们不能简单地通过使其对当前值函数贪婪来改进策略，因为这将阻止进一步探索非同步行为。幸运的是，GPI不要求政策一直采用贪婪的政策，只要它被移动走向贪婪的政策。在我们的on-policy方法中，我们只会将其移至ε-greedy政策。对于任何ε-soft政策，π，任何关于qπ的ε-greedy政策都保证优于或等于π。完整的算法在下面的框中给出。
在这里插入图片描述
任何关于qπ的ε-greedy政策都是对任何ε-soft政策π的改进，这由政策改进定理保证。让π’成为ε-greedy政策。政策改进定理的条件适用，因为对任何sϵS：

（总和是加权平均值，非负权重总和为1，因此它必须小于或等于最大平均数）

因此，通过政策改进定理，对于所有sϵS，π’≥π。现在我们证明，只有当π’和π在ε-soft策略中都是最优的时，才能使等式成立，即它们优于或等于所有其他“ε-soft策略”。
考虑一个与原始环境一样的新环境，除了要求政策ε-soft在环境中移动。新环境具有与初始相同的操作和状态，其行为如下。如果在状态s并采取行动a，然后以1-ε的概率新环境与旧环境行为相似。有概率ε它随机地重复动作，并且有相同概率，表现得像旧的环境与新的随机动作。在这个新环境中，最好的政策与人用ε-soft策略可以在原始环境中使用最好的政策相同。让v*_和q*表示新环境的最佳的值函数。然后当且仅当vπ= v*_{时，政策π是最佳的。从v*}的定义我们知道它是独特的解决方案
在这里插入图片描述
当等式成立并且ε-soft策略π不再改善时，我们也从（5.2）知道

除了vπ替换为v*~之外，该等式与前一个等式相同。因为v*~是唯一的解决方案，所以必须是vπ= v*~。
实质上，我们在最后几页中已经表明，策略迭代适用于ε-soft策略。使用贪婪政策的自然概念ε-soft策略，可以确信每一步都有所改进，除非在ε-soft策略中找到了最佳政策。该分析与如何在每个阶段确定动作 - 值函数无关，但它确实假设它们是精确计算的。这与上一节大致相同。现在我们只在ε-soft策略中实现了最好的政策，但另一方面，我们已经取消了探索开始这一假设。

5.5通过重要性抽样的off-policy预测
所有学习控制方法都面临两难选择：他们寻求有条件地对于后续的最佳行为学习行动价值，但他们需要表现得非最佳才能探索所有行动（寻找最佳行动）。他们怎样才能了解最优政策同时根据探索政策行事？前面部分的on-policy方法实际上是一种妥协 - 它学习的动作值不是最优的政策，但对于仍在探索的近乎最优的政策。一种更直接的方法是使用两个策略，一个是学习并且成为最优策略的策略，另一个更具探索性并用于产生行为。正在学习的政策被称为目标策略，用于生成行为的策略称为行为政策。在这种情况下，我们说学习来自目标政策 “off” 数据，整个过程被称为off-policy学习。
在本书的其余部分，我们将考虑on-policy和off-policy方法。on-policy方法通常更简单，首先考虑。off-policy方法需要额外的概念和符号，因为数据是由于不同的政策，off-policy方法通常具有更大的方差，并且收敛速度较慢。另一方面，off-policy方法更强大，更通用。它们包括on-policy方法作为目标和行为政策相同的特殊情况。 off-policy方法在应用程序中也有各种其他用途。例如，他们通常用于学习由传统非学习控制器生成或者来自人类专家的数据。 off-policy学习也被一些人视为学习世界动态的多步预测模型的关键（见第17.2节; Sutton，2009;
Sutton等，2011）。
在本节中，我们通过考虑预测问题来开始研究off-policy方法，其中目标和行为政策都是固定的。也就是说，假设我们希望估计vπ或qπ，但我们所有的都是遵循另一个政策b的剧集，其中b≠π。在这种情况下，π是目标策略，b是行为策略，两个策略都是固定和给定的。
为了使用b中的剧集来估计π的值，我们要求在π下的每一个动作发生，也至少偶尔会在b下发生。也就是说，我们要求π(a|s)> 0表示b(a|s)> 0.这称为覆盖假设。它跟随覆盖，b在与π不同的状态下必须是随机的。另一方面，目标政策π可能是确定性的，事实上，这是一个控制应用的特殊案例。在控制中，目标策略通常是关于行动价值函数的当前估计的确定性贪婪政策。当行为政策保持随机性和更具探索性时，该政策成为确定性最优政策，例如，ε-greedy政策。但是，在本节中，我们考虑预测问题，其中π是不变的并给出。
几乎所有off-policy方法都使用重要性抽样，这是一种给出来自另一个的样本的一个分布下的预期值的通用技术。我们根据他们的轨迹在目标和行为政策下发生的相关概率对收益进行加权，对off-policy学习进行重要抽样，称为重要性抽样比率。给定起始状态St，后续的状态 - 行动轨迹At，St + 1，At + 1 ….，ST，在任何政策π下发生的概率为
在这里插入图片描述
其中p是由（3.4）定义的状态转移概率函数。因此，目标和行为政策下的轨迹的相对概率（重要性抽样比率）是

虽然轨迹概率取决于MDP的转移概率，它们通常是未知的，但是它们在分子和分母中都是相同的，从而取消。重要性抽样比率最终取决于两者的政策和顺序，而不是MDP。
回想一下，我们希望估算目标政策下的预期回报（价值），但由于行为政策的原因，所有都返回Gt。这些回报有错误的期望E [Gt | St = s] = vb（s），因此不能平均得到vπ。这是重要性抽样的作用。比率pt:T-1将收益转换为正确的期望值：
在这里插入图片描述
现在我们准备提供一个蒙特卡罗算法，该算法根据政策b后观察到的批量事件平均返回估计vπ(s)。时间步长以跨越剧集边界的方式增加。也就是说，如果第一批次在时间100处于终止状态，则下一集在时间t = 101开始。这使我们能够使用时间步数来特别指出特定episodes步骤。特别地，我们可以定义访问状态s的所有时间步骤的集合，表示为T（s）。这是一种每次访问的方法;对于第一次访问的方法，T（s）只会包括在他们的剧集中首次访问s的时间步骤。另外，让T（t）表示在时间t之后的第一次终止，并且Gt表示在t之后通过T（t）的返回。然后{Gt} tεT（s）是与状态s有关的回报，{pt:T(t)-1} tεT（s）是相应的重要性采样率。为了估计vπ(s)，我们只是按比率和平均结果缩放返回：
在这里插入图片描述
当重要性采样以这种方式作为简单平均值完成时，它被称为普通重要抽样。
一个重要的替代方案是加权重要性抽样，它使用加权平均值，定义为

如果分母为零，则为零。要了解这两种重要性抽样，在观察从状态s的单次返回后考虑其首次访问方法的估计。在加权平均估计中，单个回报的比率pt:T(t)-1取消分子和分母，使估计值等于观察的返回值而与比率无关（假设比率非零）。鉴于此回归是唯一观察到的，这是一个合理的估计，但它的期望值是vb（s）而不是vπ（s），并且在这种统计意义上它是有偏见的。相比之下，普通重要性抽样估计器（5.5）的首次访问版本的期望总是vπ（s）（它是公正的），但它可能是极端的。假设比率是十，表明观察到的轨迹在目标政策下的可能性是行为的十倍。在这种情况下，普通的重要性抽样估计将是观察回归的十倍。也就是说，尽管episode的轨迹被认为是非常具有代表性的目标政策，它与观察到的回报相差甚远。
形式上，两种重要性抽样的first-visit方法之间的差异以其偏差和差异表示。普通重要性抽样无偏差，而加权重要性抽样有偏差（尽管偏差渐近地收敛为零）。另一方面，普通重要性抽样的方差通常是无界限的，因为比率的方差可以是无界的，而在加权估计量，任何单一回报的最大权重是一。事实上，假设有界回报，即使比率本身的方差是无穷大，加权重要性抽样估计的方差收敛为零（Precup，Sutton，and Dasgupta 2001）。在实践中，加权估计量通常明显地减小方差，是非常优选的。尽管如此，我们不会完全放弃普通重要性抽样，因为它更容易扩展到我们在本书第二部分探讨的使用函数近似的近似方法。
普通和加权重要抽样的每次访问方法都有偏差，但是，随着样本数量的增加，偏差也会渐近地降至零。实际上，every-visit方法通常都是首选，因为它们不需要保留哪些状态已被访问的线索，也因为它们更容易扩展到近似。用于off-policy策略评估的使用加权重要性采样的完整的每次访问MC算法将在第110页的下一节中给出。
练习5.5考虑具有单个非终结状态和单个动作的MDP，以概率p转换回非终结状态并以概率1-p转换为终点状态。让奖励在所有过渡中都是+1，然后让γ= 1。假设你观察了一集持续10步，然后返回10.非终结状态价值的首次访问和每次访问估算是什么？
例5.4：二十一点状态值的off-policy估计应用了普通和加权重要抽样方法，根据off-policy数据，来估计一个二十一点状态的价值（例5.1）。回想一下蒙特卡罗方法其中一个优点是，它们可用于在没有形成任何其他状态的估计时，来评估单个状态。在这个例子中，我们评估了经销商正在显示一个平局，玩家的牌的总和是13，而玩家的牌是一个可用的ace的状态（也就是说，玩家拥有一个ace和一个平局，或者相当于三个ace）。数据是通过在此状态下开始然后以相同的概率随机选择点击或粘贴而生成的（行为政策）。目标政策只有总和为20或21时坚持下去，如例5.1所示。目标政策下该状态的价值约为-0.27726（这是通过分别产生一亿个episodes，使用目标政策并平均其回报来确定的。在使用随机的1000个off-policy剧集之后，两种off-policy方法都非常接近这个值。为了确保他们能够可靠地完成这项工作，我们进行了100次独立运行，从零估计开始并学习10,000集。图5.3显示了结果学习曲线 - 作为剧集数的函数，每个方法的估计的平方误差在100次运行中是平均的。两者的误差均接近零，但加权重要性采样方法的在开始时的误差要小得多，这在实践中是典型的。
在这里插入图片描述
图5.3：加权重要性抽样产生较低的误差估计值。
例5.5：无限方差普通重要性抽样的估计值通常都具有无限的方差，因此收敛性能不令人满意，无论何时，缩放的回报具有无限的方差 -当轨迹包含循环时，这很容易发生在政策学习中。图5.4中显示了一个简单的示例。只有一个非终结状态和两个动作，左右。动作右导致确定性过渡到终止，而动作左有概率0.9过渡返回到s或右概率0.1终止。后者过渡奖励是+1，否则为零。考虑始终选择左的目标策略。此政策下的所有剧集都包含一些数量（可能为零）的过渡回s，然后以奖励结束并返回+1。因而目标政策下s的价值是1（γ= 1）。假设我们从off-policy数据中用以相等概率选择左右的行为策略估算这个值。
图5.4：普通重要性抽样产生了令人惊讶的单一状态MDP不稳定估计，显示在插图（例5.5）。这里的正确估计是1（γ= 1），虽然这是样本回报的预期值（在重要性抽样之后），但是样本的方差是无限的，估计值不会收敛到这个值。这些结果是为了off-policy首次访问MC。在这里插入图片描述

图5.4的下半部分显示了首次访问MC算法使用普通重要性抽样的十次独立运行。即使在数百万集之后，估计仍然不能收敛到正确的值1.相反，加权重要性采样在第一集以左行动结束之后，算法将永远给出1的估计值。所有回报不等于1（即以动作右结束）会与目标政策不一致，因此pt:T(t)-1为零，对（5.6）的分子或分母都没有贡献。加权重要性抽样算法产生的加权平均值只与目标政策回归一致，所有这些都是1。
在这个例子中通过一个简单的计算，我们可以验证重要性 - 采样 - 缩放回报的方差是无限的。任意随机变量X的方差是与其平均值X的偏差的平均期望值X-，可以写成
在这里插入图片描述
因此，如果均值是有限的，就像我们的情况那样，方差是无限的，当且仅当期望随机变量的平方是无限的。因此，我们只需要展示重要性 - 采样 - 缩放回报的预期平方是无限的：

为了计算这个期望，我们将其分解为基于剧集长度和终止的案例。首先要注意的是，对于以正确行动结束的任何一集，重要性抽样比率为零，因为目标政策永远不会采取此行动; 因此，这些事件对期望没有任何贡献（括号中的数量将是
零）并且可以忽略。我们只需要考虑涉及某些数量（可能为零）的左边的动作的剧集，转换回非终结状态，然后是左行动过渡到终止。所有这些剧集的回报都是1，所以G0因子可以忽略。为了获得预期的方格，我们只需考虑每个剧集的长度，将剧集发生的概率乘以重要性采样率平方，并添加这些：
在这里插入图片描述
练习5.6对于动作值Q（s，a）而不是状态值V（s），类似于（5.6）的等式是什么，再次给出使用b生成的回报？
练习5.7在学习曲线如图5.3所示的曲线中，通过培训误差通常会减小，确实发生了普通的重要性抽样方法。但对于加权重要抽样方法误差先增加后减小。你觉得为什么是这样？
练习5.8使用示例5.5并在图5.4中显示的结果使用了首次访问的MC方法。假设在同一问题上使用了每次访问的MC方法。估计量的方差是否仍然是无限的？为什么或者为什么不？

5.6增量实施
蒙特卡洛预测方法可以在逐集的基础上逐步实施，使用第2章（第2.4节）中描述的技术的扩展。而在第2章我们平均奖励，在蒙特卡罗方法中我们平均回报。
在所有其他方面，与第2章中使用的完全相同的方法可用于onpolicy蒙特卡罗方法。对于off-policy的蒙特卡罗方法，我们需要单独考虑使用普通重要性抽样的那些和使用加权重要性抽样的那些。
在普通重要性抽样中，通过重要性抽样比率pt:T(t)-1（5.3）来缩放收益，然后简单地平均，如（5.5）中所示。对于这些方法，我们可以再次使用第2章的增量方法，但使用缩放的returns代替第2章的奖励值。这留下了使用加权重要抽样的off-policy方法的情况。在这里，我们必须形成returns的加权平均值，也需要一个稍微不同的增量算法。
假设我们有一系列的returnsG1，G2 ,….，Gn-1，都是在同一个状态开始的，每个都具有相应的随机权重Wi（例如，Wi = pti:T(ti)-1）。我们希望形成估计
在这里插入图片描述
当我们获得一个额外的回报Gn时，让它保持最新。除了跟踪Vn之外，我们必须为每个状态保持给予前n个的权重的累积和Cn。Vn的更新规则是

其中C0=0（并且V1是任意的，因此不需要指定）。下一页的方框包含蒙特卡洛政策评估的完整剧集增量算法。该算法名义上用于off-policy案例，使用加权重要性抽样，但仅通过选择目标和行为政策同样适用于政策案例（在这种情况下（π= b），W总是1）。近似值Q收敛于qπ（对于所有遇到的状态 - 动作对），而根据可能不同的策略选择动作，b。
练习5.9修改首次访问MC策略评估的算法（第5.1节），以使用第2.4节中描述的样本平均值的增量实现。
练习5.10从（5.7）中导出加权平均更新规则（5.8）。遵循未加权规则（2.3）的推导模式。
在这里插入图片描述
5.7 off-policy蒙特卡罗控制
我们现在准备提供一个我们在本书中考虑的第二类学习控制方法的例子：off-policy方法。回想一下，策略上方法的显着特点是它们在将策略用于控制时估计策略的价值。在off-policy方法中，这两个函数是分开的。用于生成行为的策略（称为行为策略）实际上可能与评估和改进的策略无关，称为目标策略。这种分离的一个优点是目标策略可以是确定性的（例如，贪婪），而行为策略可以继续对所有可能的动作进行采样。
off-policy蒙特卡罗控制方法使用前两节中介绍的技术之一。他们在学习和改进目标政策的同时遵循行为政策。这些技术要求行为策略具有非零概率，可以选择目标策略（覆盖范围）可能选择的所有操作。为了探索所有可能性，我们要求行为策略是软的（即，它选择具有非零概率的所有状态中的所有动作）。
下一页的框显示了基于GPI和加权重要性抽样的off-policy蒙特卡罗控制方法，用于估算π和q。目标政策π≈π*是关于Q的贪婪政策，Q是qπ的估计。行为策略b可以是任何东西，但是为了确保π收敛到最优策略，必须为每对状态和动作获得无限数量的返回。这可以通过选择b为ε-soft来确保。即使根据不同的软策略b选择动作，策略⇡也会在所有遇到的状态下收敛到最佳状态，这可能会在剧集之间或甚至在剧集之间发生变化。
在这里插入图片描述
一个潜在的问题是，当剧集中的所有剩余动作都是贪婪时，这种方法只能从剧集的尾部学习。如果不贪婪的行为很常见，那么学习将会很慢，特别是对于出现在长片早期部分的状态。潜在地，这可能会大大减慢学习速度。使用off-policy蒙特卡罗方法的经验不足以评估这个问题的严重程度。如果它是严重的，解决它的最重要的方法可能是结合临时学习，即下一章开发的算法思想。或者，如果γ小于1，那么下一节中提出的想法也可能有很大帮助。
练习5.11：在用于off-policyMC控制的盒装算法中，您可能一直期望W更新涉及重要性采样率π（At | St）/b（At | St），但是相反它涉及1/b（At | St）。为什么这仍然是正确的？ ⇤
练习5.12：赛道（编程）考虑在转弯处驾驶赛车，如图5.5所示。你想尽可能快地走，但不要跑得太快。在我们简化的赛道中，汽车位于一组离散的网格位置中，即图中的单元格。速度也是离散的，每个时间步长水平和垂直移动许多网格单元。动作是速度分量的增量。每个步骤中可以更改+1，-1或0，总共九（3×3）个动作。两个速度分量都被限制为非负且小于5，除起始线外，它们不能都为零。每集以一个随机选择的起始状态开始，两个速度分量均为零，并在汽车越过终点线时结束。每一步的奖励为-1，直到汽车越过终点线。如果汽车撞到轨道边界，它将移回到起始线上的随机位置，两个速度分量都减小到零，并且情节继续。在每个时间步更新汽车的位置之前，检查汽车的投影路径是否与航迹边界相交。如果它与终点线相交，则剧集结束; 如果它与其他任何地方相交，则认为该车已经撞到了轨道边界并被送回起跑线。为了使任务更具挑战性，在每个时间步的概率为0.1时，速度增量均为零，与预期的增量无关。将蒙特卡洛控制方法应用于此任务，以计算每个起始状态的最佳策略。在最优政策之后展示几条轨迹（但转动这些轨迹的噪音）。
在这里插入图片描述
图5.5：赛道任务的几个右转弯。

***5.8 折扣感知重要性抽样

*5.9 按决定重要性抽样

5.10总结**
本章介绍的蒙特卡罗方法从样本集形式的经验中学习价值函数和最优策略。与DP方法相比，这至少有三种优势。首先，它们可以用于直接从与环境的交互中学习最佳行为，而没有环境模型的动态。其次，它们可以与模拟或样本模型一起使用。对于令人惊讶的许多应用，即使很难构建DP方法所需的转换概率的显式模型，也很容易模拟样本事件。第三，将蒙特卡罗方法集中在一小部分状态上是容易和有效的。可以准确地评估一个特别感兴趣的区域，而无需花费精确评估状态集的其余部分（我们将在第8章进一步探讨这一点）。
我们在本书后面讨论的蒙特卡罗方法的第四个优点是它们可能不会因违反马尔可夫财产而受到伤害。这是因为他们没有根据继承状态的价值估计更新其价值估计。换句话说，这是因为它们没有引导。
在设计蒙特卡罗控制方法时，我们遵循第4章中介绍的广义策略迭代（GPI）的整体模式。GPI涉及政策评估和政策改进的交互过程。蒙特卡罗方法提供了另一种政策评估过程。它们不是使用模型来计算每个状态的价值，而是简单地平均从状态开始的许多回报。因为状态的值是预期收益，所以该平均值可以成为该值的良好近似值。在控制方法中，我们对近似动作值函数特别感兴趣，因为这些可用于改进策略而无需环境转换动力学模型。蒙特卡罗方法在逐个剧集的基础上混合政策评估和政策改进步骤，并且可以逐个剧集逐步实施。
保持充分的探索是蒙特卡罗控制方法中的一个问题。仅仅选择当前估计最佳的动作是不够的，因为那时不会获得替代动作的回报，并且可能永远不会知道它们实际上更好。一种方法是通过假设剧集以随机选择的状态 - 动作对开始以涵盖所有可能性来忽略该问题。这种探索开始有时可以安排在具有模拟剧集的应用中，但不太可能从真实经验中学习。在on-policy方法中，代理承诺始终探索并试图找到仍在探索的最佳策略。在off-policy方法中，代理也会探索，但要学会一种可能与所遵循的政策无关的确定性最优政策。
off-policy预测是指从不同行为策略生成的数据中学习目标策略的价值函数。这种学习方法基于某种形式的重要性抽样，即通过在两个政策下采取观察到的行动的概率的比率来加权回报，从而将他们的期望从行为政策转变为目标政策。普通重要性抽样使用加权回报的简单平均值，而加权重要性抽样使用加权平均值。普通重要性抽样产生无偏估计，但具有更大的，可能是无限的方差，而加权重要抽样总是具有有限的方差，并且在实践中是优选的。尽管概念简单，但用于预测和控制的off-policy蒙特卡罗方法仍未解决，并且是正在进行的研究的主题。
本章处理的蒙特卡罗方法与前一章中处理的DP方法有两种主要方式。首先，他们根据样本经验进行操作，因此可以在没有模型的情况下用于直接学习。其次，他们没有引导。也就是说，他们不会根据其他价值估计更新其估值。这两个差异没有紧密联系，可以分开。在下一章中，我们将考虑从经验中学习的方法，如蒙特卡罗方法，但也要引导程序，如DP方法。

书目和历史评论