Reinforcement Learning: An Introduction Second Edition - Chapter 12

会飞的斯芬克斯

已于 2023-04-20 04:33:58 修改

阅读量151

点赞数 1

分类专栏： Reinforcement Learning 文章标签： python 算法人工智能

于 2023-01-20 18:42:24 首次发布

本文链接：https://blog.csdn.net/weixin_44909139/article/details/128742517

版权

Reinforcement Learning 专栏收录该内容

14 篇文章 3 订阅

订阅专栏

12 Eligibility Traces

资格迹是强化学习的基本机制之一。几乎所有的TD算法，都可以与资格迹结合，获得一个更加有效的一般性方法。

资格迹是时序差分方法和蒙特卡洛方法的统一。当TD方法使用资格迹来增强后，就产生了一系列的算法。蒙特卡洛方法（ $\lambda$ =1）和单步TD方法（ $\lambda$ =0）是其中的两个极端。 $\lambda$ 取中间比取极端表现要好。资格迹也提供了一种在线实施蒙特卡洛方法的方法，并且可以在没有分幕的持续问题上使用。

资格迹 $\mathbf{z}_t$ ：一个短时记忆向量； $\mathbf{w}_t$ ：长时权重向量。当参数 $\mathbf{w}_t$ 的一个分量参与计算并产生一个估计值时，对应的 $\mathbf{z}_t$ 的分量会骤然升高，然后逐渐衰减。在迹归零前，如果出现了非零的TD误差，那么相应的 $\mathbf{w}_t$ 的分量将会得到学习。迹衰减参数 $\lambda$ 决定了迹的衰减率。

资格迹相比于 n 步算法的优势。

前向视图和后向视图。本章从现代视角介绍相关内容。

本章主要关注使用线性函数逼近的情况，此时使用资格迹的效果较好。状态聚合是线性函数逼近的特例。

12.1 The $\lambda$ -return

n 步回报的函数逼近形式。

复合更新：用不同 n 的平均 n 步回报作为更新目标。通过平均单步与无限步的回报，可以得到一种将TD和MC结合的方式。理论上，还可以将基于经验的更新与动态规划的更新进行平均，得到一个简单的结合基于经验的更新和基于模型的更新的算法（参见第8章）。

一个复合更新只能在它的组分中最长的那个更新完成后完成（它决定了更新的延迟）。

TD( $\lambda$ )算法可以被视为平均 n 步更新的一种特例。 $\lambda$ -回报。当 $\lambda$ =0 时，为单步TD更新；当 $\lambda$ =1 时，为MC更新。

练习 12.1

练习 12.2： $\lambda$ 确定了在更新时算法可以看多远。

The offline $\lambda$ -return algorithm. Its overallperformance is comparable with the n-step algorithms.

目前为止，我们采用的所有算法都是前向的。

12.2 TD( $\lambda$ )

TD( $\lambda$ ) 是强化学习中最古老、使用也最广泛的算法之一。

TD( $\lambda$ ) 通过三种方式改进了the offline $\lambda$ -return algorithm。首先它在每一步对权重向量进行更新；其次它将计算平均分配在整个过程上；第三它也适用于持续性问题。本节将介绍 the semi-gradient version of TD( $\lambda$ ) with function approximation.

基于函数逼近，资格迹是一个和权值向量同维度的向量 $z_t$ 。相对权值向量来说，资格迹是一个短期记忆，其持续时间通常少于一幕。资格迹的唯一作用是影响权值向量。

在 TD( $\lambda$ ) 中，资格迹向量被初始化为零，然后在每一步以 $\gamma \lambda$ 衰减，并累加价值函数的梯度。资格迹记录了权重向量的哪些成分对最近的状态估值有积极或消极的贡献，其中 “最近” 是以 $\gamma \lambda$ 定义的。当一个强化学习事件出现时，我们认为这些 “痕迹” 展示了权值向量对应分量有多少 “资格” 可以接受学习过程引起的变化。我们关注的强化学习事件是每时每刻的单步TD误差。

价值函数预测的TD误差。

在 TD( $\lambda$ ) 中，权值向量每一步的更新正比于标量TD误差和资格迹向量。

半梯度 TD( $\lambda$ ) 算法。

TD( $\lambda$ ) 在时间上往回看。

$\lambda$ =0，TD(0)； $\lambda$ =1，TD(1) 。

TD(1) 相比MC方法的优点：在线更新，在幕中立即调整智能体的行为。因此 TD(1) 能应用于持续性任务。

比较 TD( $\lambda$ ) 算法和 offline $\lambda$ -return 算法。在 $\alpha$ 的值比最优值大时，TD( $\lambda$ ) 变差很多，甚至可能不稳定。

如果 $\alpha$ 遵循随机逼近理论的条件(式2.7)，那么线性 TD( $\lambda$ ) 会在同轨策略的情况下收敛。

误差边界公式。

根据公式， $\lambda$ =1 时上界接近最小误差。然而，实际上 $\lambda$ =1 通常是一个最差的选择。

练习 12.3：将offline $\lambda$ -return 算法的误差项写为 TD误差的和的形式。

练习 12.4：当 $\lambda$ =1 时…

12.3 n-step Truncated $\lambda$ -return Methods

截断一定步数之后的序列，缺少的收益用估计值来代替。

12.4 Redoing Updates: Online $\lambda$ -return Algorithm

可以通过增加计算复杂度来获得截断参数 n 过大和过小的两种好处。

一个想法：每次得到新的数据增量的同时，回到当前幕的开始重做所有更新。

The online $\lambda$ -return algorithm：一个完全在线的算法，仅仅使用时刻 t 获取的信息确定新的权值向量。在线算法比离线算法更好，不仅仅是因为在幕中进行更新，而且也是因为权值向量获得了更多数量的有意义的更新。这是效果最好的时序差分算法，但是很复杂。

12.5 True Online TD( $\lambda$ )

True Online TD( $\lambda$ )：比在线 TD( $\lambda$ ) 算法更加符合 online $\lambda$ -return algorithm 的理想。

由于从 online $\lambda$ -return algorithm 到 true online TD( $\lambda$ ) 的推导过于复杂而被省略。

这个算法被证明能够产生和 online $\lambda$ -return algorithm 完全相同的权值向量，但是代价却没有原来昂贵。True online TD( $\lambda$ ) 的内存需求与在线 TD( $\lambda$ ) 相同，每一步的计算量增加了50%，不过总体上计算复杂度仍然是 $O (d)$ 。

True Online TD( $\lambda$ ) 伪代码。

荷兰迹，累积迹和替换迹：true online TD( $\lambda$ ) 的资格迹被称为荷兰迹。荷兰迹完全取代了替换迹，它有更好的性能和更清晰的理论基础。积累迹对于荷兰迹不可用的非线性函数逼近仍有意义。

12.6 Dutch Traces in Monte Carlo Learning

资格迹也会出现在蒙特卡洛学习中。这是书中唯一明确表明前向视图和后向视图等价性的地方。它给出了 online $\lambda$ -return algorithm 和 true online TD( $\lambda$ ) 的等价性证明的一些味道，但要简单得多。

回顾线性版本的蒙特卡洛预测算法。采用荷兰迹的蒙特卡洛算法，这是一个增量算法，每一步的时间和内存复杂度为O(d)。它得到了和MC/LMS算法相同的结果。这说明了资格迹可以被应用于时序差分学习以外的情景。

12.7 Sarsa( $\lambda$ )

将资格迹拓展到动作价值函数方法中。

例 12.1：资格迹的使用可以大大提升控制算法的效率。资格迹方法会从幕的开始，不同程度地更新所有的动作价值，更新程度根据时间远近衰减。采用衰减策略一般是最好的做法。

12.8 Variable $\lambda$ and $\gamma$

为了以最一般的形式展示最终的算法，将自举和折扣的程度从恒定参数推广到依赖于状态和行动的函数。

回报的更一般性的定义。这种定义使分幕设置以及算法能够以一个单一经验流的方式呈现，而没有特殊的终止状态、起始分布或终止时长。在这种情况下，可以把分幕式设置当作一种特例。依赖于状态的终止 (State dependent termination) 包括其他预测情况，如伪终止 (pseudo termination) ，在这种情况下 (分幕式设置被视为一种特例)，我们试图在不改变马尔科夫过程的流的情况下预测数值。折扣回报可以被认为是这样的一个数值，在这种情况下，依赖于状态的终止统一了分幕式和折扣-持续式的情况 (无折扣-持续式的情况仍然需要一些特殊的处理) 。

对变量自举法的推广不像折扣那样是问题的变化，而是解决方案的形成策略的变化。这个推广影响了状态和动作的回报。新的state-based的 $\lambda$ -回报可以用递归地表示。这个方程表明 $\lambda$ -回报是第一项收益（没有折扣且不受自举的影响），加上一个可能的第二项，假设下一个状态没有折扣（这根据 $\gamma_{t+1}$ 确定；回顾一下，如果下一个状态是终止状态，这个项就是零）。假设下一个状态不是终止状态，我们有一个第二项，它本身根据状态下的自举程度分为两种情况。假设我们使用自举法，这个项是状态下的估计值，而假设我们不使用自举法，这个项是下一个时间步的 $\lambda$ -回报。