强化学习笔记（6）—— 无模型（model-free）control问题

云端FFF

已于 2022-08-28 21:33:47 修改

阅读量886

点赞数 5

分类专栏： # 强化学习文章标签：机器学习强化学习 model-free 蒙特卡洛时序差分

于 2021-01-26 04:24:04 首次发布

本文链接：https://blog.csdn.net/wxc971231/article/details/110958914

版权

强化学习专栏收录该内容

21 篇文章 28 订阅

订阅专栏

参考：
1. 周博磊老师的教程
2. Reinforcement Learning Course by David Silver
3. Richard S.Sutton 《Reinforce Learning》第5章、第6章
4. 强化学习（四）用蒙特卡罗法（MC）求解
5. 强化学习（五）用时序差分法（TD）求解
之前我们探讨了：
1. 使用DP方法解环境MDP已知（model-based）情况下的prediction和control问题：强化学习笔记（3）—— MDP中的prediction和control问题
2. 使用α-MC方法和TD(0)方法解环境MDP未知（model-free）情况下的prediction问题：强化学习笔记（4）—— 无模型（model-free）prediction问题（α-MC方法、TD方法）
本节讨论环境MDP未知（model-free）情况下的control问题
符号说明：本文用 $S_t$ 或 s 代表当前时刻 t 的状态， $S_{t+1}$ 或 s’ 代表下一时刻的状态； $A_t$ 或 a 代表当前时刻 t 的动作， $A_{t+1}$ 或 a’ 代表下一时刻的动作

文章目录

1. 引入
2. 同轨策略方法和离轨策略方法
3. Monte-Carlo Method（MC）Control
4. Temporal-Difference Learning (TD) Control

1. 引入

1.1 回顾model-based control问题

1.1.1 policy iteration 算法

算法流程：反复迭代执行以下两步，直到V收敛为止
1. policy evaluation：迭代计算Bellman公式至收敛
2. policy improve：根据 $\pi$ 计算 $q$ ，再对每个s贪心地找到使 $q^{\pi_i}(s,a)$ 最大的a来更新 $\pi(s)$
常使用DP方法实现这个迭代

1.1.2 value iteration 算法

算法流程：
1. 使用MDP的Bellman optimal公式反复迭代计算至收敛，求出 $V^*$
2. 利用 $V^*$ 重构 $q^*$ ，从而对每个s贪心地找出动作a，得 $\pi^*$
常使用DP方法实现第一步的迭代

1.1.3 小结

在MDP已知的情况下，Agent已经知道了环境的状态转移P和状态奖励R，即全观测（fully observable）。 这时Agent不需要再探索环境，直接利用P和R迭代求 $V^*$ 和 $\pi^*$ 即可 (上面红色的部分都是)，就好像玩游戏开了透视挂一样
但在对于很多问题，MDP要么未知，要么虽然已知但因为过于庞大/复杂而无法使用（如电子游戏、无人机控制…）这些情况下状态太多，转移太复杂，没法给出P和R，也就无法进行iteration计算
这时就可以考虑使用model-free的强化学习方法

1.2 model-free RL

无模型强化学习通过和环境进行交互来解决问题
Agent不能直接获取状态转移矩阵P和奖励函数R
Agent的每次交互过程，会采集一条轨迹（Trajectories/episodes），Agent要收集大量的轨迹，然后从中获取信息，改进策略，以求获得更多的奖励
一条轨迹是一个 “状态、动作、奖励” 序列，如
${S_1,A_1,R_2,S_2,A_2,...S_t,A_t,R_{t+1},...R_T,S_T\}$
下面介绍 model-free RL 的两种常用方法
1. 蒙特卡罗方法（MC）：Monte Carlo Method
2. TD学习方法 (TD) ：Temporal Difference Learning

2. 同轨策略方法和离轨策略方法

2.1 两个策略

在 model-free RL 方法中，为了优化策略 $\pi$ （control），我们通常遵循强化学习笔记（4）—— 有模型（model-based）prediction 和 control问题（DP方法）3.2 节说明的广义策略迭代（GPI）框架，以任意粒度迭代以下两个步骤直至收敛
1. 策略评估 policy evaluation：使得价值函数和当前策略匹配
2. 策略提升 policy improve：根据当前价值贪心地更新策略
在具体做 control 任务的实践中，通常迭代执行以下两步
1. 用 $\pi$ 和环境交互得到 episode，采集 episode/transition 样本数据
  
  Note：通常评估 $Q$ value，见强化学习笔记（5）—— 无模型（model-free）prediction问题（α-MC方法、TD方法）第 5 节
2. 根据采集的数据进行进行 policy evaluation，并根据结果改进 $\pi$
  
  Note：这里评估的价值不一定是 $\pi$ 的价值，也可以在重要性采样比的控制下估计其他策略的价值
注意到这里出现了 “两个策略”，即 “采集数据的策略” 和 “被改进的策略”，如果像上面那样简单地令两个策略相同，则解 control 问题时就必然会面临一个困境：它们希望学到的策略 $\pi$ 可以使随后 agent 的行为是最优的，但为了在生成episode时探索所有动作（以保证找到最优动作）， $\pi$ 不能是一个确定性策略，即它必须要试探非最优动作

其实这个就是同轨方法预测 q(s,a) 时的保持试探问题

这时要想在保持试探的同时学习最优策略，就只能做出妥协 —— 学习的策略不会100%给出最优动作，而是在大概率给出最优动作的同时，以小概率试探非最优动作。除非随着学习过程不断减小试探的概率，否则不能学到确定性的最优策略

2.2 同轨与离轨（on-policy & off-policy）

想避免上述妥协，一个自然的想法是使用两个策略
1. 目标策略target policy：一般是确定性策略，用来学习并成为最优策略，记为 $\pi$
2. 行动策略behavior policy：一般是不确定性策略，更有试探性，用于生成供 agent 学习的 episode/transition 样本，记为 $b$
这时，我们用另一个已知的策略 $b$ 来生成episode，并用这些来自 $b$ 的 episode/transition 数据评估和改进 $\pi$ ，可以看作学习的数据 “离开” 了待学习的策略
按 “两个策略” 是否相同区分，可以将学习方法分为 “同轨策略方法” 与 “离轨策略方法”
1. 同轨策略（on-policy）方法：这类方法中，“生成episode的策略 $b$ ” 和 “用于实际决策的待评估改进的策略 $\pi$ ” 是相同的
2. 离轨策略（off-policy）方法：这类方法中，“生成episode的策略 $b$ ” 和 “用于实际决策的待评估改进的策略 $\pi$ ” 是不同的，即生成的数据 “离开” 了待优化的策略所决定的决策序列轨迹
  相比于同轨策略方法
  1. 离轨策略方法的数据来自一个不同的策略，所以其方差更大，收敛更慢；
  2. 离轨策略方法更强大、更通用，同轨策略可以看做离轨策略方法的特例。它常用于学习非学习型控制器或人类专家生成的数据

2.3 在同轨与离轨视角下重新审视 prediction 问题

注意到上一篇文章强化学习笔记（5）—— 无模型（model-free）prediction问题（α-MC方法、TD方法）讨论的 prediction问题（尤其是对q(s,a)的prediction）是 GPI 框架中的一个重要组成部分，下面结合刚刚说明的同轨、离轨概念加以补充
首先明确一下，上一篇文章中的所有 prediction 方法都属于 “同轨策略方法”

2.3.1 同轨策略下 q(s,a) 的 MC/TD prediction

上篇文章已经对 q(s,a) 的评估进行了部分说明，请看强化学习笔记（5）—— 无模型（model-free）prediction问题（α-MC方法、TD方法）第 5 节
核心方法：计算MC error或TD error，通过非稳定（或稳定）的增量式方法进行迭代更新，如下：
$\begin{aligned} MC：Q(S_t,A_t) &= Q(S_t,A_t) +\alpha(G_t-Q(S_t,A_t)) \\ TD(0)：Q(S_t,A_t) &= Q(S_t,A_t) +\alpha[(R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) )-Q(S_t,A_t)] \end{aligned}$ 重点关注解决 “保持试探” 问题的两个方法
1. 试探性出发
2. 只考虑所有 (s,a) pair 都有非零概率被选中的策略
使用这两个方式解决 “保持试探” 问题，对应了 on-policy MC Control的两类方法

2.3.2 离轨策略下 q(s,a) 的 MC prediction

假设现有固定且已知的目标策略 $\pi$ 和行动策略 $b$ ，我们要使用策略 $b$ 生成的若干 episode/transition 数据来预测 $v_{\pi}$ 或 $q_{\pi}$

2.3.2.1 覆盖假设（coverage）

要用 b 生成的轨迹预测 $\pi$ ，必须保证 $\pi$ 下的每个动作都至少偶尔能在 $b$ 下发生。形式化说，对于任意 $\pi(a|s)>0$ ，要求有 $b (a ∣ s) > 0$
根据这个假设
1. 在与 $\pi$ 不同的状态中，b一定是随机的（即对于相同状态每次给出的动作随机）；
2. 另一方面， $\pi$ 可能是确定性的（即对于相同状态每次给出的动作相同）。事实上，在control问题中往往如此，我们通常会把目标策略 $\pi$ 定义为一个固定性策略（如贪心），而行为策略更有试探性（如 $\epsilon$ -贪心），这样我们最终可以学习到一个确定性的最优策略 $\pi^*$
说明一点，在同轨策略下，“保持试探” 是一个非常重要的问题，我们必须保证所有 $(s, a)$ 二元组的价值都能被评估，这样才能通过简单的贪心得到可靠的 $\pi^*$ 。而在离轨策略下，只要选择更有试探性的行为策略 $b$ 就可以解决这个问题。

2.3.2.2 重要度采样

重要度采样：这是一种在给定来自其他分布的样本下，估计某种分布期望值的通用方法。几乎所有离轨策略方法都采用了重要度采样
重要度采样比：在离轨策略 prediction中，我们需要目标策略下的 return 期望 $\mathbb{E}_{\pi}[G_t|S_t=s]$ ，但由于episode来自行动策略b，我们只能获得 $\mathbb{E}_b[G_t|S_t=s]$ ，由于两种策略的动作分布不同，这显然是不准确的。不过，我们可以根据每个episode在目标策略和行动策略中出现的概率比例（相对概率）对其return进行加权调整，这样就可以获得目标策略下的return期望了。这个用于调整的相对概率就是重要度采样比
1. 给定一个起始状态 $S_t$ ，其后续动作状态轨迹 $A_t,S_{t+1},A_{t+1},...,S_T$ 在策略 $\pi$ 下发生的概率是
  
  这里 $p$ 是环境MDP中的状态转移矩阵。
2. 完全类似的，可以得到这个轨迹在策略 b 下出现的概率。将两个概率做比，即得目标策略和行为策略从t时刻到T-1时刻的重要度采样比 $\rho_{t:T-1}$
  
  可见，我们未知的状态转移矩阵p被约分了，最终的重要度采样比仅仅和两个策略及episode序列有关，而与MDP的动态特性无关。
3. 利用重要度采样比调整return的期望，即可预测 $\pi$ 的状态价值
  $v_{\pi}(s) = \mathbb{E}[\rho_{t:T-1}G_t|S_t=s]$

2.3.2.3 基于离轨策略方法的 MC prediction

为了方便起见，进行以下定义
1. 使用策略 $b$ 生成的若干episode数据来预测 $v_{\pi}(s)$
2. 对时刻进行编号时，即使时跨过episode的便捷，编号也递增（即若某一个episode在时刻t=100结束于某个状态，则下一个episode起始于t=101），这样我们就可以用唯一的时刻编号指定特定episode中的特定时刻。
3. 定义 $\tau(s)$ 为所有访问过状态s的时刻的集合
  1. 对于每次访问型方法， $\tau(s)$ 中包括所有访问过s的时刻
  2. 对于首次访问型方法， $\tau(s)$ 中仅包括在episode中首次访问s的时刻
4. 定义 $T (t)$ 来表示在时刻t后的首次终止时刻，即 t 所在episode的终止时刻
5. $G_t$ 表示在t之后达到 $T (t)$ 时的return值，所以 $\{G_t\}_{t \in \tau(s)}$ 就是状态s对应的回报值， $\{\rho_{t:T(t)-1}\}_{t \in \tau(s)}$ 是相应的重要度采样比
思路：利用离轨数据预测 $v_{\pi}(s)$ ，一般有两种重要度采样方法
1. 普通重要度采样：根据重要度采样比来调整回报值，并对结果进行算术平均
  $\frac{\sum_{t \in \tau(s)}\rho_{t:T(t)-1}G_t}{|\tau(s)|}$
2. 加权重要度采样：根据重要度采样比来调整回报值，对结果进行加权平均。这里如果分母为0，则V(s)的定义也为0
  $\frac{\sum_{t \in \tau(s)}\rho_{t:T(t)-1}G_t}{\sum_{t \in \tau(s)}\rho_{t:T(t)-1}}$
要对比这两种方法，可以考虑在首次访问情况下，访问单独一个episode后获取的估计值
1. 加权重要度采样中，比例系数（重要度采样比）被约分，所以估计值就等于这个episode中观测到的回报值，而与重要度采样比无关。考虑到这个值是仅有的观测结果，所以这是一个合理的估计，但它的期望是 $v_b(s)$ 而不是 $v_{\pi}(s)$ ，在统计学意义上看这个估计是有偏的
2. 普通重要度采样中，算数平均得到的结果在期望上总是 $v_{\pi}(s)$ ，这个估计是无偏的，但是其值可能变得很极端。比如假设重要度采样比为10，这意味着观测到的episode在 $\pi$ 下发生的概率比 $b$ 下高10倍，计算出的 $V (s)$ 也会是观测值的10倍。
在数学上，两种方法的差异可以用方差和偏差来表示
1. 加权重要度采样，估计值是有偏的，但方差可以收敛到0
2. 普通重要度采样，估计值是无偏的，但方差是无界的（因为重要度采样比的方差是无界的）
增量式实现
1. 对于普通重要度采样，先把每个 episode 获取的 return 乘一个权重 $W_t$ （如 $W_t = \rho_{t:T(t)-1}$ ），再求算数平均，直接用普通的增量式实现即可，如
  $\begin{aligned} Q_{n+1}(S_t,A_t) &\leftarrow Q_n(S_t,A_t) + \frac{1}{n}(W_tG_t(S_t,A_t) - Q_n(S_t,A_t)) \\ V_{n+1}(S_t) & \leftarrow V_n(S_t) + \frac{1}{n}(W_tG_t(S_t) - V_n(S_t) ) \end{aligned}$
2. 对于加权重要度采样，需要一个略微不同的增量式方法。假设有一个回报序列 $G_1,G_2,...,G_{n-1}$ ，它们都从相同状态开始，且每个回报对应一个权重 $W_i$ （如 $W_i = \rho_{t:T(t)-1}$ ），我们希望得到的估计是
  $\begin{aligned} Q_{n+1}(S_t,A_t) &\leftarrow \frac{\sum_{k=1}^{n-1}W_kG_k(S_t,A_t)}{\sum_{k=1}^{n-1}W_k}，n \ge 2 \\ V_n(S_t) &\leftarrow \frac{\sum_{k=1}^{n-1}W_kG_k(S_t)}{\sum_{k=1}^{n-1}W_k}，n \ge 2 \end{aligned}$ 当获取一个新的回报值 $G_t$ 时，通过以下方法更新 $V (s)$ ， $Q (s, a)$ 同理
  $\begin{aligned} C_{n+1} &= C_n + W_{n+1}, n \ge 0 \\ V_{n+1}(S_t) &= V_n + \frac{W_n}{C_n}[G_n(S_t) - V_n(S_t)], n \ge 1 \end{aligned}$ 其中 $C_n=\sum_{k=1}^{n-1}W_k$ 代表前n个回报权值的累加和，定义 $C_0 = 0$ ； $V_1$ 是任意的，不需要特别指定

伪代码：

说明：
1. 这是一个每次访问型MC算法
2. 使用了加权重要度采样，由W代表相应G的重要度采样比，在反向循环的过程中不断连乘
3. 这个框架是离轨的，但若使用相同的目标策略和行为策略，即可转换为同轨策略（这时 $\pi = b$ ，W始终为1）
4. 若出现W=0的情况（最后一行），下一轮迭代时修正量 $G-Q(S_t,A_t)]$ 乘上的系数就是0，不能起到修正作用，所以这个动作及之前的轨迹都不再考虑，退出内层for循环即可。
  其实，W=0意味着 $\pi(A_t|S_t) = 0$ ，即在这一步状态 $S_t$ 下执行的动作 $A_t$ 与目标策略 $\pi$ 不符。这并不是说对 $Q(S_t,A_t)$ 的修正有问题，仅仅意味着策略 $b$ 选择的这个这个动作在策略 $\pi$ 下不会发生，这进而导致此 $S_t,A_t)$ 及之前的这部分episode在 $\pi$ 下出现的概率为0，没有意义再用它修正Q(s,a)
  举个例子，现在要从北京朝阳公园去上海人民公园，策略 $\pi$ 是全程开车去；策略 $b$ 是先开车到首都机场，然后做坐飞机到虹桥机场，再从机场开车到人民公园。MC prediction更新时从后向前反向计算一段episode的回报，必须保证来自b的这段episode可能在 $\pi$ 下发生。从虹桥机场到人民公园一路都是开车走的，可能在 $\pi$ 下发生；而在首都机场时坐飞机这个动作不可能在 $\pi$ 下发生，因此从 $(首都机场, 坐飞机)$ 这个二元组开始，之前的任意轨迹都不能在 $\pi$ 下发生了。体现在伪代码中，就是我们用虹桥机场到人民公园的回报估计了 $Q (首都机场, 坐飞机)$ ，但不能再估计其之前的任何二元组价值。

3. Monte-Carlo Method（MC）Control

MC control 的基本框架是 GPI，不过在策略评估部分使用同轨或离轨的 MC 方法实现

3.1 基于同轨策略方法的MC control方法

3.1.1 使用试探性出发假设

3.1.1.1 方法1：MC版 Policy iteration

思想：从 model-based control 中经典 Policy iteration 算法入手，通过使用 MC 方法实现策略评估，把它改造成 MC 版本。这种方法从任意策略 $\pi_0$ 开始交替进行完整的策略评估和策略提升，最终得到最优的策略 $\pi^*$ 和价值 $V^*$
两个假设
1. 我们观测到无限多的 episode
2. 这些 episode 保证试探性出发，确保可以评估所有(s,a)二元组的价值
流程：迭代执行以下两步，直到 $Q (s, a)$ 收敛到 $q^*$ 为止。最后在 $q^*$ 上贪心得 $\pi^*$
1. 策略评估：使用上面 2.3.1 节的方法如下每轮更新 $Q (s, a)$ ，需要多轮迭代直到收敛至 $q(S_t,A_t)$ 为止 $Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha(G_t-Q(S_t,A_t))$
2. 策略提升：在当前 $q(S_t,A_t)$ 上贪心地选择动作，即 $\pi(s) = \argmax_a q(s,a)$
收敛性：根据策略改进定理（见强化学习笔记（3）—— MDP中的prediction和control问题中 2.2.3 节），可以保证每一轮策略提升得到的策略一定更好，整个流程最终一定会收敛到最优
说明：这里提出了两个很强的假设来保证算法收敛，但这也使得此方法实用性很差

3.1.1.2 方法2：蒙特卡洛ES

思想：去掉 MC 版 Policy iteration 中 “可以观测到无穷多episode” 这个假设
分析：事实上，不只MC版Policy iteration，即使是原版 model-based 情况下使用 DP 的Policy iteration，在做 prediction 的时候也有这个无限多episode假设。有两个方法可以放宽它
1. 想方设法在每次策略评估中对 $q_{\pi k}$ 做出尽量好的逼近。这需要做一些假设并定义一些测度，来分析逼近误差的幅度和出现概率的上下界，算出保证逼近效果所需的迭代步数（episode数量）。这种方法可以保证收敛到令人满意的水平，但是在实际使用中，即使问题规模很小，这种方法也往往需要有大量的episode用于计算
2. 不再要求每轮策略改进前进行完整的策略评估。在每一个评估步骤中，我们让价值函数逼近 $q_{\pi k}$ ，但是并不需要它经过足够多轮迭代直到收敛，这正是GPI中的思想。这种思想的一种极端形式是 model-based 情况下的 value iteration，它在相邻的两次策略提升间只进行了一次策略评估；value iteration的 “就地更新” 版本则更极端：在单个状态中交替进行策略改进与评估。
流程：使用第二种方法放宽假设，并且结合MC的特点，我们逐episode进行策略评估和提升。每采集一个episode执行如下两步，直到收敛为止
1. 部分略评估：使用观测到的回报进行一轮策略评估（仅对此episode访问到的所有(s,a)二元组的价值进行一次更新）
2. 策略提升：对于此episode访问到的每一个状态s，在Q(s,a)上贪心地选择动作
这种方法就称为 基于试探性出发的MC方法，简称 蒙特卡洛ES
伪代码

说明：
1. 总体上使用了GPI思想
2. 使用了同轨策略，用于生成episode的策略和用于改进的策略是相同的
3. 在prediction部分使用了首次访问型MC算法，把Unless那行判断去掉可以改成每次访问型，差别不大
4. 使用 “试探性出发” ，即代码中Choose那行，选择所有可能的 (s,a)二元组作为起始状态
5. 这个伪代码的效率不高，对于每一个(s,a)二元组都要维护一个列表存储所有的return $G_t$ 。可以把均值计算优化为非稳定的增量式实现 $Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha(G_t - Q(S_t,A_t))$
收敛性：蒙特卡洛ES方法一定可以收敛到最优策略。因为假如真的收敛到次优，其价值函数一定会收敛到这个次优策略对应的价值函数，而这时对 $Q (s, a)$ 贪心肯定可以找到更好的策略，只有策略和价值都最优时才能保持稳定收敛。虽然这一点还没有严格的数学证明，我们认为这是 RL 中最重要的开放问题之一

3.1.2 方法3：不使用试探性出发假设

思想：去掉MC版Policy iteration中 “试探性出发” 这个假设
分析：
1. “试探性出发” 假设存在的意义是要解决 “保持试探” 问题（保证所有(s,a)二元组都有非零概率被选中），如果使用其他方式解决这个问题，就能避免试探性出发假设。回顾3.1节，唯一的一般性解决方案是 Agent必须能持续不断地选择所有可能的动作，这时我们的策略一般是 “软性” 的
2. 软性策略/不确定性策略：对于任意 $\in S$ 及 $\in A(s)$ ，都有 $\pi(a|s) > 0$ 。这个策略每次面对状态s时可能做出不同的动作，但随着不断迭代，最终会逐渐逼近一个确定性的策略。这可以保证所有(s,a)二元组都有非零概率被选中
3. $\epsilon$ -软性策略：这是一种特殊的软性策略，要求对于任意 $\epsilon$ >0、任意 $\in S$ 及 $\in A(s)$ ，都有 $\pi(a|s) \ge \frac{\epsilon}{|A(s)|}$
$\epsilon$ -贪心策略：在绝大多数情况下（1- $\epsilon$ 的概率）贪心地选择使Q(s,a)最大的动作，但同时以一个较小的概率 $\epsilon$ 随机选择一个动作。不妨把使用贪心动作称作 “利用”，使用随机动作称作 “探索”，则对于最优动作而言，利用阶段有1的概率被选中，探索阶段有 $\frac{1}{|A(s)|}$ 的概率被选中；对于非最优动作，仅在探索阶段有 $\frac{1}{|A(s)|}$ 的概率被选中。即
1. 对于1个贪心动作，被选中的概率为 $\epsilon \times \frac{1}{|A(s)|} + (1-\epsilon) \times 1= 1-\epsilon+ \frac{\epsilon}{|A(s)|}$
2. 对其他 $∣ A (s) ∣ - 1$ 个非贪心动作，被选中的概率为 $\epsilon \times \frac{1}{|A(s)|} +(1-\epsilon) \times 0= \frac{\epsilon}{|A(s)|}$
3. 规范一点，可以写成
这是一种简单的 “ $\epsilon$ -软性策略”，在所有 “ $\epsilon$ -软性策略”中，这在某种程度上是最接近贪心策略的
伪代码

说明：
1. 总体上使用了GPI思想
2. 使用了同轨策略，用于生成episode的策略和用于改进的策略是相同的
3. 在prediction部分使用了首次访问型MC算法，把Unless那行判断去掉可以改成每次访问型，差别不大
4. 判断 $A^*$ 时，若有多个a可以使Q(s,a)为相等的最大值，则从中随机选一个作为 $A^*$
5. 这个伪代码的效率不高，对于每一个(s,a)二元组都要维护一个列表存储所有的return $G_t$ 。可以把均值计算优化为非稳定的增量式实现 $Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha(G_t - Q(S_t,A_t))$
收敛性：假设 $\pi$ 是一个 $\epsilon$ -贪心策略，评估它得到 $q_{\pi}$ ，再在 $q_{\pi}$ 上进行 $\epsilon$ 贪心得到新策略 $\pi'$ 。则对于任意 $\in S$ ，有 $\begin{aligned} q_{\pi}(s,\pi'(s)) &= \sum_a \pi'(a|s)q_{\pi}(s,a) \\ &=\frac{\epsilon}{|A(s)|} \sum_a q_{\pi}(s,a) + (1-\epsilon)\max_a q_{\pi}(s,a) \\ &\ge \frac{\epsilon}{|A(s)|} \sum_aq_{\pi}(s,a) + (1-\epsilon) \sum_a \frac{\pi(a|s)-\frac{\epsilon}{|A(s)|}}{1-\epsilon} q_{\pi}(s,a) \\ &=\frac{\epsilon}{|A(s)|} \sum_aq_{\pi}(s,a) - \frac{\epsilon}{|A(s)|} \sum_aq_{\pi}(s,a) + \sum_a \pi(a|s) q_{\pi}(s,a) \\ &= \sum_a \pi(a|s) q_{\pi}(s,a) \\ &=v_{\pi}(s) \end{aligned}$
1. 这里第二个等号，前半部分是以 $\epsilon$ 概率进行探索所获得的收益，其中包含1个最优动作 $A^* = \max_a q_{\pi}(s,a)$ ，后半部分是以 ( $\epsilon$ -1) 的概率去利用这个 $A^*$ 所获得的收益
2. 第三行的不等号，其实是把利用阶段获取的收益（后半部分）进行了修改
  1. 不等号左边是 “（以1的概率）“利用” 最优动作能获得的收益”
  2. 不等号右边是 “（以 $\frac{\pi(a|s) - \frac{\epsilon}{|A(s)|}}{1-\epsilon}$ 的概率）“利用” 任意动作能获得的收益的期望”。这里其实是个条件概率，分号上面是 “利用且选择a的概率”，分号下面是 “利用的概率”，于是除法的结果就是 “在利用时选择a的概率”，即：
    $\begin{aligned} P(选择a|处于利用阶段) &= \frac{P(在利用阶段选择a)}{P(处于利用阶段)} \\ &= \frac{P(选择a) - P(在探索阶段选择a)}{P(处于利用阶段)} \\ &= \frac{\pi(a|s) - \frac{\epsilon}{|A(s)|}}{1-\epsilon} \end{aligned}$
  因为我们定义最优动作获取的收益是最多的，所以最优动作的收益一定不少于所有动作的平均收益，这个不等号肯定成立
3. 我们推出了 $q_{\pi}(s,\pi'(s)) \ge v_{\pi}(s)$ ，根据策略改进定理（见强化学习笔记（3）—— MDP中的prediction和control问题中 2.2.3 节），可以保证 $v_{\pi'}(s) \ge v_{\pi}(s)$ ，即每一轮策略提升得到的策略一定更好，整个流程最终一定会收敛到最优。

3.2 方法4：基于离轨策略方法的MC control方法

思想：基于GPI框架，使用离轨策略方法。目标策略 $\pi$ 设定为在Q上的贪心策略；行动策略可以是任意策略，但为了保持试探，把行为策略 $b$ 设定为一个 “ $\epsilon$ 软性” 策略
伪代码

说明：
1. 这里使用了类似上面prediction的增量式实现，优化Q函数，并以此为基础贪心得到目标策略 $\pi$
2. 使用了加权重要度采样，由W代表相应G的重要度采样比，在反向循环的过程中不断连乘。由于目标策略 $\pi$ 是贪心策略，贪心得到的动作a必有 $\pi(a|S_t) = 1$ ，最后一行更新重要度采样比时，乘数分子写1即可
3. 若 $A_t \neq \pi(S_t)$ ，这是说这一步得到的回报与目标策略不符，和3.2.3节中的分析相同，这个这个动作之前（含此动作）的轨迹都不再考虑，退出内层for循环
4. 一个潜在的问题是，这种方法只从episode的尾部开始学习。如果非贪婪的动作很常见，就会有很多由于 $A_t \neq \pi(S_t)$ 提前退出的情况，学习就会很慢，特别是对于那些在很长的episode中较早出现的状态更是如此。处理这个问题最重要的方法可能是时序差分学习（TD），下面将会介绍

3.3 小结

本节综合讨论了MC control的若干方法，它们都使用GPI框架，要求满足的假设从强到弱、实用性和通用性从弱到强
1. MC版Policy iteration（同轨）：完全仿照model-based情况下的control方法policy iteration，只是把价值评估部分改用MC方法实现。它有两个很强的假设：“观测到无穷episode” 和 “保证试探性出发”
2. 蒙特卡洛ES（同轨）：在MC版Policy iteration基础上，放宽 “观测到无穷episode” 这个假设。利用GPI的思想，每获得一个episode就对其覆盖的状态进行一次部分策略评估和提升，直到收敛为止。
3. 没有试探性出发假设的MC control方法（同轨）：在蒙特卡洛ES的基础上，再放宽 “保证试探性出发” 这个假设。通过把策略从 “贪心” 改为 “ $\epsilon$ -贪心” ，从而在优化策略的同时保持试探。
4. 基于离轨策略方法的MC control方法（离轨）：如果只是使用 “ $\epsilon$ -贪心” 策略，不能收敛到最优，因为总有 $\epsilon$ 的概率会随机选择动作（除非在训练中逐步减小 $\epsilon$ ，比如令 $\epsilon = \frac{1}{t}$ ）。但若使用离轨策略方法，这个问题便迎刃而解，这时我们可以使用更有试探性的行为策略（如 $\epsilon$ -贪心）来训练一个固定的目标策略（如贪心）。不仅如此，行为策略还可以来自其他非学习型算法或人类专家，这使离轨方法更加强大和通用。注意策略评估时要使用 “重要度采样比” 修正分布偏差。
关系图

4. Temporal-Difference Learning (TD) Control

TD control的基本框架是 GPI，不过在策略评估部分使用同轨或离轨的 TD 方法实现

4.1 方法1：Sarsa（同轨）

4.1.1 Sarsa prediction

思想：sarsa prediction其实就是 2.3.1 节提到的 “同轨策略下 q(s,a) 的TD prediction” 方法。对于如下每一幕episode

对于episode中每个二元组 $S_t,A_t)$ ，观测环境转移 $(S_t,A_t) \stackrel{P}{\to} (R_{t+1},S_{t+1})$ 得到下一时刻状态 $S_{t+1}$ ，再用同轨策略 $\pi$ 获得下一时刻动作 $S_{t+1} \stackrel{\pi}{\to} A_{t+1}$ ，然后基于二元组 $S_{t+1},A_{t+1})$ 的当前价值估计 $Q(S_{t+1},A_{t+1})$ ，通过稳定（或非稳定）增量式方法进行迭代更新二元组 $S_t,A_t)$ 价值（若状态是终止状态，对应的Q函数值为0）。这个过程简单说就是要多往前看一步，Q函数递推更新公式如下：
$Q(S_t,A_t) =\left\{ \begin{aligned} & Q(S_t,A_t) +\alpha[(R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) )-Q(S_t,A_t)] &,S_t不是终止状态 \\ & 0 & ,S_t是终止状态 \end{aligned} \right.$ 更新规则用到了五元组 $S_t,A_t,R_{t+1},S_{t+1},A_{t+1})$ 中的所有元素，这正是 “Sarsa” 这个名称的由来。
回溯图：可以看到，每一次更新Q函数， $S_t \to A_t$ 和 $S_{t+1} \to A_{t+1}$ 使用了两次试探性策略 $\pi$

4.1.2 Sarsa control

思想：
1. 基于sarsa prediction方法设计一个基于同轨策略方法的control算法是简单而直接的。我们持续地对策略 $\pi$ 进行sarsa prediction以得到其动作价值函数 $q_{\pi}$ ，并在每一轮迭代中基于 $q_{\pi}$ 朝着贪心方向优化 $\pi$ 。
2. TD target = $R_{t+1} + \gamma Q(S_{t+1},A_{t+1})$
3. 和上面讨论MC时一样，这里也会遇到 “保持试探” 问题。我们可以采用 “ $\epsilon$ -贪心” 或 “ $\epsilon$ -软性” 策略 $\pi$ 。
收敛性：只要保证所有 (s,a) 二元组都能被无限多次访问到，control过程就能收敛。如果让试探概率 $\epsilon$ 在评估过程中逐渐递减（比如让 $\epsilon = \frac{1}{t}$ ），sarsa就能以1的概率收敛到最优的策略和价值函数
伪代码
示例（有风的网格世界）
- 本例子出自 Richard S.Sutton 《Reinforce Learning》第二版
- 如下图所示，这是一个有起始状态和目标状态的网格世界环境。相比标准的网格世界有一点不同：网格中间部分存在一个向上的风。agent可以执行的动作有四种，即向上下左右移动一格，但在中间区域，agent执行动作后达到的位置会被 “风” 向上吹一点。风的强度因列而异，在每一列下面给出，代表着移到此列时会被吹上去的格子数。这是一个不折扣的分幕式任务（ $\gamma = 1$ ）。在达到目标状态之前，每一步会得到固定收益-1
- 图中的曲线展现了在这个任务中使用 “ $\epsilon$ -贪心的Sarsa Control” 的任务结果。横轴是逐episode累计的agent总步数，纵轴是agent成功到达目标的总次数（即完成任务的episode数目），其中 $\epsilon=0.1$ ， $\alpha=0.5$
- 如图所示，随着时间推移，目标达成得越来越快。当8000步时，贪心策略已经达到最优很久了（图中的蓝色线给出了一个最优解的轨迹，步数最小值为15步）。由于使用“ $\epsilon$ -贪心” 策略以保持试探，最终完成任务的平均步数比最优多了两步，稳定在17步左右。
- 需要注意的是，不能在这个任务上简单地使用MC方法，因为不是所有策略都能保证episode终止，如果一个episode陷入循环，那么下一幕任务永远不会开始；Sarsa这种 “step by step” 的方法则没有这种问题。

4.2 方法2：Q-learning（离轨）

4.2.1 Q-learning Control

思想：
1. Q-learning使用对最优动作价值 $q_*$ 的直接近似来学习 $Q(S_t,A_t)$ ，它是一种离轨方法
  1. 使用试探性 behavior policy $b$ （可以是随机策略，一般用 $\epsilon$ -贪心）来保持试探
  2. 使用贪心算法作为确定性的 target policy $\pi$
  3. 这是一种value-based方法，显式学习最佳动作价值函数 $q_*$ ， $\pi_*$ 由 $q_*$ 隐式表示（基于 $q_*$ 做一遍贪心）
  Q-learning 直接估计出 $q_*$ ，某种程度上说是在对最优策略 $\pi^*$ 做 prediction，这和之前说明的 prediction 方法都不同
2. TD target = $R_{t+1}+\gamma \max_aQ(S_{t+1},a)$ ，Q函数更新方式如下：
  $Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha[R_{t+1}+\gamma \max_aQ(S_{t+1},a)-Q(S_t,A_t)]$ 这里的 $max_a$ 是 Bellman optimal equation 的体现
  
  Note：由于Q-learning是 value-based 方法，在线学习过程中，始终采用试探性的行动策略 $b$ 和环境交互，如果Q函数收敛后不进行一步离线贪心得 $\pi_*$ 的操作，就无法用 $\pi_*$ 和环境交互来获得最大奖励，除非在学习过程中逐步减小试探概率至0，这样行动策略 $b$ 也会收敛到 $\pi_*$
回溯图：可以看到，相比Sarsa，Q-learning在 $S_t \to A_t$ 使用了试探性行动策略 $b$ ，在 $S_{t+1} \to a$ 使用了贪心目标策略 $\pi$
收敛性：只要保证所有 (s,a) 二元组都能被无限多次访问到，状态动作价值函数Q就能以1的概率收敛到 $q_*$ ；如果使行动策略 $b$ 的试探概率 $\epsilon$ 在评估过程中逐渐递减（比如让 $\epsilon = \frac{1}{t}$ ）， $b$ 也能在在线学习过程中以1的概率收敛到最优策略 $\pi_*$
伪代码：

说明：
1. 这里Loop循环中第一句Choose A时使用的是试探性的行动策略 $b$ ，这里选中的动作也是agent真实执行的动作
2. 在更新Q函数值时通过 $max_a$ 贪心选中的动作a不会实际执行，只是用它的动作状态价值来更新Q
Q-learning 不需要重要性采样比：作为一个 off-policy 算法，Q-learning 不需要重要性采样比，这是因为其是以 optimal Bellman 估计量作为目标，即
$\begin{aligned} q_*(s,a) &= \max\mathbb{E}_{\pi_*}[G_t|S_t=s,A_t=a] \\ &= \max \mathbb{E}_{\pi_*}[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a] \\ &= \mathbb{E}[R_{t+1}+\gamma \max_{a'}q_*(S_{t+1},a')|S_t=s,A_t=a] \\ &= \sum_{s',r}p(s',r|s,a)[r+\gamma \max_{a'}q_*(s',a')] \end{aligned}$ 注意到：等式右侧的期望只与状态转移分布有关而与策略无关，不论训练 transition 来自于哪个策略，按照 Q-Learning 的更新式更新都能使 $Q$ 函数接近 $Q^*$ ，因此 Q-Learning 可以不采用重要性采样 (DQN算法同理)

离轨算法需要重要性采样比的原因，本质上是价值估计和策略分布有关；而在 Q-learning 中，只有行为策略会决定价值，目标策略是通过 $\argmax$ 操作从价值派生出来的，所有这类方法都不需要重要度采样比

4.2.2 对比 Sarsa 和 Q-learning

示例 “在悬崖边行走”：本例子出自 Richard S.Sutton 《Reinforce Learning》第二版，考虑下图所示的网格世界

这是一个标准的不折扣（ $\gamma = 1$ ）分幕式任务。它包含起点和目标状态，可以执行上下左右这些标准动作。下面灰色部分是悬崖，掉下悬崖会获得-100的奖励，同时把agent送回起点，其他转移得到的每步收益为-1。
下图显示了使用 $\epsilon$ -贪心方法（ $\epsilon = 0.1$ ）来选择动作时，Sarsa和Q-learning方法的表现。
1. 训练一小段时间后，由于TD target中的贪心选择，Q-learning学得了最优的动作状态价值 $q_*$ （即图中红线），但由于behavior policy的试探性，在执行此策略时agent有可能掉入悬崖，使得在线性能下降，平均收益在 -50 左右
2. 与之相比，Sarsa会多向前看一步，掉下悬崖的情况会被考虑，这使得悬崖边位置的价值下降，由于掉下悬崖的负奖励相对移动的负奖励太大，所以agent会尽量远离悬崖，最终找到了最安全策略（即图中蓝线）。虽然Sarsa没有找到最优动作状态价值 $q_*$ ，但其在线性能反而超过学得 $q_*$ 的Q-learning，平均收益在 -25 左右。
3. 如果使 $\epsilon$ 逐步减小，那么两种方法都会渐进地收敛到最优 $q_*$ 和 $\pi_*$ ，对于Q-learning，也可以考虑在收敛后再离线地在 $q_*$ 上做一次贪心以得到最优策略

总结：
1. Q-learning的 TD target = $R_{t+1}+\gamma \max_aQ(S_{t+1},a)$ 与生成轨迹的策略无关，离轨的行为策略 $b$ 只决定哪些(s,a)二元组会被更新，因此在满足收敛条件的前提下一定能学得最佳动作价值函数 $q_*$ 。在线学习过程中，Q-learning离轨地学得 $q_*$ ，但并没有直接学到 $\pi_*$ ，由于一直使用试探性的行为策略 $b$ 和环境交互，无法获得最优表现。
2. Sarsa的 TD target = $R_{t+1} + \gamma Q(S_{t+1},A_{t+1})$ 中用到了轨迹中由同轨策略 $\pi$ 选出的 $A_{t+1}$ ，其Q函数更新过程（学习过程）和其轨迹的生成过程相互影响，可能无法学出最佳动作价值函数 $q_*$ ，但在在线学习时会学得某种前瞻性。
3. 假设以贪心的方法选择动作，那么此刻Q-learning的behavior policy和target policy完全一致，等价于使用贪心策略的Sarsa方法，会做出完全相同的动作和价值更新。这种情况下不能保持试探，会陷入局部最优。

4.3 方法3：期望 Sarsa（同轨或离轨）

思想：
1. 期望Sarsa是一种与Q-learning十分类似的方法，只是把其中的取下一时刻Q最大值的贪心过程改成了取期望
2. TD target = $R_{t+1}+\gamma \mathbb{E}[Q(S_{t+1},A_{t+1}) | S_{t+1}]$ ，Q函数更新方式如下：
  $\begin{aligned} Q(S_t,A_t) & \leftarrow Q(S_t,A_t) + \alpha[R_{t+1}+\gamma \mathbb{E}[Q(S_{t+1},A_{t+1}) | S_{t+1}]-Q(S_t,A_t)] \\ & \leftarrow Q(S_t,A_t) + \alpha[R_{t+1}+\gamma \sum_a \pi(a|S_{t+1})Q(S_{t+1},a)-Q(S_t,A_t)] \end{aligned}$
3. 给定下一个状态 $S_{t+1}$ ，这个算法会确定地向期望意义上的Sarsa算法所决定的方向上移动，因此此算法被叫做期望Sarsa
4. 期望Sarsa可以和Sarsa一样基于同轨方法实现，也可以和Q-learning一样基于离轨方法实现
回溯图： $S_t \to A_t$ 使用同轨策略 $\pi$ 还是离轨策略 $b$ 决定了期望Sarsa是同轨还是离轨
对比期望Sarsa、sarsa、Q-learning（示例：在悬崖边行走）：
1. 还是使用上面 “在悬崖边行走” 这个任务
2. 下图给出了三种方法随着学习率 $\alpha$ 提升，其长期性能（Asymptotic Performance）和短期性能（Interim Performance）的变化。
  1. 随着 $\alpha$ 的增大，三种方法的短期性能都明显上升，这是因为动作价值函数Q更加靠近最近的经验。
  2. 这个例子中，所有状态的转移都是确定的，随机性仅来自于策略。本质上每个动作状态价值 $Q(S_t,A_t)$ 都是由 $R_{t+1}+\gamma \mathbb{E}[Q(S_{t+1},A_{t+1}) | S_{t+1}]$ 决定的。
    1. 对于Q-learning和期望Sarsa（这里是同轨的），其Q函数更新过程中都考虑到所有相邻状态，因此 $\alpha$ 的变化不会影响长期性能。
    2. 对于Sarsa，它在每次更新Q函数时只考虑了一种相邻状态，其需要通过大量尝试来逼近这个期望（有点像MC方法）；而且Sarsa是同轨方法，对动作状态价值的不准确估计会影响后续的动作选择。这两个因素导致Sarsa的长期性能严重下降。
  3. 无论长期还是短期奖励，无论学习率如何，期望Sarsa的性能都显著高于Sarsa 和 Q-learning，除了增加少许复杂度以外，期望Sarsa应该完全优于这两种更加知名的TD control方法。
假设在基于离轨方法实现期望Sarsa时，目标策略 $\pi$ 选择贪心策略，行动策略 $b$ 选择一个试探性策略，这时 $\mathbb{E}[Q(S_{t+1},A_{t+1}) | S_{t+1}] = \max_aQ(S_{t+1},a)$ ，期望Sarsa就退化为Q-learning。可以说期望Sarsa推广了Q-learning，Q-learning是期望Sarsa的一种特例

4.4 方法4：双学习（同轨或离轨）

4.4.1 最大化偏差

大部分TD control算法都包含 “最大化操作”，比如Q-learning中目标策略 $max_aQ(S_{t+1},a)$ 的贪心操作，或是 sarsa 中的 $\epsilon$ -贪心操作
在估计值的基础上进行最大化操作也可以被看作隐式地对最大值进行估计，这会带来一个显著的正偏差。 举例来说，假设状态 $s$ 下可以选择多个动作 $a$ ，所有二元组 $(s, a)$ 的真实价值 $q (s, a)$ 都为0。在估计状态动作价值时，估计值 $Q (s, a)$ 是不确定的，可能大于0也可能小于0，但由于我们的最大化操作，往往会选出偏大的估计，这就产生了正偏差。
最大化偏差会损害TD算法的性能
- 本例子出自 Richard S.Sutton 《Reinforce Learning》第二版
- 考虑下图所示的简单MDP
  
  这个MDP有A和B两个非终止节点。每幕从A开始并随机向左或右前进，如图所示，以向右开始的轨迹return为0；以向左开始的轨迹return服从均值-0.1方差1.0的正态分布。 在已知MDP的Model-based情况下，可以轻易看出从A开始向左的收益均值为-0.1，而向右是0，所以我们的策略应该完全不选择向左。
1. 使用Q-learning算法进行学习，行动策略使用 $\epsilon$ -贪心，设置 $\epsilon=0.1,\alpha = 0.1,\gamma = 1$ 。结果如折线图红线所示，Q-learning在开始阶段选择向左的概率远高于向右，且向左的概率会一直显著地高于5%（即使用 $\epsilon=0.1$ 的概率随机试探引起的最低的向左运动概率）
2. 造成这个问题的本质是确定价值最大的动作和估计价值这两个过程使用了相同的样本（多幕序列），用 Q-learning 的Q函数更新公式计算 $Q (A, 向左)$ 时，带入参数值有
  $\leftarrow Q(A,向左) + 0.1\times[0 +1\times \max_aQ(B,a)-Q(A,向左)]$
  1. 确定价值最大动作：每轮更新时， $\max_a Q(B,a),a \in \mathcal{N}(-0.1,1)$ 这个操作，会使B到左边终态的每一个可能路线进行一次 $\mathcal{N}(-0.1,1)$ 上的采样作为奖励（也是 $Q (B, a)$ ），一旦某个采样结果为正奖赏，这里的最大化操作就会选出一个具有正价值的二元组 $(B, a)$
  2. 估计价值：直接使用 $max_a Q(B,a)$ 估计 $Q (A, 向左)$ 时，导致最大化操作得到的早期正价值进一步转移到 $Q (A, 向左)$ 上，使得学习过程初期倾向于选择向左。
  3. 随着学习过程进行，确定价值最大动作时大量的正态分布采样给出大量负价值的 $(B, a)$ ，逐渐修正 $Q (A, 向左)$ 为负，选择向左走的概率随之降低。
3. 使用下面介绍的双学习可以有效解决最大化偏差问题，折线图绿线给出了双Q学习的动作情况

4.4.2 双学习

分析
- 分析上面的问题后，可以发现问题的本质在于：最大化操作选出的动作 $a$ ，其状态动作价值 $Q(S_{t+1},a)$ 是真实状态动作价值 $q(S_{t+1},A_{t+1})$ 的一个有偏估计（偏大），又由于确定价值最大的动作和估计价值这两个过程使用了相同的样本（多幕序列），导致依赖 $Q(S_{t+1},a)$ 进行计算的 $Q(S_t,A_t)$ 也成为有偏估计。
- 最大化操作带来的估计偏差是不可避免的，想要得到无偏的Q函数，只能考虑防止估计偏差从 $Q(S_{t+1},a)$ 传递到 $Q(S_t,A_t)$ ，双Q学习是一种可行的方法
思想：
1. 将样本分为两个集合，并用它们学习两个独立的、对真实价值 $q (a)$ 的估计 $Q_1(a)$ 和 $Q_2(a)$
2. 使用其中一个估计 $Q_1(a)$ 来确定最大动作 $A^* = \argmax_aQ_1(a)$ 再用另一个 $Q_2$ 来计算其价值的估计 $Q_2(A^*) = Q_2(\argmax_aQ_1(a))$ 由于 $\mathbb{E}[Q_2(A^*)] = q(A^*)$ ，因此这个估计是无偏的。同理还可以得到另一个无偏估计 $Q_1(\argmax_aQ_2(a))$ 。虽然这里一共学习了两个估计值，但是对每个样本集合只更新一个估计值。双Q学习需要双倍的内存，但每步无需额外的计算量
3. 双学习的思想可以自然地推广到那些为完备MDP设计的算法中，例如双Q学习、双sarsa学习、双期望sarsa学习等。以双Q学习为例，所有时刻被一分为二，以一半一半的概率执行以下两个更新
  $Q_1(S_t,A_t) \leftarrow Q_1(S_t,A_t) + \alpha[R_{t+1}+\gamma Q_2(S_{t+1},\argmax_aQ_1(S_{t+1},a))-Q_1(S_t,A_t)] \\ Q_2(S_t,A_t) \leftarrow Q_2(S_t,A_t) + \alpha[R_{t+1}+\gamma Q_1(S_{t+1},\argmax_aQ_2(S_{t+1},a))-Q_2(S_t,A_t)]$
4. 双学习中两个近似函数的地位是完全相同的，两种动作价值的估计值都可以在行为策略中使用。比如双Q学习的行为策略可以基于两个Q函数的均值或和进行 $\epsilon$ -贪心
伪代码（双Q学习）

4.5 小结

本节综合讨论了TD control的若干方法，它们都使用GPI框架。在prediction阶段，我们也会遇到MC Control中的 “保持试探” 问题，根据prediction时使用的是同轨还是离轨方法，可以把TD control方法分成同轨和离轨两类。
1. Sarsa（同轨）：使用同轨的 $\epsilon$ -贪心” 策略 $\pi$ 保持试探；更新时用 $\pi$ 往前看两步
2. Q-learning（离轨）：使用试探性的 $\epsilon$ -贪心” 策略作为行动策略 $b$ 保持试探，使用确定性贪心策略 $\pi$ 作为目标策略。是一种value based方法
3. 期望Sarsa（同轨或离轨）：使用试探性的 $\epsilon$ -贪心” 策略作为行动策略保持试探，目标策略可以和行动一致也可不一致，依赖下一步状态价值的期望进行更新
4. 双学习（同轨或离轨）：为了消除最大化偏差而使用的一种技巧，可以用来扩展各种为完备MDP设计的算法。以上三种算法都可以扩展到双学习版本
回溯图对比
扩展方向
1. 本节介绍的几种TD方法都属于：单步、表格型、无模型的TD方法。它们的的共同特性是可以用在线地用相对少的计算量处理经验，都用TD error驱动
2. 这些TD方法可以在以上三个角度扩展，单步形式可以扩展到n步形式（和MC相联系）；无模型可以扩展到包含环境的形式（与规划和动态规划联系）；表格型可以扩展到函数近似（和深度学习神经网络联系）。以后的文章再深入分析
3. 本节仅在强化学习背景下探讨TD方法，但TD方法实际上是用于学习如何在动态系统中做出长期预测的一般方法。