论文理解【RL - Exp Replay】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL_regret minimization experience replay in off-polic-CSDN博客

本文链接：https://blog.csdn.net/wxc971231/article/details/126423404

标题：Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
文章链接：Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
发表：NIPS 2021
作者 presentation：【RLChina论文研讨会】第11期刘旭辉 Regret Minimization Experience Replay in Off-Policy RL
领域：强化学习 —— Experience Replay

摘要：在强化学习中，experience replay 是存储过去的 transition 样本以供进一步重用的一种技巧，优先采（PER）是更好地利用这些经验 transition 样本的一种很有前途的技术。过去的优先顺序标准包括 TD error、最近性（recentness，即 on-policy 性质）和纠正性反馈（corrective feedback），它们大多是启发式设计的。在这项工作中，我们从后悔最小化这一目标出发，得到了一个最优的优先策略，可以直接最大化策略的 return。该理论建议，事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition，应在抽样过程中赋予更高的权重，大多数过去的采样标准只考虑了其中的一部分。我们不仅为过去的标准提供了理论依据，还提出了两种计算优先级权重的新方法，即 ReMERN 和 ReMERT。ReMERN 学习一个 error network，而 ReMERT 利用访问状态的时间顺序。这两种方法在 RL benchmarks 测试中（包括MuJoCo、Atari 和 Meta World）都优于过去的优先采样算法

1. 本文方法

本文的目标是设计一种 replay-buffer 的非均匀优先级采样方法，之前论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay 这篇文章中，我们已经说明过 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的，所以本文作者的目标就是设计一个新的价值网络损失函数，具体来说，就是在原来基于 TD error 的损失中对每个 $(s, a)$ 样本增加一个权重项 $w (s, a)$ ，这个目标和论文理解【RL - Exp Replay】—— 【DisCor】Corrective Feedback in RL via Distribution Correction 这篇文章相同，借用那边的公式
$Q_{k} \leftarrow \arg \min _{Q} \frac{1}{N} \sum_{i=1}^{N} w_{i}(s, a) \cdot\left(Q(s, a)-\left[r(s, a)+\gamma Q_{k-1}\left(s^{\prime}, a^{\prime}\right)\right]\right)^{2}$

1.1 思想

作者考察了几个过去的非均匀优先级采样方法，之前主要有两条路线
1. 以 PER 为代表的基于 TD error 的优先方案，对高 TD error 的样本给予高权重
2. 以 DisCor 为代表的基于 Q 价值估计准确性的优先方案，对 Q 价值估计更准确的样本基于高权重
作者发现针对无论是针对 TD error 还是针对 Q 价值准确性进行优化，都不一定能提升 agent 性能，也就是说过去非均匀采样方案的优化目标和强化学习的根本目标（最大化 return）是有偏的
作者举了一个例子，如下图所示的五状态 MDP， $S_0, S_T$ 分别是起始和终止状态，使用 value iteration 方法进行训练
1. 这个 MDP 的最优策略是一直向右走直到 $S_3$ ，然后向左到终点
2. 价值初始为0时，每个位置向左移动都有更高的 TD error，因此 PER 类方法会倾向于次优动作。如图 b 所示，加入 PER 后 TD error 始终较低（绿线），但是收敛速度下降了（红线）
3. 每个位置向左移动都直接到终点，而越靠近轨迹终点的状态价值估计误差越小，因此 DisCor 类方法会倾向于次优动作。如图 c 所示，加入 PER 后 Q 价值估计始终更准确（绿线），但是收敛速度下降了（红线）
作者注意到过去的采样方法和 RL 的目标都是有偏的，于是想将其建模为一个无偏的约束优化问题，直接解出最好的优先级采样方案

1.2 符号说明

MDP： $(\mathcal{S,A},T,r,\gamma,\rho_0)$
agent 目标：最大化策略 $\pi$ 的期望 return： $\eta(\pi)=\mathbb{E}_\pi[\sum_{t\geq 0}\gamma^tr(s_t,a_t)]$ ，其中 $s_0\sim\rho_0$ ， $a_t\sim\pi(·|s_t)$ ， $s_{t+1}\sim T(·|s_t,a_t)$
对于一个 fixed policy，MDP 变成一个 Markov chain，策略 $\pi$ 诱导的折扣 $s$ 分布记为 $d^\pi(s)$ ，折扣 $(s, a)$ 分布记为 $d^\pi(s,a) = d^\pi(s)\pi(a|s)$

这里的分布可以看作如下计算的：设 $k (s)$ 表示某条规矩中访问状态 $s$ 的次数，则
$\rho_0(s)+\gamma\sum_{\bar{s}}k(\bar{s})\sum_a\pi(a|\bar{s})T(s|\bar{s},a)$ 其中 $\bar{s}$ 是 $s$ 的前驱状态。用上述公式解出各个状态的访问次数后，如下计算 $s$ 的分布
$d^\pi(s) =\frac{k(s)}{\sum_{s'}k(s')}$

在无限访问假设下，任意 $(s, a)$ 可能处于轨迹中的任意位置，因此可以把 $\eta(\pi)$ 中 $λ$ 系数连加部分提出来做等比数列求和，当 $λ < 1$ 且轨迹 horizon $\to \infin$ 时，从某个 $(s, a)$ 处得到的 return 可以表示为
$\lim_{t\to \infin}(\gamma^0+\gamma^1+\gamma^2+...+\gamma^t)r(s,a) = \lim_{t\to \infin}\frac{\gamma^0(\gamma^{t+1}-1)}{\gamma-1}r(s,a) = \frac{1}{1-\gamma}r(s,a)$ 于是策略 $\pi$ 的期望 return $\eta(\pi)$ 可以表示为
$\eta(\pi) = \frac{1}{1-\gamma}\mathbb{E}_{d^\pi(s,a)}[r(s,a)]$
最优策略 $\pi^* = \arg\max_\pi\eta(\pi)$
$Q$ 函数： $Q^\pi(s,a) = \mathbb{E}_\pi[\sum_{t\geq 0}\gamma^tr(s_t,a_t)|s_0=s,a_0=a]$
最优 $Q$ 函数 $Q^* = Q^{\pi^*}$ ，满足 Bellman 最优函数， $Q^*(s,a) = \mathcal{B^*}(Q^*(s,a))$ 。其中 $\mathcal{B}^*:\mathbb{R}^{\mathcal{S\times A}}\to\mathbb{R}^{\mathcal{S\times A}}$ 是 Bellman 最优算子
策略 $\pi$ 的后悔（regret）定义为 $\text{Regret}(\pi) = \eta(\pi^*)-\eta(\pi)$ ，它代表着遵循策略 $\pi$ 而非 $\pi^*$ 导致的期望 return 损失。由于 $\eta(\pi^*)$ 是一个定值，所以最小化 $\text{Regret}(\pi)$ 等价于最大化 $\eta(\pi)$ ，这也是一般强化学习的目标

1.3 求解最优权重

将 1.1 节的讨论形式化为优化问题，我们的目标是找到一个可以直接最小化策略的 regret 的最优优先采样权重 $w_k$ 。为了便于推导，只考虑 Bellman 更新的最优 $Q$ 函数，第 $k$ 轮迭代时优化问题形式化如下
$\begin{array}{ll} \min _{w_{k}} & \eta\left(\pi^{*}\right)-\eta\left(\pi_{k}\right) \\ \text { s.t. } & Q_{k}=\underset{Q \in \mathcal{Q}}{\arg \min } \mathbb{E}_{\mu}\left[w_{k}(s, a) \cdot\left(Q-\mathcal{B}^{*} Q_{k-1}\right)^{2}(s, a)\right], \\ & \mathbb{E}_{\mu}\left[w_{k}(s, a)\right]=1, \quad w_{k}(s, a) \geq 0 \end{array}$ 其中 $\mathcal{Q}$ 是 $Q$ 函数空间， $\mu$ 是 replay buffer 中的数据分布， $Q_k$ 是第 $k$ 轮迭后得到的 $Q$ 估计值，用它来生成对应的玻尔兹曼探索策略
$\pi_k(s) = \frac{\text{exp}(Q_k(s,a))}{\sum_{a'}\text{exp}(Q(s,a'))}$
接下来设法解决这个优化问题，首先定义 recurring probability

Definition 1（Recurring Probability）：策略 $\pi$ 的循环概率定义为
$\epsilon_\pi = \text{sup}_{s,a}\sum_{t=1}^\infin\gamma^t\rho^\pi(s,a,t)$ 其中 $\rho^\pi(s,a,t) = \text{Pr}(s_0=s,a_0=a,s_t=s,s_{1:t-1}\neq a;\pi)$ 是 agent 按策略 $\pi$ 运行时，从 $(s, a)$ 启动并在时间步 $t$ 首次返回到 $s$ 的概率。 $\epsilon_\pi$ 代表按 $\pi$ 运行时，从 $(s, a)$ 启动迟早返回 $s$ 的累计折扣概率的上确界
上述优化问题在温和条件下的松弛解如下

其中的误差项的 upper bound $\epsilon_{\pi_k}$ 在两种情况下趋于 0
1. 返回已访问状态的概率很小
2. 返回已访问状态需要的步数很多
这两个在大部分问题中都满足，因此上式中 $\epsilon_{k,1},\epsilon_{k,2}$ 两项可以忽略不计（相比 $E_k$ 和 $F_k$ 太小了）。从公式看，我们应该对 replay buffer 中具有以下属性的 transition 赋予更高的权值
1. 更高的事后 Bellman error：从 $|Q_k-\mathcal{B}^*Q_{k-1}|(s,a)$ 得到，该项类似 PER 的优先标准，但是 PER 更关心历史 Bellman error，即 $|Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a)$
  
  这里所谓的 “事后 Bellman error” 是指：该轮迭代使用 $Q_{k-1}$ 计算，迭代结束时得到 $Q_k$ ，即本轮迭代进行计算之前是无法得到这个 error 的，只有计算这一 “事” 后才能得到
2. 更强的 on-policy 性质：从 $\frac{d^{\pi_k}(s,a)}{\mu(s,a)}$ 得到，注意到任意时刻 $k$ ，replay buffer 中的数据分布 $\mu(s,a)$ 是定值，因此这项强调 $d^{\pi_k}(s,a)$ ，关注当前策略 $\pi_k$ 更可能访问的 $(s, a)$ 。这种优先级策略出现在 LFIW 和 BCQ 中
3. 与真实最优价值估计更接近：从 $(\text{exp}(− |Q_k− Q^∗|(s,a))$ 得到。这一项表示在 Bellman 更新后 $Q$ 值估计不太准确的 $(s, a)$ 应分配较低的权重。不准确的 TD target 或 deep Q network 中的函数逼近误差都可能导致 $Q$ 值估计不准，这会导致 $Q$ 价值估值器的次优更新，直觉上这些 $(s, a)$ 应该被降权
4. 行动概率较小：从 $2− π_k(a|s))$ 得到。该项仅存在于具有离散动作空间的 MDP 中，它在一定程度上抵消了策略项 $d^{π_k}$ 的影响，提升这些小概率动作的权重可以加强探索
先前的各种算法都只考虑了这个优先级规则中的一部分，比如 DisCor 没有考虑到 on-policy 性质，PER 没有考虑到 Q 价值估计的准确性，接下来我们给出上述公式 (2) 和 (3) 中每一项的近似值

Note：我们这里解出的只是温和条件时的近似值，所以和 DisCor 一样，在做近似替代时的核心思想是做 “降权”，即替代后得到的 $w_k$ 要小于公式表示的真实 $w_k$ ，宁可优化时慢一点，也不要强调错误的方向。具体而言， $\left|Q_{k}-Q^{*}\right|$ 要用其 upper bound 代替； $\left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right|$ 和 $2− π_k(a|s))$ 要用其 lower bound 代替
1. a 项 $\frac{d^{\pi_k}(s,a)}{\mu(s,a)}$ 是当前策略诱导的 $(s, a)$ 分布和 replay buffer 中的 $(s, a)$ 分布之间的重要权重。我们可以使用无似然重要性加权 Likelihood-Free Importance Weighting（LFIW）来计算该项，它将 replay buffer 分为快速缓冲区 $D_f$ 和慢速缓冲区 $D_s$ 两部分。我们设置一个神经网络 $k_\psi(s,a)$ 来估计 $\frac{d^{\pi_k}(s,a)}{\mu(s,a)}$ ，根据以下损失函数进行优化：
  $L_k(\psi):=\mathbb{E}_{\mathcal{D}_s}[f^*(f'(k_\psi(s,a)))] -\mathbb{E}_{\mathcal{D}_f}[f'(k_\psi(s,a))]$ 其中 $f'$ 和 $f^∗$ 是函数 $f$ 的导数和凸共轭。这部分的详细说明请参考：论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights 1.3 节
2. b 项 $2− π_k(a|s))$ ，由于 $\pi_k$ 是更新后的策略，不能直接计算，因此通过上下界来近似，有 $1\leq 2-\pi_k(s,a)\leq 2$
3. d 项 $|Q_k-\mathcal{B}^*Q_{k-1}|(s,a)$ ，由于 $Q_k$ 是更新后的价值估计，不能直接计算，因此通过上下界来近似，可以把它限制在上次迭代中获得的最小和最大 Bellman error 之间
  $c_1 = \min_{s,a} |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a) \\ c_2 = \max_{s,a} |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a)$ 如 DisCor 论文所示，我们可以限制 replay buffer 中用于计算 $c_1,c_2$ 的 $(s, a)$ ，以保证二者都是有限的
4. c 项 $Q_k-Q^*|$ 最难处理，作者设计了两种方法来估计它，分别对应他提出的两种方法，下面具体说明

1.3.1 使用神经网络进行估计（ReMERN）

这里作者使用和 DisCor 论文提出的方法估计 $Q_k-Q^*|$ ，DisCor 论文说明了可以使用 $\triangle_k$ 作为 $\left|Q_{k}-Q^{*}\right|$ 的 upper bound，其定义为
$\begin{aligned} \Delta_{k} &=\sum_{i=1}^{k} \gamma^{k-i}\left(\prod_{j=i}^{k-1} P^{\pi_{j}}\right)\left|Q_{i}-\mathcal{B}^{*} Q_{i-1}\right| \\ \Longrightarrow \Delta_{k} &=\left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right|+\gamma P^{\pi_{k-1}} \Delta_{k-1} \end{aligned}$ 再把 $\left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right|$ 替换为其上界 $c_2$ ，就得到了可以表示的 $Q_k-Q^*|$ 上界
注意上式中给出了 $\triangle_k$ 的递归定义，因此可以像价值函数一样用神经网络 + ADP 的方法来估计它。把前面所有的降权放缩项都替换掉，最后得到的 transition 权重为
$w_{k}(s, a) \propto \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} \exp \left(-\gamma\left[P^{\pi_{k-1}} \Delta_{k-1}\right](s, a)\right)$ 其中 $\frac{d^{\pi_{k}}(s, a)}{\mu(s, a)}$ 用 LFIW 方法估计（下图中 weight model）， $\triangle$ 使用神经网络估计（下图中 error model）。作者称这种方法为 ReMERN (Regret Minimization Experience Replay using Neural Network) 方法，伪代码为

1.3.2 使用时序结构进行估计（ReMERT）

上面使用神经网络估计 $Q_k-Q^*|$ 的上界，无论理论还是实践上都是比较慢的，作者注意到越靠近轨迹尾部的 $(s, a)$ ，其价值估计精度就越高，因此想通过这种轨迹上的 “时序结构” 对 $Q_k-Q^*|$ 进行估计
$|Q_k - Q^*| \leq |Q_k-\mathcal{B}^*Q_{k-1}| + |\mathcal{B}^*Q_{k-1}-Q^*|$ 其中
1. 第一项 $|Q_k-\mathcal{B}^*Q_{k-1}|$ 是 bootstrap error 函数近似误差，其取值是由价值函数的近似算法决定的（使用表格型方法时此项为 0，使用神经网络作为函数近似器时此项通常很小），无法控制
2. 第二项 $|\mathcal{B}^*Q_{k-1}-Q^*|$ 是 $Q$ 价值的更新目标和 ground-truth 之间的距离，注意到在轨迹终止位置其真实价值只包含一个即时 reward，因此不含第一项的 bootstrap error，有 $|\mathcal{B}^*Q_{k-1}-Q^*|=0$ ；bootstrap error 会随着轨迹反向累积，越靠前的位置 Q 价值估计越差，这样给更靠前位置提供的 TD target 也更差，导致 Q 价值估计精度不断下降
作者做了一个实验验证上述直觉，agent 从左上角位位置出发，穿过三道门到达右上角的终点，发现确实是越靠后的位置 Q 价值估计精度越高
为了形式化说明这一点，先定义 到终点的距离 Distance to End：

Definition 2（Distance to End）：给定 MDP $\mathcal{M}$ ，策略 $\pi$ 在 $\mathcal{M}$ 中交互得到轨迹 $\tau =\{s_t,a_t\}_{t=0}^T$ ，定义该轨迹中 $s_t,a_t)$ 的 “到终点的距离” 为
$h_\tau(s_t,a_t) = T-t$ 作者的直觉表明 $Q_k - Q^*|$ 的值和 “到终点的距离” 有关
接下来作者证明了温和条件下 $Q_k - Q^*|$ 和 $h$ 的关系为

这个定理2说明 $Q_k - Q^*|$ 有很高的概率被一个关于 “到终点距离” $h$ 和期望 Bellman error $L$ 的函数 upper bound 住。其中求期望的部分作者称为 时间正确性估计 Temporal Correctness Estimation (TCE)，忽略指数减小的 $g$ 项得到 $Q_k - Q^*|$ 的可处理 upper bound为
$\begin{aligned} \mid Q_{k}(s, a) &-Q^{*}(s, a) \mid \approx \mathbb{E}_{\tau} \operatorname{TCE}_{c}(s, a) \\ &=\mathbb{E}_{\tau}\left(f\left(h_{\tau}^{\pi_{k-1}}(s, a)\right)\left(L_{Q_{k-1}}+c\right)+\gamma^{h_{\tau}^{\pi_{k-1}}(s, a)+1} c\right) \end{aligned}$
接下来类似 1.3.1节 ReMERN 一样把所有降权放缩项都替换掉，最后得到的 transition 权重为
$w_{k}(s, a) \propto \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} \exp \left(-\mathbb{E}_{\tau} \operatorname{TCE}_{c}(s, a)\right)$ 其中 $\frac{d^{\pi_{k}}(s, a)}{\mu(s, a)}$ 用 LFIW 方法估计（下图中 weight model）； $\mathbb{E}_{\tau} \operatorname{TCE}_{c}$ 部分是在采样轨迹时就把各个 $(s, a)$ 的 “到终点距离” 记录在 replay buffer 中，然后用 MC 方法进行估计。作者称这种方法为 ReMERT (Regret Minimization Experience Replay using Temporal Structure) 方法，伪代码

2. 实验

作者分别在连续和离散环境中使用 SAC 和 DQN 作为 Baseline，将 ReMERN/ReMERT 与之前的优先采样方案做比较

2.1 连续环境

在 Mujoco 和 DMC任务中，ReMERN/ReMERT 在六个任务中的四个里超过基线方法，在其余两个任务（Halfcheetah 和 Hopper）中实现了可比的性能

注意到 ReMERT 超过了 ReMERN，说明作者 1.3.2 节提出的对 Q 价值估计准确性的评估方法是有效的，而 1.3.1 节这样基于神经网络的估计方法有一定误差
作者还在 Meta-World benchmark 上进行了测试，这系列环境的目标具有随机性，对于 model-free 方法而言是很难的环境。由于这里的终止状态不固定，ReMERT 方法无法使用

可见 ReMERN 相比 DisCor 有明显的性能提升

2.2 离散环境

作者使用 Atria 套件进行离散环境测试，这些游戏的起点和终点都比较固定，因此可以使用 ReMERT 方法。由于 DisCor 是 ReMERN 中的一个组件，但是 DisCor 没有适用于离散环境的开源代码，所以这里使用 DQN 进行对比

可见 ReMERT 实现了性能提升

2.3 ReMERN 和 ReMERT 的性能特性

2.3.1 对环境噪声的鲁棒性

注意到 ReMERN 在 Meta-World 上的性能比 Mujoco 好，作者认为这是因为 ReMERN 在高随机环境中的鲁棒性更好，因为在高随机性的环境下，ReMERN 相比其他方法可以更准确地估计出 Q 价值；但在环境随机性较低时，这种准确性反而可能成为性能瓶颈（就像 DisCor 那样）
作者在几个连续任务的 reward 中加入随机高斯噪声，发现 ReMERN 和 ReMERT 确实对噪声更有鲁棒性
另外奖励的噪声不影响轨迹的时序结构，因此 ReMERT 方法完全不受这类噪声影响

2.3.2 TCE 有效性

作者使用一个实验单独说明 TCE 的有效性，在 gridworld 离散环境中，使用 TCE 估计 $Q_k - Q^*|$ ，即 (2) 式中的 c 项，然后忽略 a/b/d 项计算 $w_k$ ，结合 DQN 进行训练；对比方法为 DQN、DQN+DisCor 和 DQN+Oracle（即 $Q_k - Q^*|$ 的 ground truth），实验结果如下

可见 DQN+TEC 的准确性超过了 DQN 和 DQN+DisCor，说明了 TEC 的有效性。DisCor 中 error network 缓慢的收敛速度导致其效率较低