- 标题:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
- 文章链接:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning
- 发表:NIPS 2021
- 作者 presentation:【RLChina论文研讨会】第11期 刘旭辉 Regret Minimization Experience Replay in Off-Policy RL
- 领域:强化学习 —— Experience Replay
- 摘要:在强化学习中,experience replay 是存储过去的 transition 样本以供进一步重用的一种技巧,优先采(PER)是更好地利用这些经验 transition 样本的一种很有前途的技术。过去的优先顺序标准包括 TD error、最近性(recentness,即 on-policy 性质)和纠正性反馈(corrective feedback),它们大多是启发式设计的。在这项工作中,我们从后悔最小化这一目标出发,得到了一个最优的优先策略,可以直接最大化策略的 return。该理论建议,事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition,应在抽样过程中赋予更高的权重,大多数过去的采样标准只考虑了其中的一部分。我们不仅为过去的标准提供了理论依据,还提出了两种计算优先级权重的新方法,即 ReMERN 和 ReMERT。ReMERN 学习一个 error network,而 ReMERT 利用访问状态的时间顺序。这两种方法在 RL benchmarks 测试中(包括MuJoCo、Atari 和 Meta World)都优于过去的优先采样算法
文章目录
1. 本文方法
- 本文的目标是设计一种 replay-buffer 的非均匀优先级采样方法,之前 论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay 这篇文章中,我们已经说明过 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的,所以本文作者的目标就是设计一个新的价值网络损失函数,具体来说,就是在原来基于 TD error 的损失中对每个
(
s
,
a
)
(s,a)
(s,a) 样本增加一个权重项
w
(
s
,
a
)
w(s,a)
w(s,a),这个目标和 论文理解【RL - Exp Replay】—— 【DisCor】Corrective Feedback in RL via Distribution Correction 这篇文章相同,借用那边的公式
Q k ← arg min Q 1 N ∑ i = 1 N w i ( s , a ) ⋅ ( Q ( s , a ) − [ r ( s , a ) + γ Q k − 1 ( s ′ , a ′ ) ] ) 2 Q_{k} \leftarrow \arg \min _{Q} \frac{1}{N} \sum_{i=1}^{N} w_{i}(s, a) \cdot\left(Q(s, a)-\left[r(s, a)+\gamma Q_{k-1}\left(s^{\prime}, a^{\prime}\right)\right]\right)^{2} Qk←argQminN1i=1∑Nwi(s,a)⋅(Q(s,a)−[r(s,a)+γQk−1(s′,a′)])2
1.1 思想
-
作者考察了几个过去的非均匀优先级采样方法,之前主要有两条路线
作者发现针对无论是针对 TD error 还是针对 Q 价值准确性进行优化,都不一定能提升 agent 性能,也就是说过去非均匀采样方案的优化目标和强化学习的根本目标(最大化 return)是有偏的
-
作者举了一个例子,如下图所示的五状态 MDP, S 0 , S T S_0, S_T S0,ST 分别是起始和终止状态,使用 value iteration 方法进行训练
- 这个 MDP 的最优策略是一直向右走直到 S 3 S_3 S3,然后向左到终点
- 价值初始为0时,每个位置向左移动都有更高的 TD error,因此 PER 类方法会倾向于次优动作。如图 b 所示,加入 PER 后 TD error 始终较低(绿线),但是收敛速度下降了(红线)
- 每个位置向左移动都直接到终点,而越靠近轨迹终点的状态价值估计误差越小,因此 DisCor 类方法会倾向于次优动作。如图 c 所示,加入 PER 后 Q 价值估计始终更准确(绿线),但是收敛速度下降了(红线)
-
作者注意到过去的采样方法和 RL 的目标都是有偏的,于是想将其建模为一个无偏的约束优化问题,直接解出最好的优先级采样方案
1.2 符号说明
-
MDP: ( S , A , T , r , γ , ρ 0 ) (\mathcal{S,A},T,r,\gamma,\rho_0) (S,A,T,r,γ,ρ0)
-
agent 目标:最大化策略 π \pi π 的期望 return: η ( π ) = E π [ ∑ t ≥ 0 γ t r ( s t , a t ) ] \eta(\pi)=\mathbb{E}_\pi[\sum_{t\geq 0}\gamma^tr(s_t,a_t)] η(π)=Eπ[∑t≥0γtr(st,at)],其中 s 0 ∼ ρ 0 s_0\sim\rho_0 s0∼ρ0, a t ∼ π ( ⋅ ∣ s t ) a_t\sim\pi(·|s_t) at∼π(⋅∣st), s t + 1 ∼ T ( ⋅ ∣ s t , a t ) s_{t+1}\sim T(·|s_t,a_t) st+1∼T(⋅∣st,at)
-
对于一个 fixed policy,MDP 变成一个 Markov chain,策略 π \pi π 诱导的折扣 s s s 分布记为 d π ( s ) d^\pi(s) dπ(s),折扣 ( s , a ) (s,a) (s,a) 分布记为 d π ( s , a ) = d π ( s ) π ( a ∣ s ) d^\pi(s,a) = d^\pi(s)\pi(a|s) dπ(s,a)=dπ(s)π(a∣s)
这里的分布可以看作如下计算的:设 k ( s ) k(s) k(s) 表示某条规矩中访问状态 s s s 的次数,则
k ( s ) = ρ 0 ( s ) + γ ∑ s ˉ k ( s ˉ ) ∑ a π ( a ∣ s ˉ ) T ( s ∣ s ˉ , a ) k(s) = \rho_0(s)+\gamma\sum_{\bar{s}}k(\bar{s})\sum_a\pi(a|\bar{s})T(s|\bar{s},a) k(s)=ρ0(s)+γsˉ∑k(sˉ)a∑π(a∣sˉ)T(s∣sˉ,a) 其中 s ˉ \bar{s} sˉ 是 s s s 的前驱状态。用上述公式解出各个状态的访问次数后,如下计算 s s s 的分布
d π ( s ) = k ( s ) ∑ s ′ k ( s ′ ) d^\pi(s) =\frac{k(s)}{\sum_{s'}k(s')} dπ(s)=∑s′k(s′)k(s)在无限访问假设下,任意 ( s , a ) (s,a) (s,a) 可能处于轨迹中的任意位置,因此可以把 η ( π ) \eta(\pi) η(π) 中 λ λ λ 系数连加部分提出来做等比数列求和,当 λ < 1 λ<1 λ<1 且轨迹 horizon → ∞ \to \infin →∞ 时,从某个 ( s , a ) (s,a) (s,a) 处得到的 return 可以表示为
lim t → ∞ ( γ 0 + γ 1 + γ 2 + . . . + γ t ) r ( s , a ) = lim t → ∞ γ 0 ( γ t + 1 − 1 ) γ − 1 r ( s , a ) = 1 1 − γ r ( s , a ) \lim_{t\to \infin}(\gamma^0+\gamma^1+\gamma^2+...+\gamma^t)r(s,a) = \lim_{t\to \infin}\frac{\gamma^0(\gamma^{t+1}-1)}{\gamma-1}r(s,a) = \frac{1}{1-\gamma}r(s,a) t→∞lim(γ0+γ1+γ2+...+γt)r(s,a)=t→∞limγ−1γ0(γt+1−1)r(s,a)=1−γ1r(s,a) 于是策略 π \pi π 的期望 return η ( π ) \eta(\pi) η(π) 可以表示为
η ( π ) = 1 1 − γ E d π ( s , a ) [ r ( s , a ) ] \eta(\pi) = \frac{1}{1-\gamma}\mathbb{E}_{d^\pi(s,a)}[r(s,a)] η(π)=1−γ1Edπ(s,a)[r(s,a)] -
最优策略 π ∗ = arg max π η ( π ) \pi^* = \arg\max_\pi\eta(\pi) π∗=argmaxπη(π)
-
Q Q Q 函数: Q π ( s , a ) = E π [ ∑ t ≥ 0 γ t r ( s t , a t ) ∣ s 0 = s , a 0 = a ] Q^\pi(s,a) = \mathbb{E}_\pi[\sum_{t\geq 0}\gamma^tr(s_t,a_t)|s_0=s,a_0=a] Qπ(s,a)=Eπ[∑t≥0γtr(st,at)∣s0=s,a0=a]
-
最优 Q Q Q 函数 Q ∗ = Q π ∗ Q^* = Q^{\pi^*} Q∗=Qπ∗,满足 Bellman 最优函数, Q ∗ ( s , a ) = B ∗ ( Q ∗ ( s , a ) ) Q^*(s,a) = \mathcal{B^*}(Q^*(s,a)) Q∗(s,a)=B∗(Q∗(s,a))。其中 B ∗ : R S × A → R S × A \mathcal{B}^*:\mathbb{R}^{\mathcal{S\times A}}\to\mathbb{R}^{\mathcal{S\times A}} B∗:RS×A→RS×A 是 Bellman 最优算子
-
策略 π \pi π 的后悔(regret)定义为 Regret ( π ) = η ( π ∗ ) − η ( π ) \text{Regret}(\pi) = \eta(\pi^*)-\eta(\pi) Regret(π)=η(π∗)−η(π),它代表着遵循策略 π \pi π 而非 π ∗ \pi^* π∗ 导致的期望 return 损失。由于 η ( π ∗ ) \eta(\pi^*) η(π∗) 是一个定值,所以最小化 Regret ( π ) \text{Regret}(\pi) Regret(π) 等价于最大化 η ( π ) \eta(\pi) η(π),这也是一般强化学习的目标
1.3 求解最优权重
-
将 1.1 节的讨论形式化为优化问题,我们的目标是找到一个可以直接最小化策略的 regret 的最优优先采样权重 w k w_k wk。为了便于推导,只考虑 Bellman 更新的最优 Q Q Q 函数,第 k k k 轮迭代时优化问题形式化如下
min w k η ( π ∗ ) − η ( π k ) s.t. Q k = arg min Q ∈ Q E μ [ w k ( s , a ) ⋅ ( Q − B ∗ Q k − 1 ) 2 ( s , a ) ] , E μ [ w k ( s , a ) ] = 1 , w k ( s , a ) ≥ 0 \begin{array}{ll} \min _{w_{k}} & \eta\left(\pi^{*}\right)-\eta\left(\pi_{k}\right) \\ \text { s.t. } & Q_{k}=\underset{Q \in \mathcal{Q}}{\arg \min } \mathbb{E}_{\mu}\left[w_{k}(s, a) \cdot\left(Q-\mathcal{B}^{*} Q_{k-1}\right)^{2}(s, a)\right], \\ & \mathbb{E}_{\mu}\left[w_{k}(s, a)\right]=1, \quad w_{k}(s, a) \geq 0 \end{array} minwk s.t. η(π∗)−η(πk)Qk=Q∈QargminEμ[wk(s,a)⋅(Q−B∗Qk−1)2(s,a)],Eμ[wk(s,a)]=1,wk(s,a)≥0 其中 Q \mathcal{Q} Q 是 Q Q Q 函数空间, μ \mu μ 是 replay buffer 中的数据分布, Q k Q_k Qk 是第 k k k 轮迭后得到的 Q Q Q 估计值,用它来生成对应的玻尔兹曼探索策略
π k ( s ) = exp ( Q k ( s , a ) ) ∑ a ′ exp ( Q ( s , a ′ ) ) \pi_k(s) = \frac{\text{exp}(Q_k(s,a))}{\sum_{a'}\text{exp}(Q(s,a'))} πk(s)=∑a′exp(Q(s,a′))exp(Qk(s,a)) -
接下来设法解决这个优化问题,首先定义 recurring probability
Definition 1(Recurring Probability):策略 π \pi π 的循环概率定义为
ϵ π = sup s , a ∑ t = 1 ∞ γ t ρ π ( s , a , t ) \epsilon_\pi = \text{sup}_{s,a}\sum_{t=1}^\infin\gamma^t\rho^\pi(s,a,t) ϵπ=sups,at=1∑∞γtρπ(s,a,t) 其中 ρ π ( s , a , t ) = Pr ( s 0 = s , a 0 = a , s t = s , s 1 : t − 1 ≠ a ; π ) \rho^\pi(s,a,t) = \text{Pr}(s_0=s,a_0=a,s_t=s,s_{1:t-1}\neq a;\pi) ρπ(s,a,t)=Pr(s0=s,a0=a,st=s,s1:t−1=a;π) 是 agent 按策略 π \pi π 运行时,从 ( s , a ) (s,a) (s,a) 启动并在时间步 t t t 首次返回到 s s s 的概率。 ϵ π \epsilon_\pi ϵπ 代表按 π \pi π 运行时,从 ( s , a ) (s,a) (s,a) 启动迟早返回 s s s 的累计折扣概率的上确界 -
上述优化问题在温和条件下的松弛解如下
其中的误差项的 upper bound ϵ π k \epsilon_{\pi_k} ϵπk 在两种情况下趋于 0- 返回已访问状态的概率很小
- 返回已访问状态需要的步数很多
这两个在大部分问题中都满足,因此上式中 ϵ k , 1 , ϵ k , 2 \epsilon_{k,1},\epsilon_{k,2} ϵk,1,ϵk,2 两项可以忽略不计(相比 E k E_k Ek 和 F k F_k Fk 太小了)。从公式看,我们应该对 replay buffer 中具有以下属性的 transition 赋予更高的权值
- 更高的事后 Bellman error:从
∣
Q
k
−
B
∗
Q
k
−
1
∣
(
s
,
a
)
|Q_k-\mathcal{B}^*Q_{k-1}|(s,a)
∣Qk−B∗Qk−1∣(s,a) 得到,该项类似 PER 的优先标准,但是 PER 更关心历史 Bellman error,即
∣
Q
k
−
1
−
B
∗
Q
k
−
2
∣
(
s
,
a
)
|Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a)
∣Qk−1−B∗Qk−2∣(s,a)
这里所谓的 “事后 Bellman error” 是指:该轮迭代使用 Q k − 1 Q_{k-1} Qk−1 计算,迭代结束时得到 Q k Q_k Qk,即本轮迭代进行计算之前是无法得到这个 error 的,只有计算这一 “事” 后才能得到
- 更强的 on-policy 性质:从 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_k}(s,a)}{\mu(s,a)} μ(s,a)dπk(s,a) 得到,注意到任意时刻 k k k,replay buffer 中的数据分布 μ ( s , a ) \mu(s,a) μ(s,a) 是定值,因此这项强调 d π k ( s , a ) d^{\pi_k}(s,a) dπk(s,a),关注当前策略 π k \pi_k πk 更可能访问的 ( s , a ) (s,a) (s,a)。这种优先级策略出现在 LFIW 和 BCQ 中
- 与真实最优价值估计更接近:从 ( exp ( − ∣ Q k − Q ∗ ∣ ( s , a ) ) (\text{exp}(− |Q_k− Q^∗|(s,a)) (exp(−∣Qk−Q∗∣(s,a)) 得到。这一项表示在 Bellman 更新后 Q Q Q 值估计不太准确的 ( s , a ) (s,a) (s,a) 应分配较低的权重。不准确的 TD target 或 deep Q network 中的函数逼近误差都可能导致 Q Q Q 值估计不准,这会导致 Q Q Q 价值估值器的次优更新,直觉上这些 ( s , a ) (s,a) (s,a) 应该被降权
- 行动概率较小:从 ( 2 − π k ( a ∣ s ) ) (2− π_k(a|s)) (2−πk(a∣s)) 得到。该项仅存在于具有离散动作空间的 MDP 中,它在一定程度上抵消了策略项 d π k d^{π_k} dπk 的影响,提升这些小概率动作的权重可以加强探索
-
先前的各种算法都只考虑了这个优先级规则中的一部分,比如 DisCor 没有考虑到 on-policy 性质,PER 没有考虑到 Q 价值估计的准确性,接下来我们给出上述公式 (2) 和 (3) 中每一项的近似值
Note:我们这里解出的只是温和条件时的近似值,所以和 DisCor 一样,在做近似替代时的核心思想是做 “降权”,即替代后得到的 w k w_k wk 要小于公式表示的真实 w k w_k wk,宁可优化时慢一点,也不要强调错误的方向。具体而言, ∣ Q k − Q ∗ ∣ \left|Q_{k}-Q^{*}\right| ∣Qk−Q∗∣ 要用其 upper bound 代替 ; ∣ Q k − B ∗ Q k − 1 ∣ \left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right| ∣Qk−B∗Qk−1∣ 和 ( 2 − π k ( a ∣ s ) ) (2− π_k(a|s)) (2−πk(a∣s)) 要用其 lower bound 代替
-
a 项 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_k}(s,a)}{\mu(s,a)} μ(s,a)dπk(s,a) 是当前策略诱导的 ( s , a ) (s,a) (s,a) 分布和 replay buffer 中的 ( s , a ) (s,a) (s,a) 分布之间的重要权重。我们可以使用无似然重要性加权 Likelihood-Free Importance Weighting(LFIW)来计算该项,它将 replay buffer 分为快速缓冲区 D f D_f Df 和慢速缓冲区 D s D_s Ds 两部分。我们设置一个神经网络 k ψ ( s , a ) k_\psi(s,a) kψ(s,a) 来估计 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_k}(s,a)}{\mu(s,a)} μ(s,a)dπk(s,a),根据以下损失函数进行优化:
L k ( ψ ) : = E D s [ f ∗ ( f ′ ( k ψ ( s , a ) ) ) ] − E D f [ f ′ ( k ψ ( s , a ) ) ] L_k(\psi):=\mathbb{E}_{\mathcal{D}_s}[f^*(f'(k_\psi(s,a)))] -\mathbb{E}_{\mathcal{D}_f}[f'(k_\psi(s,a))] Lk(ψ):=EDs[f∗(f′(kψ(s,a)))]−EDf[f′(kψ(s,a))] 其中 f ′ f′ f′ 和 f ∗ f^∗ f∗ 是函数 f f f 的导数和凸共轭。这部分的详细说明请参考:论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights 1.3 节 -
b 项 ( 2 − π k ( a ∣ s ) ) (2− π_k(a|s)) (2−πk(a∣s)) ,由于 π k \pi_k πk 是更新后的策略,不能直接计算,因此通过上下界来近似,有 1 ≤ 2 − π k ( s , a ) ≤ 2 1\leq 2-\pi_k(s,a)\leq 2 1≤2−πk(s,a)≤2
-
d 项 ∣ Q k − B ∗ Q k − 1 ∣ ( s , a ) |Q_k-\mathcal{B}^*Q_{k-1}|(s,a) ∣Qk−B∗Qk−1∣(s,a) ,由于 Q k Q_k Qk 是更新后的价值估计,不能直接计算,因此通过上下界来近似,可以把它限制在上次迭代中获得的最小和最大 Bellman error 之间
c 1 = min s , a ∣ Q k − 1 − B ∗ Q k − 2 ∣ ( s , a ) c 2 = max s , a ∣ Q k − 1 − B ∗ Q k − 2 ∣ ( s , a ) c_1 = \min_{s,a} |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a) \\ c_2 = \max_{s,a} |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a) c1=s,amin∣Qk−1−B∗Qk−2∣(s,a)c2=s,amax∣Qk−1−B∗Qk−2∣(s,a) 如 DisCor 论文所示,我们可以限制 replay buffer 中用于计算 c 1 , c 2 c_1,c_2 c1,c2 的 ( s , a ) (s,a) (s,a),以保证二者都是有限的 -
c 项 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| ∣Qk−Q∗∣ 最难处理,作者设计了两种方法来估计它,分别对应他提出的两种方法,下面具体说明
-
1.3.1 使用神经网络进行估计(ReMERN)
- 这里作者使用和 DisCor 论文提出的方法估计
∣
Q
k
−
Q
∗
∣
|Q_k-Q^*|
∣Qk−Q∗∣,DisCor 论文 说明了可以使用
△
k
\triangle_k
△k 作为
∣
Q
k
−
Q
∗
∣
\left|Q_{k}-Q^{*}\right|
∣Qk−Q∗∣ 的 upper bound,其定义为
Δ k = ∑ i = 1 k γ k − i ( ∏ j = i k − 1 P π j ) ∣ Q i − B ∗ Q i − 1 ∣ ⟹ Δ k = ∣ Q k − B ∗ Q k − 1 ∣ + γ P π k − 1 Δ k − 1 \begin{aligned} \Delta_{k} &=\sum_{i=1}^{k} \gamma^{k-i}\left(\prod_{j=i}^{k-1} P^{\pi_{j}}\right)\left|Q_{i}-\mathcal{B}^{*} Q_{i-1}\right| \\ \Longrightarrow \Delta_{k} &=\left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right|+\gamma P^{\pi_{k-1}} \Delta_{k-1} \end{aligned} Δk⟹Δk=i=1∑kγk−i(j=i∏k−1Pπj)∣Qi−B∗Qi−1∣=∣Qk−B∗Qk−1∣+γPπk−1Δk−1 再把 ∣ Q k − B ∗ Q k − 1 ∣ \left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right| ∣Qk−B∗Qk−1∣ 替换为其上界 c 2 c_2 c2,就得到了可以表示的 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| ∣Qk−Q∗∣ 上界 - 注意上式中给出了
△
k
\triangle_k
△k 的递归定义,因此可以像价值函数一样用神经网络 + ADP 的方法来估计它。把前面所有的降权放缩项都替换掉,最后得到的 transition 权重为
w k ( s , a ) ∝ d π k ( s , a ) μ ( s , a ) exp ( − γ [ P π k − 1 Δ k − 1 ] ( s , a ) ) w_{k}(s, a) \propto \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} \exp \left(-\gamma\left[P^{\pi_{k-1}} \Delta_{k-1}\right](s, a)\right) wk(s,a)∝μ(s,a)dπk(s,a)exp(−γ[Pπk−1Δk−1](s,a)) 其中 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} μ(s,a)dπk(s,a) 用 LFIW 方法估计(下图中 weight model), △ \triangle △ 使用神经网络估计(下图中 error model)。作者称这种方法为ReMERN (Regret Minimization Experience Replay using Neural Network)
方法,伪代码为
1.3.2 使用时序结构进行估计(ReMERT)
- 上面使用神经网络估计
∣
Q
k
−
Q
∗
∣
|Q_k-Q^*|
∣Qk−Q∗∣ 的上界,无论理论还是实践上都是比较慢的,作者注意到越靠近轨迹尾部的
(
s
,
a
)
(s,a)
(s,a),其价值估计精度就越高,因此想通过这种轨迹上的 “时序结构” 对
∣
Q
k
−
Q
∗
∣
|Q_k-Q^*|
∣Qk−Q∗∣ 进行估计
∣ Q k − Q ∗ ∣ ≤ ∣ Q k − B ∗ Q k − 1 ∣ + ∣ B ∗ Q k − 1 − Q ∗ ∣ |Q_k - Q^*| \leq |Q_k-\mathcal{B}^*Q_{k-1}| + |\mathcal{B}^*Q_{k-1}-Q^*| ∣Qk−Q∗∣≤∣Qk−B∗Qk−1∣+∣B∗Qk−1−Q∗∣ 其中- 第一项 ∣ Q k − B ∗ Q k − 1 ∣ |Q_k-\mathcal{B}^*Q_{k-1}| ∣Qk−B∗Qk−1∣ 是 bootstrap error 函数近似误差,其取值是由价值函数的近似算法决定的(使用表格型方法时此项为 0,使用神经网络作为函数近似器时此项通常很小),无法控制
- 第二项 ∣ B ∗ Q k − 1 − Q ∗ ∣ |\mathcal{B}^*Q_{k-1}-Q^*| ∣B∗Qk−1−Q∗∣ 是 Q Q Q 价值的更新目标和 ground-truth 之间的距离,注意到在轨迹终止位置其真实价值只包含一个即时 reward,因此不含第一项的 bootstrap error,有 ∣ B ∗ Q k − 1 − Q ∗ ∣ = 0 |\mathcal{B}^*Q_{k-1}-Q^*|=0 ∣B∗Qk−1−Q∗∣=0;bootstrap error 会随着轨迹反向累积,越靠前的位置 Q 价值估计越差,这样给更靠前位置提供的 TD target 也更差,导致 Q 价值估计精度不断下降
- 作者做了一个实验验证上述直觉,agent 从左上角位位置出发,穿过三道门到达右上角的终点,发现确实是越靠后的位置 Q 价值估计精度越高
- 为了形式化说明这一点,先定义
到终点的距离 Distance to End
:Definition 2(Distance to End):给定 MDP M \mathcal{M} M,策略 π \pi π 在 M \mathcal{M} M 中交互得到轨迹 τ = { s t , a t } t = 0 T \tau =\{s_t,a_t\}_{t=0}^T τ={st,at}t=0T,定义该轨迹中 ( s t , a t ) (s_t,a_t) (st,at) 的 “到终点的距离” 为
h τ ( s t , a t ) = T − t h_\tau(s_t,a_t) = T-t hτ(st,at)=T−t 作者的直觉表明 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| ∣Qk−Q∗∣ 的值和 “到终点的距离” 有关 - 接下来作者证明了温和条件下
∣
Q
k
−
Q
∗
∣
|Q_k - Q^*|
∣Qk−Q∗∣ 和
h
h
h 的关系为
这个定理2说明 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| ∣Qk−Q∗∣ 有很高的概率被一个关于 “到终点距离” h h h 和期望 Bellman error L L L 的函数 upper bound 住。其中求期望的部分作者称为时间正确性估计 Temporal Correctness Estimation (TCE)
,忽略指数减小的 g g g 项得到 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| ∣Qk−Q∗∣ 的可处理 upper bound为
∣ Q k ( s , a ) − Q ∗ ( s , a ) ∣ ≈ E τ TCE c ( s , a ) = E τ ( f ( h τ π k − 1 ( s , a ) ) ( L Q k − 1 + c ) + γ h τ π k − 1 ( s , a ) + 1 c ) \begin{aligned} \mid Q_{k}(s, a) &-Q^{*}(s, a) \mid \approx \mathbb{E}_{\tau} \operatorname{TCE}_{c}(s, a) \\ &=\mathbb{E}_{\tau}\left(f\left(h_{\tau}^{\pi_{k-1}}(s, a)\right)\left(L_{Q_{k-1}}+c\right)+\gamma^{h_{\tau}^{\pi_{k-1}}(s, a)+1} c\right) \end{aligned} ∣Qk(s,a)−Q∗(s,a)∣≈EτTCEc(s,a)=Eτ(f(hτπk−1(s,a))(LQk−1+c)+γhτπk−1(s,a)+1c) - 接下来类似 1.3.1节 ReMERN 一样把所有降权放缩项都替换掉,最后得到的 transition 权重为
w k ( s , a ) ∝ d π k ( s , a ) μ ( s , a ) exp ( − E τ TCE c ( s , a ) ) w_{k}(s, a) \propto \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} \exp \left(-\mathbb{E}_{\tau} \operatorname{TCE}_{c}(s, a)\right) wk(s,a)∝μ(s,a)dπk(s,a)exp(−EτTCEc(s,a)) 其中 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} μ(s,a)dπk(s,a) 用 LFIW 方法估计(下图中 weight model); E τ TCE c \mathbb{E}_{\tau} \operatorname{TCE}_{c} EτTCEc 部分是在采样轨迹时就把各个 ( s , a ) (s,a) (s,a) 的 “到终点距离” 记录在 replay buffer 中,然后用 MC 方法进行估计。作者称这种方法为ReMERT (Regret Minimization Experience Replay using Temporal Structure)
方法,伪代码
2. 实验
- 作者分别在连续和离散环境中使用 SAC 和 DQN 作为 Baseline,将 ReMERN/ReMERT 与之前的优先采样方案做比较
2.1 连续环境
- 在 Mujoco 和 DMC任务 中,ReMERN/ReMERT 在六个任务中的四个里超过基线方法,在其余两个任务(Halfcheetah 和 Hopper)中实现了可比的性能
注意到 ReMERT 超过了 ReMERN,说明作者 1.3.2 节提出的对 Q 价值估计准确性的评估方法是有效的,而 1.3.1 节这样基于神经网络的估计方法有一定误差 - 作者还在 Meta-World benchmark 上进行了测试,这系列环境的目标具有随机性,对于 model-free 方法而言是很难的环境。由于这里的终止状态不固定,ReMERT 方法无法使用
可见 ReMERN 相比 DisCor 有明显的性能提升
2.2 离散环境
- 作者使用 Atria 套件进行离散环境测试,这些游戏的起点和终点都比较固定,因此可以使用 ReMERT 方法。由于 DisCor 是 ReMERN 中的一个组件,但是 DisCor 没有适用于离散环境的开源代码,所以这里使用 DQN 进行对比
可见 ReMERT 实现了性能提升
2.3 ReMERN 和 ReMERT 的性能特性
2.3.1 对环境噪声的鲁棒性
- 注意到 ReMERN 在 Meta-World 上的性能比 Mujoco 好,作者认为这是因为 ReMERN 在高随机环境中的鲁棒性更好,因为在高随机性的环境下,ReMERN 相比其他方法可以更准确地估计出 Q 价值;但在环境随机性较低时,这种准确性反而可能成为性能瓶颈(就像 DisCor 那样)
- 作者在几个连续任务的 reward 中加入随机高斯噪声,发现 ReMERN 和 ReMERT 确实对噪声更有鲁棒性
- 另外奖励的噪声不影响轨迹的时序结构,因此 ReMERT 方法完全不受这类噪声影响
2.3.2 TCE 有效性
- 作者使用一个实验单独说明 TCE 的有效性,在 gridworld 离散环境中,使用 TCE 估计
∣
Q
k
−
Q
∗
∣
|Q_k - Q^*|
∣Qk−Q∗∣,即 (2) 式中的 c 项,然后忽略 a/b/d 项计算
w
k
w_k
wk,结合 DQN 进行训练;对比方法为 DQN、DQN+DisCor 和 DQN+Oracle(即
∣
Q
k
−
Q
∗
∣
|Q_k - Q^*|
∣Qk−Q∗∣ 的 ground truth),实验结果如下
可见 DQN+TEC 的准确性超过了 DQN 和 DQN+DisCor,说明了 TEC 的有效性。DisCor 中 error network 缓慢的收敛速度导致其效率较低
3. 总结
- 这篇文章出发点很好,得出的结论把之前的几篇文章的观点整合起来,观感良好
- 数学推导比较复杂,请参考原文
- 从 RL 目标出发,构造约束优化问题求解,这个思路应该可以用来优化 RL 中其他可以设计的成分,比如探索策略之类的,但是对数学的要求应该很高