论文理解【RL - Exp Replay】—— 【ReMERN & ReMERT】Regret Minimization Exp Replay in Off-Policy RL


  • 摘要:在强化学习中,experience replay 是存储过去的 transition 样本以供进一步重用的一种技巧,优先采(PER)是更好地利用这些经验 transition 样本的一种很有前途的技术。过去的优先顺序标准包括 TD error、最近性(recentness,即 on-policy 性质)和纠正性反馈(corrective feedback),它们大多是启发式设计的。在这项工作中,我们从后悔最小化这一目标出发,得到了一个最优的优先策略,可以直接最大化策略的 return。该理论建议,事后 TD error越大、on-policy 性质越强、Q 值估计越准确的 transition,应在抽样过程中赋予更高的权重,大多数过去的采样标准只考虑了其中的一部分。我们不仅为过去的标准提供了理论依据,还提出了两种计算优先级权重的新方法,即 ReMERN 和 ReMERT。ReMERN 学习一个 error network,而 ReMERT 利用访问状态的时间顺序。这两种方法在 RL benchmarks 测试中(包括MuJoCo、Atari 和 Meta World)都优于过去的优先采样算法

1. 本文方法

  • 本文的目标是设计一种 replay-buffer 的非均匀优先级采样方法,之前 论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay 这篇文章中,我们已经说明过 “真正的非均匀采样” 和另一个 “使用不同损失的均匀采样方案” 从梯度角度看是等价的,所以本文作者的目标就是设计一个新的价值网络损失函数,具体来说,就是在原来基于 TD error 的损失中对每个 ( s , a ) (s,a) (s,a) 样本增加一个权重项 w ( s , a ) w(s,a) w(s,a),这个目标和 论文理解【RL - Exp Replay】—— 【DisCor】Corrective Feedback in RL via Distribution Correction 这篇文章相同,借用那边的公式
    Q k ← arg ⁡ min ⁡ Q 1 N ∑ i = 1 N w i ( s , a ) ⋅ ( Q ( s , a ) − [ r ( s , a ) + γ Q k − 1 ( s ′ , a ′ ) ] ) 2 Q_{k} \leftarrow \arg \min _{Q} \frac{1}{N} \sum_{i=1}^{N} w_{i}(s, a) \cdot\left(Q(s, a)-\left[r(s, a)+\gamma Q_{k-1}\left(s^{\prime}, a^{\prime}\right)\right]\right)^{2} QkargQminN1i=1Nwi(s,a)(Q(s,a)[r(s,a)+γQk1(s,a)])2

1.1 思想

  • 作者考察了几个过去的非均匀优先级采样方法,之前主要有两条路线

    1. PER 为代表的基于 TD error 的优先方案,对高 TD error 的样本给予高权重
    2. DisCor 为代表的基于 Q 价值估计准确性的优先方案,对 Q 价值估计更准确的样本基于高权重

    作者发现针对无论是针对 TD error 还是针对 Q 价值准确性进行优化,都不一定能提升 agent 性能,也就是说过去非均匀采样方案的优化目标和强化学习的根本目标(最大化 return)是有偏的

  • 作者举了一个例子,如下图所示的五状态 MDP, S 0 , S T S_0, S_T S0,ST 分别是起始和终止状态,使用 value iteration 方法进行训练
    在这里插入图片描述

    1. 这个 MDP 的最优策略是一直向右走直到 S 3 S_3 S3,然后向左到终点
    2. 价值初始为0时,每个位置向左移动都有更高的 TD error,因此 PER 类方法会倾向于次优动作。如图 b 所示,加入 PER 后 TD error 始终较低(绿线),但是收敛速度下降了(红线)
    3. 每个位置向左移动都直接到终点,而越靠近轨迹终点的状态价值估计误差越小,因此 DisCor 类方法会倾向于次优动作。如图 c 所示,加入 PER 后 Q 价值估计始终更准确(绿线),但是收敛速度下降了(红线)
  • 作者注意到过去的采样方法和 RL 的目标都是有偏的,于是想将其建模为一个无偏的约束优化问题,直接解出最好的优先级采样方案

1.2 符号说明

  • MDP: ( S , A , T , r , γ , ρ 0 ) (\mathcal{S,A},T,r,\gamma,\rho_0) (S,A,T,r,γ,ρ0)

  • agent 目标:最大化策略 π \pi π 的期望 return: η ( π ) = E π [ ∑ t ≥ 0 γ t r ( s t , a t ) ] \eta(\pi)=\mathbb{E}_\pi[\sum_{t\geq 0}\gamma^tr(s_t,a_t)] η(π)=Eπ[t0γtr(st,at)],其中 s 0 ∼ ρ 0 s_0\sim\rho_0 s0ρ0 a t ∼ π ( ⋅ ∣ s t ) a_t\sim\pi(·|s_t) atπ(st) s t + 1 ∼ T ( ⋅ ∣ s t , a t ) s_{t+1}\sim T(·|s_t,a_t) st+1T(st,at)

  • 对于一个 fixed policy,MDP 变成一个 Markov chain,策略 π \pi π 诱导的折扣 s s s 分布记为 d π ( s ) d^\pi(s) dπ(s),折扣 ( s , a ) (s,a) (s,a) 分布记为 d π ( s , a ) = d π ( s ) π ( a ∣ s ) d^\pi(s,a) = d^\pi(s)\pi(a|s) dπ(s,a)=dπ(s)π(as)

    这里的分布可以看作如下计算的:设 k ( s ) k(s) k(s) 表示某条规矩中访问状态 s s s 的次数,则
    k ( s ) = ρ 0 ( s ) + γ ∑ s ˉ k ( s ˉ ) ∑ a π ( a ∣ s ˉ ) T ( s ∣ s ˉ , a ) k(s) = \rho_0(s)+\gamma\sum_{\bar{s}}k(\bar{s})\sum_a\pi(a|\bar{s})T(s|\bar{s},a) k(s)=ρ0(s)+γsˉk(sˉ)aπ(asˉ)T(ssˉ,a) 其中 s ˉ \bar{s} sˉ s s s 的前驱状态。用上述公式解出各个状态的访问次数后,如下计算 s s s 的分布
    d π ( s ) = k ( s ) ∑ s ′ k ( s ′ ) d^\pi(s) =\frac{k(s)}{\sum_{s'}k(s')} dπ(s)=sk(s)k(s)

    在无限访问假设下,任意 ( s , a ) (s,a) (s,a) 可能处于轨迹中的任意位置,因此可以把 η ( π ) \eta(\pi) η(π) λ λ λ 系数连加部分提出来做等比数列求和,当 λ < 1 λ<1 λ<1 且轨迹 horizon → ∞ \to \infin 时,从某个 ( s , a ) (s,a) (s,a) 处得到的 return 可以表示为
    lim ⁡ t → ∞ ( γ 0 + γ 1 + γ 2 + . . . + γ t ) r ( s , a ) = lim ⁡ t → ∞ γ 0 ( γ t + 1 − 1 ) γ − 1 r ( s , a ) = 1 1 − γ r ( s , a ) \lim_{t\to \infin}(\gamma^0+\gamma^1+\gamma^2+...+\gamma^t)r(s,a) = \lim_{t\to \infin}\frac{\gamma^0(\gamma^{t+1}-1)}{\gamma-1}r(s,a) = \frac{1}{1-\gamma}r(s,a) tlim(γ0+γ1+γ2+...+γt)r(s,a)=tlimγ1γ0(γt+11)r(s,a)=1γ1r(s,a) 于是策略 π \pi π 的期望 return η ( π ) \eta(\pi) η(π) 可以表示为
    η ( π ) = 1 1 − γ E d π ( s , a ) [ r ( s , a ) ] \eta(\pi) = \frac{1}{1-\gamma}\mathbb{E}_{d^\pi(s,a)}[r(s,a)] η(π)=1γ1Edπ(s,a)[r(s,a)]

  • 最优策略 π ∗ = arg ⁡ max ⁡ π η ( π ) \pi^* = \arg\max_\pi\eta(\pi) π=argmaxπη(π)

  • Q Q Q 函数: Q π ( s , a ) = E π [ ∑ t ≥ 0 γ t r ( s t , a t ) ∣ s 0 = s , a 0 = a ] Q^\pi(s,a) = \mathbb{E}_\pi[\sum_{t\geq 0}\gamma^tr(s_t,a_t)|s_0=s,a_0=a] Qπ(s,a)=Eπ[t0γtr(st,at)s0=s,a0=a]

  • 最优 Q Q Q 函数 Q ∗ = Q π ∗ Q^* = Q^{\pi^*} Q=Qπ,满足 Bellman 最优函数, Q ∗ ( s , a ) = B ∗ ( Q ∗ ( s , a ) ) Q^*(s,a) = \mathcal{B^*}(Q^*(s,a)) Q(s,a)=B(Q(s,a))。其中 B ∗ : R S × A → R S × A \mathcal{B}^*:\mathbb{R}^{\mathcal{S\times A}}\to\mathbb{R}^{\mathcal{S\times A}} B:RS×ARS×A 是 Bellman 最优算子

  • 策略 π \pi π 的后悔(regret)定义为 Regret ( π ) = η ( π ∗ ) − η ( π ) \text{Regret}(\pi) = \eta(\pi^*)-\eta(\pi) Regret(π)=η(π)η(π),它代表着遵循策略 π \pi π 而非 π ∗ \pi^* π 导致的期望 return 损失。由于 η ( π ∗ ) \eta(\pi^*) η(π) 是一个定值,所以最小化 Regret ( π ) \text{Regret}(\pi) Regret(π) 等价于最大化 η ( π ) \eta(\pi) η(π),这也是一般强化学习的目标

1.3 求解最优权重

  • 将 1.1 节的讨论形式化为优化问题,我们的目标是找到一个可以直接最小化策略的 regret 的最优优先采样权重 w k w_k wk。为了便于推导,只考虑 Bellman 更新的最优 Q Q Q 函数,第 k k k 轮迭代时优化问题形式化如下
    min ⁡ w k η ( π ∗ ) − η ( π k )  s.t.  Q k = arg ⁡ min ⁡ Q ∈ Q E μ [ w k ( s , a ) ⋅ ( Q − B ∗ Q k − 1 ) 2 ( s , a ) ] , E μ [ w k ( s , a ) ] = 1 , w k ( s , a ) ≥ 0 \begin{array}{ll} \min _{w_{k}} & \eta\left(\pi^{*}\right)-\eta\left(\pi_{k}\right) \\ \text { s.t. } & Q_{k}=\underset{Q \in \mathcal{Q}}{\arg \min } \mathbb{E}_{\mu}\left[w_{k}(s, a) \cdot\left(Q-\mathcal{B}^{*} Q_{k-1}\right)^{2}(s, a)\right], \\ & \mathbb{E}_{\mu}\left[w_{k}(s, a)\right]=1, \quad w_{k}(s, a) \geq 0 \end{array} minwk s.t. η(π)η(πk)Qk=QQargminEμ[wk(s,a)(QBQk1)2(s,a)],Eμ[wk(s,a)]=1,wk(s,a)0 其中 Q \mathcal{Q} Q Q Q Q 函数空间, μ \mu μ 是 replay buffer 中的数据分布, Q k Q_k Qk 是第 k k k 轮迭后得到的 Q Q Q 估计值,用它来生成对应的玻尔兹曼探索策略
    π k ( s ) = exp ( Q k ( s , a ) ) ∑ a ′ exp ( Q ( s , a ′ ) ) \pi_k(s) = \frac{\text{exp}(Q_k(s,a))}{\sum_{a'}\text{exp}(Q(s,a'))} πk(s)=aexp(Q(s,a))exp(Qk(s,a))

  • 接下来设法解决这个优化问题,首先定义 recurring probability

    Definition 1(Recurring Probability):策略 π \pi π 的循环概率定义为
    ϵ π = sup s , a ∑ t = 1 ∞ γ t ρ π ( s , a , t ) \epsilon_\pi = \text{sup}_{s,a}\sum_{t=1}^\infin\gamma^t\rho^\pi(s,a,t) ϵπ=sups,at=1γtρπ(s,a,t) 其中 ρ π ( s , a , t ) = Pr ( s 0 = s , a 0 = a , s t = s , s 1 : t − 1 ≠ a ; π ) \rho^\pi(s,a,t) = \text{Pr}(s_0=s,a_0=a,s_t=s,s_{1:t-1}\neq a;\pi) ρπ(s,a,t)=Pr(s0=s,a0=a,st=s,s1:t1=a;π) 是 agent 按策略 π \pi π 运行时,从 ( s , a ) (s,a) (s,a) 启动并在时间步 t t t 首次返回到 s s s 的概率。 ϵ π \epsilon_\pi ϵπ 代表按 π \pi π 运行时,从 ( s , a ) (s,a) (s,a) 启动迟早返回 s s s 的累计折扣概率的上确界

  • 上述优化问题在温和条件下的松弛解如下
    在这里插入图片描述
    其中的误差项的 upper bound ϵ π k \epsilon_{\pi_k} ϵπk 在两种情况下趋于 0

    1. 返回已访问状态的概率很小
    2. 返回已访问状态需要的步数很多

    这两个在大部分问题中都满足,因此上式中 ϵ k , 1 , ϵ k , 2 \epsilon_{k,1},\epsilon_{k,2} ϵk,1,ϵk,2 两项可以忽略不计(相比 E k E_k Ek F k F_k Fk 太小了)。从公式看,我们应该对 replay buffer 中具有以下属性的 transition 赋予更高的权值

    1. 更高的事后 Bellman error:从 ∣ Q k − B ∗ Q k − 1 ∣ ( s , a ) |Q_k-\mathcal{B}^*Q_{k-1}|(s,a) QkBQk1(s,a) 得到,该项类似 PER 的优先标准,但是 PER 更关心历史 Bellman error,即 ∣ Q k − 1 − B ∗ Q k − 2 ∣ ( s , a ) |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a) Qk1BQk2(s,a)

      这里所谓的 “事后 Bellman error” 是指:该轮迭代使用 Q k − 1 Q_{k-1} Qk1 计算,迭代结束时得到 Q k Q_k Qk,即本轮迭代进行计算之前是无法得到这个 error 的,只有计算这一 “事” 后才能得到

    2. 更强的 on-policy 性质:从 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_k}(s,a)}{\mu(s,a)} μ(s,a)dπk(s,a) 得到,注意到任意时刻 k k k,replay buffer 中的数据分布 μ ( s , a ) \mu(s,a) μ(s,a) 是定值,因此这项强调 d π k ( s , a ) d^{\pi_k}(s,a) dπk(s,a),关注当前策略 π k \pi_k πk 更可能访问的 ( s , a ) (s,a) (s,a)。这种优先级策略出现在 LFIW 和 BCQ 中
    3. 与真实最优价值估计更接近:从 ( exp ( − ∣ Q k − Q ∗ ∣ ( s , a ) ) (\text{exp}(− |Q_k− Q^∗|(s,a)) (exp(QkQ(s,a)) 得到。这一项表示在 Bellman 更新后 Q Q Q 值估计不太准确的 ( s , a ) (s,a) (s,a) 应分配较低的权重。不准确的 TD target 或 deep Q network 中的函数逼近误差都可能导致 Q Q Q 值估计不准,这会导致 Q Q Q 价值估值器的次优更新,直觉上这些 ( s , a ) (s,a) (s,a) 应该被降权
    4. 行动概率较小:从 ( 2 − π k ( a ∣ s ) ) (2− π_k(a|s)) (2πk(as)) 得到。该项仅存在于具有离散动作空间的 MDP 中,它在一定程度上抵消了策略项 d π k d^{π_k} dπk 的影响,提升这些小概率动作的权重可以加强探索
  • 先前的各种算法都只考虑了这个优先级规则中的一部分,比如 DisCor 没有考虑到 on-policy 性质,PER 没有考虑到 Q 价值估计的准确性,接下来我们给出上述公式 (2) 和 (3) 中每一项的近似值

    Note:我们这里解出的只是温和条件时的近似值,所以和 DisCor 一样,在做近似替代时的核心思想是做 “降权”,即替代后得到的 w k w_k wk 要小于公式表示的真实 w k w_k wk,宁可优化时慢一点,也不要强调错误的方向。具体而言, ∣ Q k − Q ∗ ∣ \left|Q_{k}-Q^{*}\right| QkQ 要用其 upper bound 代替 ; ∣ Q k − B ∗ Q k − 1 ∣ \left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right| QkBQk1 ( 2 − π k ( a ∣ s ) ) (2− π_k(a|s)) (2πk(as)) 要用其 lower bound 代替

    1. a 项 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_k}(s,a)}{\mu(s,a)} μ(s,a)dπk(s,a) 是当前策略诱导的 ( s , a ) (s,a) (s,a) 分布和 replay buffer 中的 ( s , a ) (s,a) (s,a) 分布之间的重要权重。我们可以使用无似然重要性加权 Likelihood-Free Importance Weighting(LFIW)来计算该项,它将 replay buffer 分为快速缓冲区 D f D_f Df 和慢速缓冲区 D s D_s Ds 两部分。我们设置一个神经网络 k ψ ( s , a ) k_\psi(s,a) kψ(s,a) 来估计 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_k}(s,a)}{\mu(s,a)} μ(s,a)dπk(s,a),根据以下损失函数进行优化:
      L k ( ψ ) : = E D s [ f ∗ ( f ′ ( k ψ ( s , a ) ) ) ] − E D f [ f ′ ( k ψ ( s , a ) ) ] L_k(\psi):=\mathbb{E}_{\mathcal{D}_s}[f^*(f'(k_\psi(s,a)))] -\mathbb{E}_{\mathcal{D}_f}[f'(k_\psi(s,a))] Lk(ψ):=EDs[f(f(kψ(s,a)))]EDf[f(kψ(s,a))] 其中 f ′ f′ f f ∗ f^∗ f 是函数 f f f 的导数和凸共轭。这部分的详细说明请参考:论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights 1.3 节

    2. b 项 ( 2 − π k ( a ∣ s ) ) (2− π_k(a|s)) (2πk(as)) ,由于 π k \pi_k πk 是更新后的策略,不能直接计算,因此通过上下界来近似,有 1 ≤ 2 − π k ( s , a ) ≤ 2 1\leq 2-\pi_k(s,a)\leq 2 12πk(s,a)2

    3. d 项 ∣ Q k − B ∗ Q k − 1 ∣ ( s , a ) |Q_k-\mathcal{B}^*Q_{k-1}|(s,a) QkBQk1(s,a) ,由于 Q k Q_k Qk 是更新后的价值估计,不能直接计算,因此通过上下界来近似,可以把它限制在上次迭代中获得的最小和最大 Bellman error 之间
      c 1 = min ⁡ s , a ∣ Q k − 1 − B ∗ Q k − 2 ∣ ( s , a ) c 2 = max ⁡ s , a ∣ Q k − 1 − B ∗ Q k − 2 ∣ ( s , a ) c_1 = \min_{s,a} |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a) \\ c_2 = \max_{s,a} |Q_{k-1}-\mathcal{B}^*Q_{k-2}|(s,a) c1=s,aminQk1BQk2(s,a)c2=s,amaxQk1BQk2(s,a)DisCor 论文所示,我们可以限制 replay buffer 中用于计算 c 1 , c 2 c_1,c_2 c1,c2 ( s , a ) (s,a) (s,a),以保证二者都是有限的

    4. c 项 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| QkQ 最难处理,作者设计了两种方法来估计它,分别对应他提出的两种方法,下面具体说明

1.3.1 使用神经网络进行估计(ReMERN)

  • 这里作者使用和 DisCor 论文提出的方法估计 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| QkQDisCor 论文 说明了可以使用 △ k \triangle_k k 作为 ∣ Q k − Q ∗ ∣ \left|Q_{k}-Q^{*}\right| QkQ 的 upper bound,其定义为
    Δ k = ∑ i = 1 k γ k − i ( ∏ j = i k − 1 P π j ) ∣ Q i − B ∗ Q i − 1 ∣ ⟹ Δ k = ∣ Q k − B ∗ Q k − 1 ∣ + γ P π k − 1 Δ k − 1 \begin{aligned} \Delta_{k} &=\sum_{i=1}^{k} \gamma^{k-i}\left(\prod_{j=i}^{k-1} P^{\pi_{j}}\right)\left|Q_{i}-\mathcal{B}^{*} Q_{i-1}\right| \\ \Longrightarrow \Delta_{k} &=\left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right|+\gamma P^{\pi_{k-1}} \Delta_{k-1} \end{aligned} ΔkΔk=i=1kγki(j=ik1Pπj)QiBQi1=QkBQk1+γPπk1Δk1 再把 ∣ Q k − B ∗ Q k − 1 ∣ \left|Q_{k}-\mathcal{B}^{*} Q_{k-1}\right| QkBQk1 替换为其上界 c 2 c_2 c2,就得到了可以表示的 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| QkQ 上界
  • 注意上式中给出了 △ k \triangle_k k 的递归定义,因此可以像价值函数一样用神经网络 + ADP 的方法来估计它。把前面所有的降权放缩项都替换掉,最后得到的 transition 权重为
    w k ( s , a ) ∝ d π k ( s , a ) μ ( s , a ) exp ⁡ ( − γ [ P π k − 1 Δ k − 1 ] ( s , a ) ) w_{k}(s, a) \propto \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} \exp \left(-\gamma\left[P^{\pi_{k-1}} \Delta_{k-1}\right](s, a)\right) wk(s,a)μ(s,a)dπk(s,a)exp(γ[Pπk1Δk1](s,a)) 其中 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} μ(s,a)dπk(s,a) 用 LFIW 方法估计(下图中 weight model), △ \triangle 使用神经网络估计(下图中 error model)。作者称这种方法为 ReMERN (Regret Minimization Experience Replay using Neural Network) 方法,伪代码为
    在这里插入图片描述

1.3.2 使用时序结构进行估计(ReMERT)

  • 上面使用神经网络估计 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| QkQ 的上界,无论理论还是实践上都是比较慢的,作者注意到越靠近轨迹尾部的 ( s , a ) (s,a) (s,a),其价值估计精度就越高,因此想通过这种轨迹上的 “时序结构” 对 ∣ Q k − Q ∗ ∣ |Q_k-Q^*| QkQ 进行估计
    ∣ Q k − Q ∗ ∣ ≤ ∣ Q k − B ∗ Q k − 1 ∣ + ∣ B ∗ Q k − 1 − Q ∗ ∣ |Q_k - Q^*| \leq |Q_k-\mathcal{B}^*Q_{k-1}| + |\mathcal{B}^*Q_{k-1}-Q^*| QkQQkBQk1+BQk1Q 其中
    1. 第一项 ∣ Q k − B ∗ Q k − 1 ∣ |Q_k-\mathcal{B}^*Q_{k-1}| QkBQk1 是 bootstrap error 函数近似误差,其取值是由价值函数的近似算法决定的(使用表格型方法时此项为 0,使用神经网络作为函数近似器时此项通常很小),无法控制
    2. 第二项 ∣ B ∗ Q k − 1 − Q ∗ ∣ |\mathcal{B}^*Q_{k-1}-Q^*| BQk1Q Q Q Q 价值的更新目标和 ground-truth 之间的距离,注意到在轨迹终止位置其真实价值只包含一个即时 reward,因此不含第一项的 bootstrap error,有 ∣ B ∗ Q k − 1 − Q ∗ ∣ = 0 |\mathcal{B}^*Q_{k-1}-Q^*|=0 BQk1Q=0bootstrap error 会随着轨迹反向累积,越靠前的位置 Q 价值估计越差,这样给更靠前位置提供的 TD target 也更差,导致 Q 价值估计精度不断下降
  • 作者做了一个实验验证上述直觉,agent 从左上角位位置出发,穿过三道门到达右上角的终点,发现确实是越靠后的位置 Q 价值估计精度越高
    在这里插入图片描述
  • 为了形式化说明这一点,先定义 到终点的距离 Distance to End

    Definition 2(Distance to End):给定 MDP M \mathcal{M} M,策略 π \pi π M \mathcal{M} M 中交互得到轨迹 τ = { s t , a t } t = 0 T \tau =\{s_t,a_t\}_{t=0}^T τ={st,at}t=0T,定义该轨迹中 ( s t , a t ) (s_t,a_t) (st,at) 的 “到终点的距离” 为
    h τ ( s t , a t ) = T − t h_\tau(s_t,a_t) = T-t hτ(st,at)=Tt 作者的直觉表明 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| QkQ 的值和 “到终点的距离” 有关

  • 接下来作者证明了温和条件下 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| QkQ h h h 的关系为
    在这里插入图片描述
    这个定理2说明 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| QkQ 有很高的概率被一个关于 “到终点距离” h h h 和期望 Bellman error L L L 的函数 upper bound 住。其中求期望的部分作者称为 时间正确性估计 Temporal Correctness Estimation (TCE),忽略指数减小的 g g g 项得到 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| QkQ 的可处理 upper bound为
    ∣ Q k ( s , a ) − Q ∗ ( s , a ) ∣ ≈ E τ TCE ⁡ c ( s , a ) = E τ ( f ( h τ π k − 1 ( s , a ) ) ( L Q k − 1 + c ) + γ h τ π k − 1 ( s , a ) + 1 c ) \begin{aligned} \mid Q_{k}(s, a) &-Q^{*}(s, a) \mid \approx \mathbb{E}_{\tau} \operatorname{TCE}_{c}(s, a) \\ &=\mathbb{E}_{\tau}\left(f\left(h_{\tau}^{\pi_{k-1}}(s, a)\right)\left(L_{Q_{k-1}}+c\right)+\gamma^{h_{\tau}^{\pi_{k-1}}(s, a)+1} c\right) \end{aligned} Qk(s,a)Q(s,a)∣≈EτTCEc(s,a)=Eτ(f(hτπk1(s,a))(LQk1+c)+γhτπk1(s,a)+1c)
  • 接下来类似 1.3.1节 ReMERN 一样把所有降权放缩项都替换掉,最后得到的 transition 权重为
    w k ( s , a ) ∝ d π k ( s , a ) μ ( s , a ) exp ⁡ ( − E τ TCE ⁡ c ( s , a ) ) w_{k}(s, a) \propto \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} \exp \left(-\mathbb{E}_{\tau} \operatorname{TCE}_{c}(s, a)\right) wk(s,a)μ(s,a)dπk(s,a)exp(EτTCEc(s,a)) 其中 d π k ( s , a ) μ ( s , a ) \frac{d^{\pi_{k}}(s, a)}{\mu(s, a)} μ(s,a)dπk(s,a) 用 LFIW 方法估计(下图中 weight model); E τ TCE ⁡ c \mathbb{E}_{\tau} \operatorname{TCE}_{c} EτTCEc 部分是在采样轨迹时就把各个 ( s , a ) (s,a) (s,a) 的 “到终点距离” 记录在 replay buffer 中,然后用 MC 方法进行估计。作者称这种方法为 ReMERT (Regret Minimization Experience Replay using Temporal Structure) 方法,伪代码
    在这里插入图片描述

2. 实验

  • 作者分别在连续和离散环境中使用 SAC 和 DQN 作为 Baseline,将 ReMERN/ReMERT 与之前的优先采样方案做比较

2.1 连续环境

  • 在 Mujoco 和 DMC任务 中,ReMERN/ReMERT 在六个任务中的四个里超过基线方法,在其余两个任务(Halfcheetah 和 Hopper)中实现了可比的性能
    在这里插入图片描述
    注意到 ReMERT 超过了 ReMERN,说明作者 1.3.2 节提出的对 Q 价值估计准确性的评估方法是有效的,而 1.3.1 节这样基于神经网络的估计方法有一定误差
  • 作者还在 Meta-World benchmark 上进行了测试,这系列环境的目标具有随机性,对于 model-free 方法而言是很难的环境。由于这里的终止状态不固定,ReMERT 方法无法使用
    在这里插入图片描述
    可见 ReMERN 相比 DisCor 有明显的性能提升

2.2 离散环境

  • 作者使用 Atria 套件进行离散环境测试,这些游戏的起点和终点都比较固定,因此可以使用 ReMERT 方法。由于 DisCor 是 ReMERN 中的一个组件,但是 DisCor 没有适用于离散环境的开源代码,所以这里使用 DQN 进行对比
    在这里插入图片描述
    可见 ReMERT 实现了性能提升

2.3 ReMERN 和 ReMERT 的性能特性

2.3.1 对环境噪声的鲁棒性

  • 注意到 ReMERN 在 Meta-World 上的性能比 Mujoco 好,作者认为这是因为 ReMERN 在高随机环境中的鲁棒性更好,因为在高随机性的环境下,ReMERN 相比其他方法可以更准确地估计出 Q 价值;但在环境随机性较低时,这种准确性反而可能成为性能瓶颈(就像 DisCor 那样)
  • 作者在几个连续任务的 reward 中加入随机高斯噪声,发现 ReMERN 和 ReMERT 确实对噪声更有鲁棒性
    在这里插入图片描述
  • 另外奖励的噪声不影响轨迹的时序结构,因此 ReMERT 方法完全不受这类噪声影响

2.3.2 TCE 有效性

  • 作者使用一个实验单独说明 TCE 的有效性,在 gridworld 离散环境中,使用 TCE 估计 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| QkQ,即 (2) 式中的 c 项,然后忽略 a/b/d 项计算 w k w_k wk,结合 DQN 进行训练;对比方法为 DQN、DQN+DisCor 和 DQN+Oracle(即 ∣ Q k − Q ∗ ∣ |Q_k - Q^*| QkQ 的 ground truth),实验结果如下
    在这里插入图片描述
    可见 DQN+TEC 的准确性超过了 DQN 和 DQN+DisCor,说明了 TEC 的有效性。DisCor 中 error network 缓慢的收敛速度导致其效率较低

3. 总结

  • 这篇文章出发点很好,得出的结论把之前的几篇文章的观点整合起来,观感良好
  • 数学推导比较复杂,请参考原文
  • 从 RL 目标出发,构造约束优化问题求解,这个思路应该可以用来优化 RL 中其他可以设计的成分,比如探索策略之类的,但是对数学的要求应该很高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云端FFF

所有博文免费阅读,求打赏鼓励~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值