论文翻译 —— Episodic reinforcement learning with associative memory


EPISODIC REINFORCEMENT LEARNING WITH ASSOCIATIVE MEMORY

  • 摘要:样本效率一直是深度强化学习的主要挑战之一。已经提出的非参数化的episodic control方法通过快速锁定先前成功的策略来加速参数化强化学习。然而,之前关于情节强化学习的工作只将经验存储为不相关的项目,忽略了状态之间的关系。为了提高强化学习的样本效率,我们提出了一个新的框架,称为具有联想记忆的情景强化学习(Episodic Reinforcement Learning with Associative Memory,ERLAM),它将相关的经验轨迹关联起来,使得我们可以推理有效的策略。利用观测到的环境状态转换,我们在见过的状态之间构建一个图,并开发了一种反向轨迹传播策略,这样就能利用图进行快速的价值传播。我们使用非参数化联想记忆(non-parametric associative memory)作为参数强化学习模型的早期指导。navigation domain 和 Atari 游戏的结果表明,我们的框架比SOAT的 episodic 强化学习模型样本效率更高。

1. INTRODUCTION

  • 深度强化学习 (RL) 在很多复杂领域取得了卓越的表现 (Mnih et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Schulman et al., 2017)。深度强化学习研究主要集中在参数化方法上,它们通常依赖于参数化的价值函数。model-free方法的样本效率非常低,需要比人类多几个数量级的训练样本,这是因为基于梯度的更新是增量且缓慢的,并且对参数具有全局影响,从而导致灾难性的推理问题

  • 最近,情景强化学习(episodic RL)在提高深度强化学习的样本效率方面备受关注,例如

    • model-free episodic control (MFEC) (Blundell et al., 2016)
    • neural episodic control (NEC) (Pritzel et al., 2017) )
    • ephemeral value adjustments (EVA)(Hansen 等人,2018 年)
    • episodic memory deep q-networks(EMDQN)(Lin 等人,2018 年)

    情节控制(episodic control)的灵感来自关于人类记忆的心理生物学研究和认知研究 (Sutherland & Rudy, 1989; Marr et al., 1991; Lengyel & Dayan, 2008; Botvinick et al., 2019) ,它遵循的思想是基于实例的决策理论( instance-based decision theory) (Gilboa & Schmeidler, 1995)。episodic control建立了一个非参数化的情节记忆(episodic memory)来存储过去的好经验,因此在遇到与过去经验相似的状态时可以快速锁定成功的策略

  • 然而,目前的大多数突破都集中在情节记忆上,而对记忆的关联基本上没有研究。过去的工作通常使用类似表格的内存,并把经验作为不相关的项目存储。心理学和认知神经科学的相关研究(Kohonen,2012 年;Anderson 和 Bower,2014 年)发现海马体中的联想记忆在人类活动中起着至关重要的作用,它会记住过去经历之间的关系,以此来关联过去的经历。受此启发,我们提出了一种新的基于联想记忆(associative memory)的强化学习框架来提高样本效率,称之为情景强化学习与联想记忆(Episodic Reinforcement Learning with Associative Memory,ERLAM),它将相关的经验轨迹关联到一起,使我们能够推理得到有效的策略

    • 我们对记住的状态维护其历史最高价值,同时基于环境状态转换在这些状态上维护一个图
    • 然后我们开发了一种有效的反向轨迹传播策略,这样就能把新经验的价值通过图快速传播到所有记住的状态。
    • 最后,我们使用关联记忆中快速调整的非参数化最高价值,作为另一个参数化 RL agent的早期指导,这样它就能快速锁定先前产生高回报的状态,而不是等待许多缓慢的梯度更新。
  • 为了说明联想记忆在强化学习中的优越性,考虑一个机器人在迷宫中探索寻找苹果(G 地)的任务,如图 1 所示。它收集了从 A 和 B 开始的两条轨迹经验(即蓝色虚线 ADC 和 BDG)。由于agent终止于非奖励状态(位置 C),轨迹 ADC 上的所有状态都没有收到奖励。而在轨迹 BDG 中,agent在 G 位置得到苹果,这个最终的非零奖励会反向传播到该轨迹的所有状态。当agent向右下角采取行动时,传统的 episodic memory 会在交叉点(D 点)处维护两条轨迹中的较高价值,但轨迹 AD 中的其他状态仍为 0。如果基于 episodic memory 的机器人再次从 A 点出发,它会在 A 附近徘徊,因为在指明通往目标的道路上没有正价值。因此,如果使用基于 episodic memory 的方法,机器人在多次尝试后最终可能会采取类似绿线(ABDG)的策略。但是,如果机器人采用 associative memory,那么从轨迹 BDG 中收集到的 D 处的高价值将进一步传播到起点 A,进而机器人可以正确地采取红线策略(ADG)。
    在这里插入图片描述

  • 在某种程度上,我们的 associative memory 相当于自动增强 memory 中倒序组合的轨迹,因此我们的框架显着提高了强化学习的样本效率。与SOAT的情节强化学习方法相比,ERLAM 对于一般设置的强化学习任务有着更高的样本效率。此外,我们的 associative memory 可以用作即插即用模块,并与其他强化学习模型互补,这为进一步研究基于 associative memory 的强化学习开辟了道路。

2 BACKGROUND

  • 在强化学习 (Sutton & Barto, 1998) 框架中,agent 在一个使用马尔可夫决策过程 (MDP) 描述的环境中进行探索,学习最大化累积奖励的策略。MDP 由元组 ( S , A , P , R , γ ) (S, A, P, R,\gamma) (S,A,P,R,γ) 定义…(此处省略MDP的定义)
  • 状态-动作价值函数 Q π ( s , a ) = E [ R t ∣ s t = s , a t = a ] Q^{\pi}(s,a) = \mathbb{E}[R_t|s_t=s,a_t=a] Qπ(s,a)=E[Rtst=s,at=a] 是从 agent 在状态 s 上执行动作 a 为起点,依照策略 π \pi π 运行的预期回报。DQN (Mnih et al., 2015) 通过深度神经网络 Q θ ( s , a ) Q_{\theta}(s, a) Qθ(s,a) 把这个状态动作价值函数参数化,使用 Q-learning (Watkins & Dayan, 1992) 来学习它,从而对 t 时刻的每个状态 s t s_t st 最适合采取的动作进行排序。价值网络的参数 θ \theta θ 的优化,是通过最小化网络输出 Q θ ( s , a ) Q_{\theta}(s,a) Qθ(s,a) 和 Q-learning 目标 y t = r t + γ max ⁡ a Q θ ^ ( s t + 1 , a t ) y_t = r_t + \gamma \max_a Q_{\hat{\theta}}(s_{t+1}, a_t) yt=rt+γmaxaQθ^(st+1,at) 之间的 L 2 L_2 L2 差异(difference)实现的,其中 θ ^ \hat{\theta} θ^ 是旧版本网络参数,会定期更新。DQN 使用off-policy学习策略,从reply-buffer中采样 ( s t , a t , r t , s t + 1 ) (s_t, a_t, r_t, s_{t+1}) (st,at,rt,st+1) 元组进行训练
  • DQN 作为一种典型的参数化强化学习方法,由于使用了缓慢的基于梯度的更新,导致样本效率低下。因此有人提出了情景强化学习(episodic RL),通过非参数化的 episodic memory 来加速学习过程。情景强化学习对海马体的基于实例的学习(hippocampal instance-based learning)进行建模,从而实现快速学习。其关键思想是将过去的良好经验存储在基于表格的非参数化内存中,这样就能在遇到类似状态时快速锁定过去成功的策略,而不是等待许多优化步骤

3. RELATED WORK

  • Deep Reinforcemet Learning:我们的方法和 DQN 密切相关,作为深度强化学习的开创性方法,DQN 梯度反向传播和参数化控制学习Q函数的深度神经网络。沿着这条路线,已经提出了大量扩展方法,以提高参数化模型的学习效率

    1. Double DQN (Van Hasselt et al., 2016) 缓解了 Q-Network 的高估问题(over-estimation issue)
    2. Dueling network (Wang et al., 2015) 将 Q-Network 分成两个流,分别预测状态值和优势值,可以在动作之间实现更好的泛化
    3. Prioritized experience replay(Schaul 等人,2015b)根据每个训练样本的学习误差改变其采样优先级

    除了这些先前的改进之外,许多加速奖励传播和备份机制的算法也已经被提出。

    1. Optimality Tightening 方法(He 等人,2016 年)将 DQN 与约束优化方法相结合,以快速传播近距离奖励
    2. Q ∗ ( λ ) Q^*(\lambda) Q(λ) (Harutyunyan et al., 2016) 和 Retrace(λ) (Munos et al., 2016) 将 on-policy 样本合并到 off-policy 学习目标中
    3. Noisy Net (Fortunato et al., 2017) 在学习过程中向参数模型添加噪声以提高探索能力
    4. Distributional RL (Belle mare et al., 2017) 学习的价值函数作为一个完整的分布而不是一个期望值来处理

    与这些工作不同,本文中我们致力于结合非参数记忆(non-parametric memory)和参数化模型(parametric model)。因此,我们的方法是对这些先前扩展的补充,并且可以与它们无缝结合。

  • Episodic Reinforcement Learning:我们的工作也和情节强化学习相关。Model-free episodic control(Blundell 等人,2016 年)使用了一个完全非参数化的模型,它将 (s,a) 二元组的最佳 Q 值存储在一张表格中,借此复现迄今为止从给定开始状态下产生最高回报的动作序列。在每个轨迹结束时,表中的 Q 值会更新为当前值和累积折扣收益中的较大者。在执行阶段,若遇到表中未存储的 (s,a) 条目,则使用 k 近邻方法估计其价值,进而选择动作。最近,已经提出了几个 episodic control 与 parametric DQN 集成在一起的扩展方法

    1. Neural episodic control (Pritzel et al., 2017) 通过可微神经字典(differentiable neural dictionary)开展端到端情节控制,以生成半表格表示(semi-tabular representation)作为缓慢变化的键,然后通过基于上下文的查找方式(context-based lookup)检索快速更新的价值,以此来选择动作
    2. 为了更好地利用经验的轨迹性质,临时值调整方法 ephemeral value adjustments method(Hansen 等人,2018 年)建议进一步利用来自 replay buffer 的轨迹信息,来随时间传播价值,并产生以轨迹为中心的( trajectory-centric)价值估计。我们的方法与 EVA 的不同之处在于我们通过图关联记忆,因此我们不仅可以利用情节内的信息,还可以利用情节间的信息
    3. Episodic memory deep q-networks (Lin et al., 2018) 通过在目标函数中添加正则化项,将情景记忆的信息提炼为参数模型,并显着提高了 DQN 的性能

    与这些采用表格记忆或半表格记忆( tabular memory or semi-tabular memory)的先前工作不同,我们的工作根据记忆项目的关系构建了一个图,以形成联想记忆。

  • Graph Based Methods in Deep Reinforcement Learning:最近,还提出了几项工作,允许在深度强化学习中使用图进行规划。

    1. Eysenbach et al (2019) 直接在 replay buffer 中的状态之上构建有向图,并运行图搜索算法找到路点的序列,从而产生许多更简单的子任务,提高学习效率。
    2. Huang et al (2019) 将状态空间抽象为小比例尺地图,使其能够使用成对最短路径算法(pairwise shortest path algorithm)运行高级规划。
      与这些使用图进行规划的先前工作不同,我们的方法通过图重新组织情景记忆,以允许更快的奖励传播。此外,这些基于图的模型依赖于 goal-conditioned RL(Kaelbling,1993;Schaul 等,2015a)(的问题设置),并且仅展示了它们在 navigation-like 问题中的性能,而我们的方法适用于一般的 RL 设置
  • Exploration:高效探索是强化学习中长期存在的问题。之前的工作提出了基于一些标准(criteria)来引导探索的方法,这些标准包括

    1. intrinsic motivation (Stadie 等人,2015 年)
    2. state-visitation counts(Tang 等人,2017 年)
    3. Thompson sampling and bootstrapped models(Chapelle & Li,2011 年;Osband (Kearns & Singh, 2002)
    4. parameter-space exploration (Plappert et al., 2017; Fortunato et al., 2017)。
    5. 最近,Oh 等人 (2018) 提出了 self-imitation learning (SIL) 并发现利用过去的良好经验可以间接推动深度探索。在他们的工作中,只有当过去的决策产生比预期更大的回报时,代理才会模仿自己的决策。
    6. 与 SIL 一样,EMDQN(Lin et al.,2018 年)从 episodic memory 中学习,以重现过去的最佳决策,从而激励探索。

    在我们的方法中,我们通过图建立联想记忆,这增强了对过去良好经验的利用,因此可以间接鼓励比 EMDQN 更深入的探索

4. EPISODIC REINFORCEMENT LEARNING WITH ASSOCIATIVE MEMORY

4.1 ASSOCIATING EPISODIC MEMORY AS A GRAPH

  • 与之前的 episodic RL 类似,我们采用 episodic memory 来维持每个 (s,a) 二元组的历史最高价值 Q E C ( ϕ ( s ) , a ) Q_{EC}(\phi(s),a) QEC(ϕ(s),a),其中 ϕ \phi ϕ 是一个嵌入函数(将观测映射到状态空间的函数), ϕ \phi ϕ 可以是随机投影或变分自动编码器 (VAE) (Kingma & Welling, 2013)。当接收到一个新的状态时,Agent 将在 memory 中查找并根据以下等式更新状态值
    Q E C ( ϕ ( s t ) , a t ) ← { m a x { Q E C ( ϕ ( s t ) , a t ) , R t } , i f ( ϕ ( s t ) , a t ) ∈ Q E C R t , o t h e r w i s e (1) Q_{EC}(\phi(s_t),a_t) \leftarrow \left\{ \begin{aligned} &max\{Q_{EC}(\phi(s_t),a_t),R_t\} && ,if (\phi(s_t),a_t) \in Q^{EC}\\ &R_t &&,otherwise \end{aligned} \right. \tag1 QEC(ϕ(st),at){max{QEC(ϕ(st),at),Rt}Rt,if(ϕ(st),at)QEC,otherwise(1)
    然而,episodic memory 将状态存储为不相关的项目,并不利用这些项目之间的关系。为了充分利用情景记忆中的信息,我们进一步在 episodic memory 中的项目之上构建了一个有向图 G \mathcal{G} G,以构造一个联想记忆,如图 2 所示。在这个图中,每个节点对应一个记忆项,记录了一个状态 ϕ ( s t ) \phi(s_t) ϕ(st) 的嵌入向量,我们利用状态转换来桥接节点。该图被定义为
    G = ( V , E ) , V = ϕ ( s ) , E = { s → s ′ ∣ ( s , a , s ′ ) i s   s t o r e d   i n   m e m o r y } (2) \mathcal{G} = (V,E),V=\phi(s),E = \{s\to s'|(s,a,s') is \space stored \space in \space memory\} \tag2 G=(V,E),V=ϕ(s),E={ss(s,a,s)is stored in memory}(2)
    给定一个采样轨迹,我们暂时将每个状态添加到图中。考察该状态在某个动作下的后继状态,若是其他先前记忆的状态,则用一条有向边指向它。我们的 associative memory 重新组织了 episodic memory,并通过图将这些先前产生高回报的碎片状态连接起来。在我们的图增强情景记忆中,我们将 Q E C ( ϕ ( s ) , a ) Q_{EC}(\phi(s),a) QEC(ϕ(s),a) 重写为 Q G ( ϕ ( s ) , a ) Q_{\mathcal{G}}(\phi(s),a) QG(ϕ(s),a) 。此外,我们采用了在内存已满时丢弃最近最少使用的项目的策略

4.2 PROPAGATING VALUES THROUGH ASSOCIATIVE MEMORY

  • 典型的深度强化学习算法从 replay buffer 中均匀地采样经验元组以更新值函数。然而,采样元组的方式忽略了 agent 经验的轨迹性质(即元组一个接一个出现,因此后续状态的信息应该快速传播到当前状态)。EVA (Hansen et al., 2018) 通过引入以轨迹为中心的规划 ( trajectory-centric planning TCP) 算法来鼓励更快的价值传播。尽管如此,EVA 仅通过当前轨迹传播价值,我们将其称为情节内传播(intra-episode propagation)。我们的见解是,一种状态可能出现在不同的轨迹中,这样的状态可以作为连接点帮助连接不同的轨迹。因此,我们显式地在记忆中不同轨迹的状态之间构建图,从而允许情节间值传播( inter-episode value propagation)

  • 由于状态图很复杂(例如,不是树结构),因此图上的值传播总是很慢。为了加速传播过程,我们借助轨迹的序列性质来传播值。值传播伪代码如算法 1 所示,总体思路是按照每个轨迹的相反顺序更新图的值。具体来说,当向记忆中添加新状态时,我们把当前轨迹上状态的顺序步骤 t t t 记录为 ID。在关联记忆状态时,我们首先按 ID 降序对 memory 中的元素进行排序,然后迭代地将价值从 ID 较大的状态传播到 ID 较小的状态数,直到 Q G Q_{\mathcal{G}} QG 收敛。(注意这个算法是对于某一条episode而言的 Q G Q_{\mathcal{G}} QG 更新算法)

    在这里插入图片描述

    在每次更新时,我们根据图 G \mathcal{G} G 获得当前 (s, a) 和奖励 r 的所有后继状态-动作对 (s’,a’),并对后继动作 a’ 应用最大值操作,以将值传播到当前状态-动作对,形式化如下:
    Q G ( ϕ ( s ) , a ) ← r + γ max ⁡ a ′ Q G ( ϕ ( s ′ ) , a ′ ) (3) Q_{\mathcal{G}}(\phi(s),a) \leftarrow r +\gamma \max_{a'} Q_{\mathcal{G}}(\phi(s'),a') \tag3 QG(ϕ(s),a)r+γamaxQG(ϕ(s),a)(3)
    由于起始阶段的大多数状态在不同的情节中是相似的,我们的逆序更新策略可以有效地传播图的所有值。此外,正如我们在定理 1 中所示,我们的基于图的值传播算法可以收敛到一个唯一的最佳点。证明见附录 A

  • 定理1:将等式 3 中的 Bellman backup operator 表示为 B : R ∣ S ∣ × ∣ A ∣ → R ∣ S ∣ × ∣ A ∣ \mathcal{B}:\mathbb{R}^\mathcal{|S| \times |A|} \to \mathbb{R}^\mathcal{|S| \times |A|} B:RS×ARS×A Q 0 : S × A → R ∣ S ∣ × ∣ A ∣ , ∣ S ∣ < ∞ , ∣ A ∣ < ∞ Q^0:\mathcal{S×A} \to \mathbb{R}^\mathcal{|S|\times|A|},|S|< \infin,|A|<\infin Q0:S×ARS×A,S<,A< ,并定义 Q k + 1 = B Q k Q^{k+1} = \mathcal{B}Q^k Qk+1=BQk 。对基于图的状态-动作价值估计 Q ^ G \hat{Q}_{\mathcal{G}} Q^G 重复应用算子 B \mathcal{B} B 会收敛到唯一的最优值 Q G ∗ Q^∗_\mathcal{G} QG

  • 在之前没有构建图的 episodic RL 中,只能对完全相同或相似的状态更新价值。这是因为在 episodic memory 的典型更新规则中(如方程1所示),状态之间的关系被忽视了。Episodic memory 不利用图 G \mathcal{G} G 中边 E E E 的信息。其后果是,episodic memory 中存储的价值经常违反贝尔曼方程。相反,我们的 associative memory 允许通过图的边进行有效的价值传播,从而对每个状态计算更准确的值

4.3 LEARNING WITH ASSOCIATIVE MEMORY

  • 建立联想记忆可以被视为增强反向经验的一种方式。如图 2 所示,相同的状态可能出现在 N > 1 条轨迹中。 普通情节记忆将这些状态映射到 N 条轨迹中的最高值,而我们的联想记忆将这些状态视为连接不同轨迹的连接点,从而产生总共 N 2 N^2 N2 条轨迹。这相当于从环境中采样更多的组合轨迹,因此可以显着提高 RL 算法的采样效率。
    在这里插入图片描述
  • 我们的联想记忆可以应用于学习和控制阶段。在本文中,我们使用联想记忆作为 Q 函数学习的指导。整体框架如图3所示。具体来说,我们使用联想记忆作为目标函数的正则化项来监督参数化 Q 网络的学习。通过最小化以下目标函数来学习 Q 网络:
    L θ = E ( s , a , s ′ , r ) ∼ D [ ( r + γ max ⁡ a Q θ ˉ ( s ′ , a ) − Q θ ( s , a ) ) 2 + λ ( Q G ( ϕ ( s ) , a ) − Q θ ( s , a ) ) 2 ] (4) L_\theta = \mathbb{E}_{(s,a,s',r)\sim \mathcal{D}}[(r+\gamma\max_aQ_{\bar{\theta}}(s',a)-Q_\theta(s,a))^2+\lambda(Q_\mathcal{G}(\phi(s),a)-Q_\theta(s,a))^2] \tag4 Lθ=E(s,a,s,r)D[(r+γamaxQθˉ(s,a)Qθ(s,a))2+λ(QG(ϕ(s),a)Qθ(s,a))2](4)
    其中 λ \lambda λ 是正则化项的权重, θ \theta θ 表示参数化Q网络的参数。与 DQN (Mnih et al., 2015) 类似,我们也采用了一个使用 θ ^ \hat{\theta} θ^ 参数化的目标网络来稳定学习过程。通过结合参数和非参数项,我们可以通过关联记忆中快速调整的高价值有效地指导传统 Q 网络的学习,以便代理可以快速锁定以前产生高回报的策略,而不是等待缓慢的梯度更新。我们方法的伪代码如算法 2 所示
    在这里插入图片描述

4.4 CONNECTION TO GRAPH-BASED DEEP REINFORCEMENT LEARNING

  • 当我们的方法中使用的普适 RL 设置退化为 goal-conditional RL 通常采用的 navigation-like 任务设置时(Kaelbling,1993;Schaul 等,2015a),方程3中关联记忆的更新目标 y = r + γ max ⁡ a ′ Q G ( ϕ ( s ′ ) , a ′ ) y = r +\gamma \max_{a'} Q_{\mathcal{G}}(\phi(s'),a') y=r+γmaxaQG(ϕ(s),a) 可以改写为
    y = { r , i f   s ′   i s   a   t e r m i n a l   s t a t e γ max ⁡ a ′ Q G ( ϕ ( s ′ ) , a ′ ) , o t h e r w i s e (5) y = \left\{ \begin{aligned} &r && ,if \space s'\space is\space a \space terminal \space state\\ &\gamma \max_{a'}Q_{\mathcal{G}}(\phi(s'),a') &&,otherwise \end{aligned} \right. \tag 5 y=rγamaxQG(ϕ(s),a),if s is a terminal state,otherwise(5)
    使用等式5中的目标进行优化,相当于在所有状态组成的图中找到最短路径。在 goal-conditional RL 的背景下,一些基于图的方法(Huang 等人,2019 年;Eysenbach 等人,2019 年)也计算了最短路径,但他们专注于学习路点图,而不是先前产生高回报的记忆状态。此外,他们使用参数化方法进行值逼近,而我们开发了一种非参数化方法来提高参数化 RL Agent 的样本效率。

5. EXPERIMENTS

5.1 EXPERIMENT SETTING

  • 我们遵循与 DQN 相同的网络架构和所有超参数设置(Mnih 等人,2015 年)。原始图像被调整为 84 × 84 的灰度图像 s t s_t st,4 个连续帧堆叠成一个状态。Q 值网络交替使用卷积和ReLU,然后是一个 512 单元的全连接层和一个大小等于每个游戏中动作数量的输出层。用 Conv ( W , F , S ) (W, F, S) (W,F,S) 表示滤波器数量为 W W W、内核大小为 F F F 、步长 S S S 的卷积层。3 个卷积层可以表示为 Conv(32,8,4),Conv(64,4,2) 和 Conv(64,3,1)。我们使用 RMSProp 算法 (Tieleman & Hinton, 2012) 进行梯度下降训练,学习率 α = 0.00025 \alpha = 0.00025 α=0.00025。所有游戏的折扣因子都设为 γ = 0.99 \gamma=0.99 γ=0.99。对于试探概率,我们在训练阶段使用从 1.0 到 0.1 的退火贪婪策略,而在评估期间固定 ϵ = 0.05 \epsilon = 0.05 ϵ=0.05

  • 对于联想记忆的超参数,我们在导航领域(navigation domain)问题 Monster Kong 中将 γ \gamma γ 的值设置为 0.1,关联频率 K K K 为 10。在 Atari 游戏中,我们对所有游戏使用相同的设置。 λ \lambda λ 取值为0.3,关联频率 K K K 为50,记忆存储大小设置为100万条。我们使用随机投影技术将状态投影到维数为 d = 4 d = 4 d=4 的向量中。为了高效的表查找,我们为这些低维向量构建了一个 kd 树。

在这里插入图片描述

5.2 RESULTS ON NAVIGATION DOMAIN

  • 我们首先在导航领域测试我们的模型,这有助于证明我们算法的优越性并理解联想记忆的贡献。我们使用来自 Pygame Learning Environment (PLE)(Tasfi, 2016) 的视频游戏 Monster Kong 来设置导航实验。在这个游戏中,代理的目标是从随机的起始位置通过向上、向下、向左、向右、跳跃和 noop 的动作接近公主。代理将在达到公主位置时获得额外奖励 +1;在击中荆棘(银色三角形)时失败。我们在 Monster Kong 的三张地图(Figure 4)上运行 ERLAM,并将其与 EMDQN 和 DQN 进行比较

  • 如图 5 所示,ERLAM 的采样效率明显优于 EMDQN 和 DQN。在地图 MonsterKong2 和 MonsterKong3 上,只有 10M 样本的 ERLAM 可以获得比具有 80M 样本的 EMDQN 更高的分数。我们还检查了 Q 网络的价值估计和 episodic memory 中存储的价值,以深入了解我们的强化学习结果。我们在 ERLAM 的训练过程中绘制了联想记忆中状态的平均值(图 5 第二行中的橙色线)

    在这里插入图片描述
    为了更好地理解联想记忆中价值传播过程的贡献,我们同时保持一个没有值传播的记忆存储(相当于普通情节记忆,如图 5 第二行的绿线所示),将其状态动作价值与联想记忆进行比较。正如预期的那样,经过联想记忆价值传播后,价值估计增长得更高,表明联想记忆比情景记忆更好地估计了 Q 价值的非参数化下限。而且联想记忆估计的值更接近最优策略中的真实价值(黑色虚线),能够指导 Q 网络的学习(蓝色线)。

  • 我们进一步可视化并比较联想记忆和情景记忆执行的策略,以更深入地了解它们的联系。研究图6中的一个案例,我们观察到联想记忆提供的策略(黄色虚线)恰好是情景记忆中的两个策略(蓝线和红线)的组合,这样的组合轨迹不是 replay buffer 中真正发生过的轨迹。这表明,关联记忆中的值传播能够自动增强反向组合轨迹,从而提高 ERLAM 中的样本效率。

    在这里插入图片描述

5.3 RESULTS ON ATARI GAMES

  • 为了进一步评估 ERLAM 在不同游戏集上的样本效率,我们对来自 Arcade Learning Environment (ALE) (Bellemare et al., 2013) 的 Atari 游戏基准套件进行了实验,该套件提供了各种场景,可以测试不同设置下的 RL 算法。我们主要遵循 (Mnih et al., 2015) 的训练和评估协议。训练代理时,我们使用 10 个epochs,每个包含 100 万帧,总共 1000 万帧。对于每场游戏,我们在每个 epoch 结束时评估我们的代理 50 万帧,每个轨迹最多 18000 帧,并以最多 30 个 noop 动作开始游戏,为代理提供随机的起始位置

  • 在我们的实验中,我们将 ERLAM 与基线 episodic reinforcement learning, MFEC (Blundell et al., 2016)、NEC (Pritzel et al., 2017)、EMDQN (Lin et al., 2018)、EVA (Hansen et al., 2018),以及ablation(即没有联想记忆的 DQN)。 MFEC 直接使用非参数情景记忆进行动作选择,而 NEC、EMDQN 和 EVA 结合了非参数情景记忆和参数化 Q 网络。与之前的工作不同,ER LAM 采用联想记忆来指导 Q 网络的学习。

  • 我们在 25 款流行且具有挑战性的 Atari 游戏上测试了 ERLAM。为了评估我们的方法,我们遵循 Wang 等 (2015) 的方法,衡量 ERLAM 和 EMDQN 的得分相对于人类和 DQN 代理得分的改善百分比:
    S c o r e A g e n t − S c o r e D Q N m a x { S c o r e H u m a n , S c o r e D Q N } − S c o r e R a n d o m \frac{Score_{Agent}-Score_{DQN}}{max\{Score_{Human},Score_{DQN}\}-Score_{Random}} max{ScoreHuman,ScoreDQN}ScoreRandomScoreAgentScoreDQN

  • 为了测试我们方法的样本效率,我们将训练数据限制为 1000 万帧,并与训练了4000万帧的 episodic RL SOAT 方法 EMDQN (Lin 等人,2018) 进行比较,这个训练轮次与其论文相同。结果如图 7 所示。我们发现,尽管我们的代理使用的训练样本比 EMDQN 少 4 倍,ERLAM 在 17 场比赛中仍然优于 EMDQN。总体而言,ERLAM 在大多数游戏中明显优于所有基线。这表明联想记忆可以有效地指导参数 RL 代理的学习,我们将联想记忆与参数 RL 相结合的框架可以实现比现有 RL 算法更好的样本效率。对于ERLAM表现不佳的游戏,我们总结如下原因。

    • 首先,ERLAM 擅长在接近确定性的环境中提高样本效率,但在高度随机的环境(例如图坦卡姆)中可能会受到高估的影响
    • 其次,由于表征学习不是本文的重点,我们简单地使用朴素随机投影作为记忆中的状态表征。随机投影仅用于降维,不包含有用的高级特征或知识(例如,对象和关系)。因此,在一些很少重访状态的游戏中,例如 FishingDerby 和 Jamesbond,我们的图中没有足够的联合节点,导致算法表现不佳

    此外,我们将 ERLAM 的整体性能(均值和中值)与表 1 中的其他方法进行了比较,这也表明 ERLAM 的性能最好。
    在这里插入图片描述
    在这里插入图片描述

  • 为了更好地了解我们的卓越性能,我们进一步绘制了四款游戏的学习曲线(图 8 首行),其中包括三个一般的好案例(亚特兰蒂斯、BattleZone、StarGunner)和一个坏案例(BankHeist),以证明联想记忆何时发挥最大作用,何时不是特别有效。而且,我们还绘制了记住状态的平均价值(图 8 次行),以更好地揭示游戏分数的性能差异。 在大多数游戏中,ERLAM 的学习速度明显快于 EMDQN 和 DQN,但 ERLAM 在 BankHeist 上的性能仅略好于 EMDQN。 原因有两个方面。 首先,Atlantis, BattleZone, StarGunner 的交叉经验比BankHeist 多。因此,在前三种游戏中,联想记忆计算的值明显大于情节记忆计算的值。其次,我们观察到 BankHeist 中的背景对象具有异常多变的外观和复杂的行为,这对于基于记忆的方法(例如 MFEC、NEC、EMDQN 和 ERLAM)来说是难以处理的,特别是它们还使用了简单随机投影嵌入函数作为对于状态特征的抽象(我们也在结论部分讨论了这个问题)。这也解释了为什么 ERLAM 和 EMDQN 在这个游戏上有与 DQN 相似的性能。

    在这里插入图片描述

  • 我们还添加了实验来验证我们获得的卓越性能优势是从联想记忆而不是状态特征表示(如随机投影)获取的。 如附录图 9 所示,仅将随机投影作为输入的 DQN 的性能比 ERLAM 和原始 DQN 差得多,这表明重要的是关联记忆。

6 CONCLUSION

  • 在本文中,我们提出了一种受生物学启发的样本高效强化学习框架,称为具有联想记忆的情景强化学习(ERLAM)。这种方法显式地将记忆的状态组织为图。我们还开发了一种有效的反向轨迹传播策略,以允许新经验的价值通过图形快速传播到所有记忆状态。在导航领域任务和 Atari 游戏中的实验表明,我们提出的框架可以显着提高当前强化学习算法的样本效率。
  • 未来,在我们提出的框架内可以追求一些有趣的研究方向。
    • 首先,在本文中,遵循 Blundell 等人 (2016) 和林等人 (2018) 的工作,我们的状态嵌入函数 ϕ \phi ϕ 选用了随机投影,可以将能够捕获有用特征的高级表示学习方法合并到我们的框架中,以支持更有效的记忆检索,并进一步提高性能。
    • 其次,现有的情节强化学习算法主要侧重于基于价值的方法。将情景记忆扩展到策略梯度方法将是一项有趣的未来工作。
    • 第三,本文中我们在学习阶段应用了联想记忆方法。然而,联想记忆方法也可用于控制阶段,以进一步增强利用。
    • 第四,在现阶段,ERLAM 作为一种 episodic RL 方法,目前只擅长在接近确定性的环境中提高样本效率。 为了处理完全随机的环境,我们的模型可以通过存储 Q 值的分布(Bellemare 等人,2017 年;Dabney 等人,2018 年)而不是关联内存中的最大 Q 值来潜在地扩展。

附录A:THEORETICAL CONVERGENCE

在这里插入图片描述

附录B:RAW SCORES ON ATARI GAMES

在这里插入图片描述

在这里插入图片描述

句子摘抄

  1. However, previous work on episodic reinforcement learning neglects the relationship between states and only stored the experiences as unrelated items.
    然而,之前关于情节强化学习的工作将经验存储为不相关的项目,忽略了状态之间的关系

  2. Deep RL research largely focuses on parametric methods, which usually depend on a parametrized value function.
    深度强化学习研究主要集中在参数化方法上,它们通常依赖于参数化的价值函数

  3. The model-free approaches are quite sample inefficient and require **several orders of magnitude **more training samples than a human
    model-free方法的样本效率非常低,需要比人类多几个数量级的训练样本

  4. To some extent, our associative memory is equivalent to automatic augmentation of counterfactual combinatorial trajectories in memory
    在某种程度上,我们的 associative memory 相当于自动增强 memory 中倒序组合的轨迹

  5. In addition, our associative memory can be used as a plug-and-play module and is complementary to other reinforcement learning models, which opens the avenue for further research on associative memory based reinforcement learning
    此外,我们的 associative memory 可以用作即插即用模块,并与其他强化学习模型互补,这为进一步研究基于 associative memory 的强化学习方法开辟了道路。

  6. Apart from these prior improvements, many algorithms have been proposed to accelerate reward propagation and backup mechanism
    除了这些先前的改进之外,还提出了许多算法来加速奖励传播和备份机制

  7. Thus our method is complementary to these prior extensions and can be combined with them seamlessly
    因此,我们的方法是对这些先前扩展的补充,并且可以与它们无缝结合。

  8. ephemeral value adjustments method (Hansen et al., 2018) proposes to further leverage trajectory information from replay buffer to propagate value through time and…
    临时值调整方法(Hansen 等人,2018 年)建议进一步利用来自 replay buffer 的轨迹信息,来随时间传播价值,并…

  9. Episodic memory deep q-networks (Lin et al., 2018) distills the information of episodic memory into a parametric model by adding a regularization term in the objective function and signifificantly boosts up the performance of DQN.
    Episodic memory deep q-networks (Lin et al., 2018) 通过在目标函数中添加正则化项,将情景记忆的信息提炼为参数模型,并显着提高了 DQN 的性能

  10. Effificient exploration is a long-standing problem in reinforcement learning
    高效探索是强化学习中长期存在的问题

  11. Consequently, stored values in episodic memory often violate Bellman’s equation
    其后果是,episodic memory 中存储的价值经常违反贝尔曼方程

  12. Through the combination of parametric and non-parametric term, we can effificiently guide the learning of a conventional Q-network by the fast-adjusted high values in associative memory so that the agent can rapidly latch on strategies that previously yield high returns instead of waiting for many steps of slow gradient update
    通过结合参数和非参数项,我们可以通过关联记忆中快速调整的高价值有效地指导传统 Q 网络的学习,以便代理可以快速锁定以前产生高回报的策略,而不是等待缓慢的梯度更新

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值