Asynchronous Methods for Deep Reinforcement Learning

我们为深度强化学习提出了一个概念上简单轻巧的框架,该框架使用异步梯度下降来优化深度神经网络控制器我们提出了四种标准强化学习算法的异步变体,并表明并行actor学习器对训练具有稳定作用,允许所有四种方法成功地训练神经网络控制器。性能最优的方法是actor-critic的异步变体,它在单个多核CPU(而不是GPU)上以一半的时间进行训练,超越了Atari域上的当前技术水平。此外,我们证明了异步actor-critic在各种连续电机控制问题以及使用视觉输入导航随机3D迷宫的新任务中取得了成功。
 

背景:1)

在本文中,我们为深度强化学习提供了非常不同的范例。代替经验回放,我们在环境的多个实例上异步并行执行多个智能体。这种并行性还将智能体的数据去相关到一个更平稳的过程中,因为在任何给定的时间步骤,并行智能体将经历各种不同的状态。这个简单的想法可以使用深度神经网络来鲁棒且有效地应用更多种类的基本同策RL算法,例如Sarsa,n步方法和actor-critic方法,以及异策RL算法 (例如Q学习)。


 Asynchronous RL Framework

我们现在提出了一步Sarsa、一步Q-learning、n步Q-learning和advantage actor- critics的多线程异步变体。设计这些方法的目的是寻找能够可靠地训练深度神经网络策略且不需要大量资源的RL算法。虽然底层的RL方法有很大的不同,actor- critical是一种基于策略的策略搜索方法,Q-learning是一种基于策略值的非策略方法,但我们使用两个主要思想使所有四种算法在给定设计目标的情况下都具有实用性。

首先,我们使用异步actor-学习者,类似于Gorila框架(Nair等人,2015),但不是使用单独的机器和参数服务器,而是在一台机器上使用多个CPU线程。让学习者在单一的机器上,消除了发送梯度和参数的通信成本,使我们能够使用霍格怀德!(Recht et al., 2011)训练样式更新。

其次,观察到多个并行运行的参与者-学习者很可能在探索环境的不同部分。此外,人们可以在每个actor-learner中明确使用不同的探索策略,以最大化这种多样性。通过在不同的线程中运行不同的探索策略,多个actor-learner并行应用在线更新对参数所做的整体更改,可能比单个智能体应用在线更新在时间上的相关性更低。因此,我们没有使用重放内存,而是依赖采用不同探索策略的并行参与者来执行DQN训练算法中经验重放所承担的稳定角色。

除了稳定学习之外,使用多个并行参与者-学习者还有多种实际好处。首先,我们获得了训练时间的减少,在并行行为学习者的数量上大致是线性的。第二,由于我们不再依赖经验回放来稳定学习,我们能够使用政策上的强化学习方法,如Sarsa和actor-批评家,以稳定的方式训练神经网络。我们现在描述了我们的one-step Qlearning, one-step Sarsa, n-step Q-learning和advantage actor- critics的变体。 

 Optimization: 

我们在我们的异步框架中研究了三种不同的优化算法——带动量的SGD、不带共享统计信息的RMSProp (Tieleman & Hinton, 2012)和带共享统计信息的RMSProp。我们使用了标准的非中心RMSProp更新

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值