【文献阅读】ES as a Scalable Alternative to RL（OpenAI 17）

最新推荐文章于 2021-12-01 15:25:08 发布

wxmcp3

最新推荐文章于 2021-12-01 15:25:08 发布

阅读量1.6k

点赞数

分类专栏：文献阅读文章标签：强化学习

本文链接：https://blog.csdn.net/wxmcp3/article/details/108599941

版权

本文探讨了进化策略（ES）作为一种黑盒优化算法，作为强化学习（RL）的替代方法，尤其在分布式系统中的扩展性和效率。在MuJoCo和Atari实验中，ES展示出良好的性能，能与A3C和TRPO等策略相媲美，且在数据效率和探索行为上有所优势。ES对动作频率和延迟奖励不变，无需计算梯度，适合处理长时距问题。通过并行化，ES能在短时间内解决复杂的3D人形行走任务。未来研究方向包括将ES应用于元学习和低精度神经网络实现。

摘要由CSDN通过智能技术生成

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

brief

文章链接
该文章是 Open AI 17年发布的，目前有300+的引用量。

Abstract

【开篇明意】We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Qlearning and Policy Gradients. 我们探索使用进化策略（ES），一类黑盒优化算法，作为流行的基于MDP的RL技术（如Qlearning和Policy Gradients）的替代品。【卓越性能】Experiments on MuJoCo and Atari show that ES is a viable solution strategy that scales extremely well with the number of CPUs available: By using a novel communication strategy based on common random numbers, our ES implementation only needs to communicate scalars, making it possible to scale to over a thousand parallel workers. This allows us to solve 3D humanoid walking in 10 minutes and obtain competitive results on most Atari games after one hour of training.在MuJoCo和Atari上的实验表明，ES是一种可行的解决策略，随着可用CPU数量的增加，它的扩展性极好。通过使用基于公共随机数的新型通信策略，我们的ES实现只需要通信标量，使得它有可能扩展到超过1000个并行workers。这使得我们可以在10分钟内解决3D人形行走的问题，并在训练一小时后获得大多数Atari游戏的竞争结果。【更多优点】 In addition, we highlight several advantages of ES as a black box optimization technique: it is invariant to action frequency and delayed rewards, tolerant of extremely long horizons, and does not need temporal discounting or value function approximation. 此外，我们还强调了ES作为一种黑盒优化技术的几个优点：它对动作频率和延迟奖励不变，对极长的horizons有容忍度，并且不需要时空折现或价值函数逼近。

1 Introduction

第一段

【点明问题】开发能够在复杂、不确定的环境中完成具有挑战性任务的智能体 agents 是人工智能的一个关键目标。【最流行的方法RL】近年来，分析这类问题最流行的范式是基于马尔可夫决策过程（MDP）形式和价值函数概念的一类强化学习（RL）算法。这种方法的成功包括从像素点学习使用Atari的系统learn to play Atari from pixels【Mnih等人，2015年】、执行直升机特技飞行等perform helicopter aerobatics。[2006]，或玩专家级围棋 play expert-level Go [Silver等人，2016]。

第二段

【替代方法：黑盒优化】一种解决RL问题的方法是使用黑盒优化black-box optimization。这种方法被称为直接策略搜索 direct policy search [Schmidhuber and Zhao，1998]，或神经进化 neuro-evolution [Risi和Togelius，2015]，当应用于神经网络时。【本文】在本文中，我们研究进化策略（ES）[Rechenberg and Eigen，1973]，这类算法中的一组特殊的优化算法。我们表明，ES可以reliably 可靠地训练神经网络策略，in a fashion 其方式非常适合扩展 scaled to 到现代分布式计算机系统，用于控制MuJoCo物理模拟器中的机器人[Todorov等人，2012]和使用像素输入玩Atari游戏[Mnih等人，2015]。

我们的主要发现如下：

我们发现，使用虚拟批处理规范化 virtual batch normalization [Salimans等人，2016]和神经网络策略的其他重新参数化 reparameterizations of the nn policy（第2.2节）极大地提高了进化策略的可靠性reliability。在我们的实验中，没有这些方法ES被证明是脆弱的brittle，但是通过这些重新参数化，我们在各种各样的环境中取得了很好的结果。
我们发现进化策略方法具有高度的可并行性 highly parallelizable：通过引入一种新的基于公共随机数common random numbers 的通信策略 communication strategy，即使使用一千多个workers，我们也能够在运行时实现线性加速 achieve linear speedups in run time。特别是in particular，使用1440名工人，我们已经能够在不到10分钟内解决MuJoCo 3D人形任务。
进化策略的数据效率出人意料地好 the data efficiency of ES was surprisingly good：我们能够在大多数Atari环境下匹配 match A3C的最终性能[Mnih等人，2016]，同时使用了3到10倍的数据。由于不执行反向传播和没有值函数，所需计算量减少了大约3倍，这部分抵消了数据效率的轻微下降。The slight decrease in data efficiency is partly offset by a reduction in required computation of roughly 3x due to not performing backpropagation and not having a value function.我们1小时的ES结果所需的计算量与A3C发布的1天结果大致相同，而在测试的23个游戏中表现更好，在28个游戏中表现更差。在MuJoCo任务中，我们能够使用不超过10倍的数据来匹配 match 信任区域策略优化的学习策略性能[TRPO；Schulman et al.，2015]。
我们发现ES比TRPO等策略梯度方法表现出更好的探索行为：在MuJoCo类人任务中，ES能够学习非常广泛的步态 gaits（例如侧身行走或向后行走）。这些不寻常的步态从来没有用TRPO观测到，这表明了一种性质不同的勘探行为 whcih suggests a qualitatively different exploration behavior。
我们发现进化策略方法是稳健的 robust：我们在所有的Atari环境中使用了固定的超参数 fixed hyperparameters，并且在所有的MuJoCo环境中使用了一组不同的固定超参数（除了一个二进制超参数，在不同的MuJoCo环境中，这一点并不是恒定不变的）。

第三段

黑盒优化方法有几个非常吸引人的特性：

对报酬的分布（稀疏或密集）无所谓，indifference to the distribution of rewards (sparse or dense)
不需要反向传播梯度， no need for backpropagating gradients
以及对可能任意长时间范围的容忍。tolerance of potentially arbitrarily long time horizons.

然而，与Q学习和策略梯度等技术相比，它们在解决棘手的RL问题方面的效率较低。这项工作的贡献，我们希望这将重新引起人们对这类方法的兴趣，并带来新的有用的应用，它证明了进化策略可以在当今最困难的环境中与竞争的RL算法竞争，而且这种方法可以扩展到更多的并行工作者。The contribution of this work, which we hope will renew interest in this class of methods and lead to new useful applications, is a demonstration that evolution strategies can be competitive with competing RL algorithms on the hardest environments studied by the deep RL community today, and that this approach can scale to many more parallel workers.

2 Evolution Strategies

进化策略（Evolution Strategies，ES）是一类受自然进化启发的启发式搜索算法：在每一次迭代（“生成”）中，一组参数向量（“基因型”）都会受到扰动（“变异”）并评估其目标函数值（“适应度”）。At every iteration (“generation”), a population of parameter vectors (“genotypes”) is perturbed (“mutated”) and their objective function value (“fitness”) is evaluated. 然后对得分最高的参数向量进行重组，以形成下一代的总体，然后迭代该过程，直到目标完全优化。这类算法的不同之处在于它们如何表示种群以及如何执行变异和重组 mutation and recombination 。ES类中最广为人知的成员是协方差矩阵自适应进化策略covariance matrix adaptation evolution strategy[CMA-ES；Hansen and Ostermeier，2001]，它用全协方差多元高斯函数full-covariance multivariate Gaussian表示总体。CMA-ES在解决中低维的优化问题方面已经非常成功。
我们在这项工作中使用的ES版本属于自然进化策略的一类，与Sehnke等人的工作密切相关。[2010年]。设F表示作用于参数 $\theta$ 的目标函数。NES算法用参数 $p_{\psi}(\theta)$ 上的分布来表示种群–它本身的参数为 $\psi$ –并通过随机梯度上升搜索 $\psi$ 来继续最大化种群上的平均目标值 $\mathbb E_{\theta\sim p_\psi}F(\theta)$ 。具体地说specifically，以与REINFORCE相似的方式使用 $\bigtriangledown_\psi\mathbb E_{\theta\sim p_\psi}F(\theta)$ 的得分函数估计器[Williams，1992]，NES算法对以下估计器采取梯度步骤：

For the special case where $p_{\psi}$ is factored Gaussian 对于 $p_{\psi}$ is factored Gaussian 的特殊情况（如本文所述），得到的梯度估计量也被称为同步扰动随机逼近simultaneous perturbation stochastic approximation[Spall，1992]、参数化策略梯度parameterexploring
policy gradients [Sehnke等人，2010]或零阶梯度估计zero-order gradient estimation [Nesterov and Spokoiny，2011]。
在这项工作中，我们关注RL问题，因此 $F (.)$ 将是环境提供的随机回报， $\theta$ 将是一个确定性或随机策略的参数 $\pi_\theta$ ，该策略描述了一个在该环境中活动的agent，由离散或连续的行为控制。RL算法的许多创新都集中在解决环境或政策的衍生工具的缺乏或存在的问题上。这种非光滑性可以用ES解决，如下所示。我们将总体分布 $p_{\psi}$