【文献阅读】进化导向的策略梯度RL

本文提出了一种进化导向的策略梯度强化学习(ERL),结合了进化算法(EA)和深度强化学习(DRL)的优点,以应对DRL中的稀疏回报、探索不足和超参数敏感性问题。实验表明,ERL在连续控制任务上优于DRL和EA,证实了其在处理长期信用分配、多样化探索和稳健收敛方面的有效性。
摘要由CSDN通过智能技术生成

Evolution-Guided Policy Gradient in Reinforcement Learning

Brief

文章链接 paper
代码链接code
作者 Kagan Tumer作者 另外一个作者是因特尔人工智能研究院的。Intel AI · Ai-Lab
俄勒冈州立大学协作机器人与智能系统研究所
Collaborative Robotics and Intelligent Systems Institute Oregon State University

Abstract

文章是在深度强化学习(DRL)的基础之上。
(1)DRL有三个问题:

  • temporal credit assignment with sparse rewards 稀疏回报
  • lack of effective exploration 缺乏有效探索
  • brittle convergence properties that are extremely sensitive to hyperparameters 对超参数非常敏感的脆性收敛特性。

collectively 总的来说,这些挑战严重限制了在real-world 的应用。

(2)EAs (Evolutionary Algorithms)进化算法的优缺点 :

  • 进化算法是一类受自然进化启发的黑盒优化技术,适合解决这些挑战。
  • 然而,EAs 通常具有较高的样本复杂度,难以解决需要优化大量参数的问题。
    这篇文章:(1)+(2)=ERL
    实验证明效果好于DRL,也好于EA。

1. Introduction

引言结构和摘要结构一模一样。

  • 第一段 RL——DRL,DRL面对的三个挑战。
    【大背景】RL和deep learning 方法如DNN的结合把RL成功扩展到了具有高维输入和动作空间的tasks。【打出问题】然而,real-word 应用受限于三大挑战:temporal credit assignment with long time horizons and sparse rewards, lack of diverse exploration, and brittle convergence properties。

  • 第二段:一号挑战,回报稀疏。
    【定性描述】在real-world 领域是常见的,通常被称为temporal credit assignment problem[54]。【1号差方案以及差在哪】Temporal Difference methods时间差分法,使用bootstrapping来解决这个问题,但是当时间跨度很长且回报很少时,常常会遇到困难。【2号差方案及局限性】Multi-step returns 解决了这一问题,但是只在on-policy scenarios有效。【3号方案及缺点】Offpolicy multi-step learning 被证明稳定,但需要补充修正机制如importance sampling,Retrace 和 V-trace计算成本高限制性强。

  • 第三段:二号挑战,effective exploration。
    【定性】 RL依赖exploration来寻找好的策略来避免陷入局部最优。【打出问题】在高维动作状态空间,有效的探索依然是关键挑战。【一群差方案们】count-based exploration,intrinsic motivation curiosity 和 variational information maximization。【另一类差方案】通过直接向智能体的参数空间添加噪声来emphasize exploration。【小结方案们的缺点】这些方案要么依赖复杂的补充结构,要么引入敏感的task-specific 参数。【段落总结】寻找通用的exploration策略是一个活跃的研究领域。

  • 第四段:三号挑战,对超参数的选择敏感,且脆收敛性。
    【强调问题】尤其影响off-policy DRL。离策略DRL使用replay buffer来存储和复用过去的经验。【脆收敛性】replay buffer是实现样本高效学习的重要组成部分,但是将其与a deep nonlinear function approximator 配对,会导致extremely brittle convergence properities[13,24].

  • 第五段:引出解决三大挑战的EA。
    【EA的1号优点】不惧稀疏回报。使用a fitness metric that consolidates returns across an entire episode 使得EAs对奖励分配的稀疏性无动于衷,并且robust to long time horizons。【EA的2号优点】多样性探索。EA的基于种群的方法还具有实现diverse exploration的优势,特别是与explicit diversity maintenance techniques 结合时。(翻译成人话就是:EA本身天赋异禀,和某些技术结合起来更是不得鸟)【EA的3号优点】鲁棒性和稳定的收敛特性。redundancy inherent in a population 种群固有的冗余也促进了鲁棒性和稳定的收敛特性,特别是和elitism结合起来。【总结】优点这么多确实和DRL结合取得了一些成果[8,22,44,53]。【开始贬,EA的大缺点】然而,EAs受困于high sample complexity,往往难以解决需要优化大量参数的高维问题。【分析原因】主要原因是EA无法利用powerful gradient descent 方法,而梯度下降法这是DRL方法sample-efficient 的核心。

  • 第六段:介绍本文的内容。摘要的扩充版本。一图以蔽之:
    ERL
    Figure1图解了ERL的双层学习方法,由进化种群产生了相同的数据集(经验)被强化学习机制使用。重复使用相同的数据集可以最大限度的从个体经验中提取信息,从而提高了sample efficiency。

2. Background

介绍MDP 等基础概念。

2.1 DDPG

2.2 EA

EA是一类搜索算法,有三个基本算子,three primary operators:

  • new solution generation 新解生成
  • solution alteration 解的变更
  • selection 选择

这些运算被应用在一个候选解们的种群上,在概率上保留有希望的解的同时,不断生成新的解。selection操作通常是概率的,其中具有较高适应值fitness
value 的解具有更高的被选择的概率。假设较高的fitness值代表良好的品质,则解的整体质量将随着每一代的传递而提高。本文中,进化算法中的每个个体定义了一个深层神经网络。mutation突变代表了对这些神经网络权权重(genes)的随机扰动。这里使用的进化框架与进化的神经网络密切相关,通常被称为neuroevolution神经进化[18,33,43,52]。

3. Motivating Example

OpenAI gym 上的标准倒立双摆和hard倒立双摆。做了两波小实验,对比了DDPG,EA和ERL。

  • 标准双摆:不出所料,ERL和DDPG在3000episodes以下解决问题。EA用了接近22000episodes。ERL和DDPG能够利用梯度来实现更快的学习,而没有梯度的EA则较慢
  • hard 双摆:解释了一下hard相较于标准的困难点在哪里。reward在一个episode结束时才disbursed to the controller。一个episode包含1000个timesteps,每一个step, controller得到的reward 是0,在最后一个step,cumulative reward 累计回报才给agent。由于agent不能定期获得其关于动作的反馈,必须要等很长时间才能获得反馈,因此就产生了非常困难的temporal credit assignment 挑战。(时间信用分配)
  • hard 双摆的实验结果:对于EA来说两种无差,依然是22000episodes解决问题。DDPG失败了。ERL在10000episodes以内解决问题,比EA快得多。
  • 这边的实验结果表明ERL是最棒的!

4. ERL

ERL背后的主要思想:incorporate EA’s population-based approach to generate a diverse set of experiences while leveraging powerful gradient-based methods from DRL to learn from them.翻译成人话:集两家之长。
这篇文章中的ERL结合了standard EA和DDPG。不过,任何off-policy RL使用 actor-critic 框架的都可以用。

  • ERL算法的一般过程:a population of actor 网络以随机权重进行初始化。除了the population, 还在critic 网络旁边初始化了一个额外的actor网络(以下简称 r l a c t o r rl_{actor} rl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值