【文献阅读】进化导向的策略梯度RL

最新推荐文章于 2023-10-12 15:19:57 发布

wxmcp3

最新推荐文章于 2023-10-12 15:19:57 发布

阅读量1.1k

点赞数 4

分类专栏：文献阅读文章标签：进化算法深度学习

本文链接：https://blog.csdn.net/wxmcp3/article/details/107027982

版权

本文提出了一种进化导向的策略梯度强化学习（ERL），结合了进化算法（EA）和深度强化学习（DRL）的优点，以应对DRL中的稀疏回报、探索不足和超参数敏感性问题。实验表明，ERL在连续控制任务上优于DRL和EA，证实了其在处理长期信用分配、多样化探索和稳健收敛方面的有效性。

摘要由CSDN通过智能技术生成

Evolution-Guided Policy Gradient in Reinforcement Learning

Brief

文章链接 paper
代码链接code
作者 Kagan Tumer作者另外一个作者是因特尔人工智能研究院的。Intel AI · Ai-Lab
俄勒冈州立大学协作机器人与智能系统研究所
Collaborative Robotics and Intelligent Systems Institute Oregon State University

Abstract

文章是在深度强化学习（DRL）的基础之上。
（1）DRL有三个问题：

temporal credit assignment with sparse rewards 稀疏回报
lack of effective exploration 缺乏有效探索
brittle convergence properties that are extremely sensitive to hyperparameters 对超参数非常敏感的脆性收敛特性。

collectively 总的来说，这些挑战严重限制了在real-world 的应用。

（2）EAs (Evolutionary Algorithms)进化算法的优缺点：

进化算法是一类受自然进化启发的黑盒优化技术，适合解决这些挑战。
然而，EAs 通常具有较高的样本复杂度，难以解决需要优化大量参数的问题。
这篇文章：（1）+（2）=ERL
实验证明效果好于DRL，也好于EA。

1. Introduction

引言结构和摘要结构一模一样。

第一段 RL——DRL，DRL面对的三个挑战。
【大背景】RL和deep learning 方法如DNN的结合把RL成功扩展到了具有高维输入和动作空间的tasks。【打出问题】然而，real-word 应用受限于三大挑战：temporal credit assignment with long time horizons and sparse rewards, lack of diverse exploration, and brittle convergence properties。
第二段：一号挑战，回报稀疏。
【定性描述】在real-world 领域是常见的，通常被称为temporal credit assignment problem[54]。【1号差方案以及差在哪】Temporal Difference methods时间差分法，使用bootstrapping来解决这个问题，但是当时间跨度很长且回报很少时，常常会遇到困难。【2号差方案及局限性】Multi-step returns 解决了这一问题，但是只在on-policy scenarios有效。【3号方案及缺点】Offpolicy multi-step learning 被证明稳定，但需要补充修正机制如importance sampling，Retrace 和 V-trace计算成本高限制性强。
第三段：二号挑战，effective exploration。
【定性】 RL依赖exploration来寻找好的策略来避免陷入局部最优。【打出问题】在高维动作状态空间，有效的探索依然是关键挑战。【一群差方案们】count-based exploration，intrinsic motivation curiosity 和 variational information maximization。【另一类差方案】通过直接向智能体的参数空间添加噪声来emphasize exploration。【小结方案们的缺点】这些方案要么依赖复杂的补充结构，要么引入敏感的task-specific 参数。【段落总结】寻找通用的exploration策略是一个活跃的研究领域。
第四段：三号挑战，对超参数的选择敏感，且脆收敛性。
【强调问题】尤其影响off-policy DRL。离策略DRL使用replay buffer来存储和复用过去的经验。【脆收敛性】replay buffer是实现样本高效学习的重要组成部分，但是将其与a deep nonlinear function approximator 配对，会导致extremely brittle convergence properities[13,24].
第五段：引出解决三大挑战的EA。
【EA的1号优点】不惧稀疏回报。使用a fitness metric that consolidates returns across an entire episode 使得EAs对奖励分配的稀疏性无动于衷，并且robust to long time horizons。【EA的2号优点】多样性探索。EA的基于种群的方法还具有实现diverse exploration的优势，特别是与explicit diversity maintenance techniques 结合时。（翻译成人话就是：EA本身天赋异禀，和某些技术结合起来更是不得鸟）【EA的3号优点】鲁棒性和稳定的收敛特性。redundancy inherent in a population 种群固有的冗余也促进了鲁棒性和稳定的收敛特性，特别是和elitism结合起来。【总结】优点这么多确实和DRL结合取得了一些成果[8,22,44,53]。【开始贬，EA的大缺点】然而，EAs受困于high sample complexity，往往难以解决需要优化大量参数的高维问题。【分析原因】主要原因是EA无法利用powerful gradient descent 方法，而梯度下降法这是DRL方法sample-efficient 的核心。
第六段：介绍本文的内容。摘要的扩充版本。一图以蔽之：

Figure1图解了ERL的双层学习方法，由进化种群产生了相同的数据集（经验）被强化学习机制使用。重复使用相同的数据集可以最大限度的从个体经验中提取信息，从而提高了sample efficiency。

2. Background

介绍MDP 等基础概念。

2.1 DDPG

2.2 EA

EA是一类搜索算法，有三个基本算子，three primary operators：

new solution generation 新解生成
solution alteration 解的变更
selection 选择

这些运算被应用在一个候选解们的种群上，在概率上保留有希望的解的同时，不断生成新的解。selection操作通常是概率的，其中具有较高适应值fitness
value 的解具有更高的被选择的概率。假设较高的fitness值代表良好的品质，则解的整体质量将随着每一代的传递而提高。本文中，进化算法中的每个个体定义了一个深层神经网络。mutation突变代表了对这些神经网络权权重（genes）的随机扰动。这里使用的进化框架与进化的神经网络密切相关，通常被称为neuroevolution神经进化[18,33,43,52]。

3. Motivating Example

OpenAI gym 上的标准倒立双摆和hard倒立双摆。做了两波小实验，对比了DDPG，EA和ERL。

标准双摆：不出所料，ERL和DDPG在3000episodes以下解决问题。EA用了接近22000episodes。ERL和DDPG能够利用梯度来实现更快的学习，而没有梯度的EA则较慢
hard 双摆：解释了一下hard相较于标准的困难点在哪里。reward在一个episode结束时才disbursed to the controller。一个episode包含1000个timesteps，每一个step, controller得到的reward 是0，在最后一个step，cumulative reward 累计回报才给agent。由于agent不能定期获得其关于动作的反馈，必须要等很长时间才能获得反馈，因此就产生了非常困难的temporal credit assignment 挑战。（时间信用分配）
hard 双摆的实验结果：对于EA来说两种无差，依然是22000episodes解决问题。DDPG失败了。ERL在10000episodes以内解决问题，比EA快得多。
这边的实验结果表明ERL是最棒的！

4. ERL

ERL背后的主要思想：incorporate EA’s population-based approach to generate a diverse set of experiences while leveraging powerful gradient-based methods from DRL to learn from them.翻译成人话：集两家之长。
这篇文章中的ERL结合了standard EA和DDPG。不过，任何off-policy RL使用 actor-critic 框架的都可以用。