Benchmarking Deep Reinforcement Learning for Continuous Control
Brief
paper 链接paper
开源代码code
引用量 300++
作者Pieter Abbeel来自UC Berkeley
鉴于RL领域具有很强的时效性,这篇2016年开源的论文在当时应该是非常轰动的。不过对于现在RL算法的发展,这篇肯定是有很大的滞后性的。所以权当学习一种如果对RL算法的重现性进行衡量,怎么选择RL算法,尤其是在连续控制领域里面。
Abstract
本文的目的:in order to facilitate experimental reproducibility and to encourage adoption by other researchers.为了便于实验的的可重复性,并鼓励其他研究人员采用。
【大背景】最近,研究着将特征表征feature representations的deep learning深度学习与强化学习相结合,取得了显著的进展。【具体的】一些显著的例子包括训练agents基于raw pixel data原始像素数据玩Atari 游戏,以及使用raw sensory inputs原始感官输入获得高级操作技能advanced manipulation skills。【缺点】然鹅,由于缺乏一个普遍采用的benchmark基准,一直难以量化连续控制领域的进展quantify progress。【本文】在这项工作中,我们提出了一套连续控制任务的benchmark基准,包括经典任务,如cart-pole swing-up,具有非常高的状态和动作维度的任务,如3D humanoid locomotion 人形运动,部分可观测的任务tasks with partial observation,以及具有层次结构的任务hierarchical structure。我们报告了基于对一系列已实现的RL算法进行系统评估的新发现。
1. Introduction
- 第一段 列举了一些RL的进展
【RL定义】RL解决的问题是,agents应该如何学习采取行动,通过与环境的interactions相互作用,使累计报酬最大化maximize cumulative reward。【RL传统做法】RL算法的传统方法需要精心选择feature representations特征表示,这些特征表示通常是手工设计的hand-engineered。【最近的进展】最近,通过将用于学习特征表征(Krizhevsky et al., 2012;
Hinton et al., 2012)的深度学习与RL相结合,取得了很大的进展,这可以追溯到早期工作Tesauro (1995) and Bertsekas & Tsitsiklis (1995).【例子】
Notable examples are training agents to play Atari games based on raw pixels显著的例子是训练agents 基于原始像素玩Atari游戏(Guo et al., 2014; Mnih et al., 2015; Schulman et al., 2015a),并使用原始感官收入获得高级操作技能(Levine et al., 2015; Lillicrap et al., 2015;Watter et al., 2015). 【其他例子】在训练3D运动和操纵任务的深度神经网络policies策略方面也取得了令人印象深刻的结果(Schulman et al., 2015a;b; Heess et al., 2015b).
-
第二段:高维连续空间的问题
随着这一最新进展,the Arcade Learning Environment (ALE) (Bellemare et al., 2013) 已经成为一个流行的benchmark基准,用于评估具有高维状态输入和离散动作的任务设计的算法。然鹅,这些算法并不总是generalize straightforwardly to tasks with continuous actions直接泛化到具有连续动作的任务中,导致我们的理解存在差距。例如,由于curse of dimensionality 维度诅咒,当对动作空间进行naive discretization天真的离散化时,基于Q-learning 的算法很快就变得infeasible不可行了(Bellman, 1957; Lillicrap et al., 2015).。在连续控制领域,动作是连续的,而且往往是高维的,我们任务现有的控制基准control benchmarks不能提供一套全面的challenging problems (见第7节对现有benchmarks的回顾)。benchmarks在计算机视觉和语言识别等其他领域发挥了重要的作用。例子包括 MNIST (Le-Cun et al., 1998), Caltech101 (Fei-Fei et al., 2006), CIFAR (Krizhevsky & Hinton, 2009), ImageNet (Deng et al., 2009), PASCAL VOC (Everingham et al., 2010), BSDS500 (Martin et al., 2001), SWITCHBOARD (Godfrey et al.,1992), TIMIT (Garofolo et al., 1993), Aurora (Hirsch & Pearce, 2000), and VoiceSearch (Yu et al., 2007). 强化学习和连续控制缺乏一个标准的,具有挑战性的试验台,因此很难量化科学进步。系统的评价和比较不仅能进一步了解现有算法的优势,还能揭示其局限性,并提出未来的研究的方向。 -
第三段
我们试图解决这个问题,并提出一个由31个连续控制任务组成的benchmark。这些任务从简单的任务,例如cart-pole balancing, 到具有挑战性的任务,如high-DOF locomotion,tasks with partial observations, 和 hierarchically structured tasks。此外,我们还实现了一系列RL算法,在此基础上,我们报告了基于系统评估其在训练深度神经网络策略方面有效性的新发现novel findings。benchmark和参考实现在链接 , 从而可以开发,实现和评估新的算法和任务。
2. Preliminaries
本节定义后续章节需要用到的符号define the notation
所实现的任务符合conform to a finite-horizon discounted Markov decision process 有限时折扣的马尔可夫决策过程(MDP)的标准接口interface, 定义为tuple元组 ( S , A , P , r , ρ 0 , γ , T ) (\mathcal{S},\mathcal{A} ,\mathcal{P},r,\rho_0,\gamma,T) (S,A,P,r,ρ0,γ,T), S \mathcal{S} S是一个(可能无限的)的状态集, A \mathcal{A} A是动作集, P : S × A × S → R ≥ 0 \mathcal{P}:\mathcal{S}\times\mathcal{A}\times\mathcal{S}\rightarrow\mathbb{R}_\ge0 P:S×A×S→R≥0是转移概率分布transition probability distribution, r : S × A → R r:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R} r:S×A→R 是回报函数reward function,
ρ 0 : S → R ≥ 0 \rho_0:\mathcal{S}\rightarrow\mathbb{R}_\ge0 ρ0:S→R≥0 是初始状态分布initial state distribution, γ ∈ ( 0 , 1 ] \gamma\in(0, 1]