【文献阅读】RL经典:Benchmarking Deep Reinforcement Learning for Continuous Control

本文提出了一套包含31个连续控制任务的基准,用于评估强化学习算法在高维连续动作空间中的性能。研究比较了多种算法,包括REINFORCE、TNPG、TRPO和DDPG等,发现在大多数任务中,TNPG和TRPO表现最佳,而DDPG具有较高的样本效率。同时,文章强调了循环策略在部分可观测任务中的优势,但训练难度增加。尽管有算法取得了一些进展,但在分层任务上的性能仍然较差,暗示了未来研究的新方向。
摘要由CSDN通过智能技术生成

Benchmarking Deep Reinforcement Learning for Continuous Control

Brief

paper 链接paper
开源代码code
引用量 300++
作者Pieter Abbeel来自UC Berkeley
鉴于RL领域具有很强的时效性,这篇2016年开源的论文在当时应该是非常轰动的。不过对于现在RL算法的发展,这篇肯定是有很大的滞后性的。所以权当学习一种如果对RL算法的重现性进行衡量,怎么选择RL算法,尤其是在连续控制领域里面。

Abstract

本文的目的:in order to facilitate experimental reproducibility and to encourage adoption by other researchers.为了便于实验的的可重复性,并鼓励其他研究人员采用。
【大背景】最近,研究着将特征表征feature representations的deep learning深度学习与强化学习相结合,取得了显著的进展。【具体的】一些显著的例子包括训练agents基于raw pixel data原始像素数据玩Atari 游戏,以及使用raw sensory inputs原始感官输入获得高级操作技能advanced manipulation skills。【缺点】然鹅,由于缺乏一个普遍采用的benchmark基准,一直难以量化连续控制领域的进展quantify progress。【本文】在这项工作中,我们提出了一套连续控制任务的benchmark基准,包括经典任务,如cart-pole swing-up,具有非常高的状态和动作维度的任务,如3D humanoid locomotion 人形运动,部分可观测的任务tasks with partial observation,以及具有层次结构的任务hierarchical structure。我们报告了基于对一系列已实现的RL算法进行系统评估的新发现。

1. Introduction

  • 第一段 列举了一些RL的进展

【RL定义】RL解决的问题是,agents应该如何学习采取行动,通过与环境的interactions相互作用,使累计报酬最大化maximize cumulative reward。【RL传统做法】RL算法的传统方法需要精心选择feature representations特征表示,这些特征表示通常是手工设计的hand-engineered。【最近的进展】最近,通过将用于学习特征表征(Krizhevsky et al., 2012;
Hinton et al., 2012)的深度学习与RL相结合,取得了很大的进展,这可以追溯到早期工作Tesauro (1995) and Bertsekas & Tsitsiklis (1995).【例子】
Notable examples are training agents to play Atari games based on raw pixels显著的例子是训练agents 基于原始像素玩Atari游戏(Guo et al., 2014; Mnih et al., 2015; Schulman et al., 2015a),并使用原始感官收入获得高级操作技能(Levine et al., 2015; Lillicrap et al., 2015;Watter et al., 2015). 【其他例子】在训练3D运动和操纵任务的深度神经网络policies策略方面也取得了令人印象深刻的结果(Schulman et al., 2015a;b; Heess et al., 2015b).

  • 第二段:高维连续空间的问题
    随着这一最新进展,the Arcade Learning Environment (ALE) (Bellemare et al., 2013) 已经成为一个流行的benchmark基准,用于评估具有高维状态输入和离散动作的任务设计的算法。然鹅,这些算法并不总是generalize straightforwardly to tasks with continuous actions直接泛化到具有连续动作的任务中,导致我们的理解存在差距。例如,由于curse of dimensionality 维度诅咒,当对动作空间进行naive discretization天真的离散化时,基于Q-learning 的算法很快就变得infeasible不可行了(Bellman, 1957; Lillicrap et al., 2015).。在连续控制领域,动作是连续的,而且往往是高维的,我们任务现有的控制基准control benchmarks不能提供一套全面的challenging problems (见第7节对现有benchmarks的回顾)。benchmarks在计算机视觉和语言识别等其他领域发挥了重要的作用。例子包括 MNIST (Le-Cun et al., 1998), Caltech101 (Fei-Fei et al., 2006), CIFAR (Krizhevsky & Hinton, 2009), ImageNet (Deng et al., 2009), PASCAL VOC (Everingham et al., 2010), BSDS500 (Martin et al., 2001), SWITCHBOARD (Godfrey et al.,1992), TIMIT (Garofolo et al., 1993), Aurora (Hirsch & Pearce, 2000), and VoiceSearch (Yu et al., 2007). 强化学习和连续控制缺乏一个标准的,具有挑战性的试验台,因此很难量化科学进步。系统的评价和比较不仅能进一步了解现有算法的优势,还能揭示其局限性,并提出未来的研究的方向。

  • 第三段
    我们试图解决这个问题,并提出一个由31个连续控制任务组成的benchmark。这些任务从简单的任务,例如cart-pole balancing, 到具有挑战性的任务,如high-DOF locomotion,tasks with partial observations, 和 hierarchically structured tasks。此外,我们还实现了一系列RL算法,在此基础上,我们报告了基于系统评估其在训练深度神经网络策略方面有效性的新发现novel findings。benchmark和参考实现在链接 , 从而可以开发,实现和评估新的算法和任务。

2. Preliminaries

本节定义后续章节需要用到的符号define the notation
所实现的任务符合conform to a finite-horizon discounted Markov decision process 有限时折扣的马尔可夫决策过程(MDP)的标准接口interface, 定义为tuple元组 ( S , A , P , r , ρ 0 , γ , T ) (\mathcal{S},\mathcal{A} ,\mathcal{P},r,\rho_0,\gamma,T) (S,A,P,r,ρ0,γ,T), S \mathcal{S} S是一个(可能无限的)的状态集, A \mathcal{A} A是动作集, P : S × A × S → R ≥ 0 \mathcal{P}:\mathcal{S}\times\mathcal{A}\times\mathcal{S}\rightarrow\mathbb{R}_\ge0 P:S×A×SR0是转移概率分布transition probability distribution, r : S × A → R r:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R} r:S×AR 是回报函数reward function,
ρ 0 : S → R ≥ 0 \rho_0:\mathcal{S}\rightarrow\mathbb{R}_\ge0 ρ0:SR0 是初始状态分布initial state distribution, γ ∈ ( 0 , 1 ] \gamma\in(0, 1]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值