【文献阅读】Soft Actor-Critic(ERL的前一版)

本文介绍了Soft Actor-Critic(SAC),一种离策略的深度强化学习算法,旨在解决高样本复杂度和收敛不稳定性的问题。SAC通过最大化熵在执行任务时保持策略的随机性,提高了探索性和稳定性。相比其他off-policy和on-policy方法,SAC在连续控制任务上表现出优越的性能和样本效率。作者还证明了SAC在不同随机种子上的稳定性,表明其对超参数调整的敏感度较低。
摘要由CSDN通过智能技术生成

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Brief

这是一篇18年的SAC算法,目前已经有了300+的引用量。
文章链接paper代码链接code
作者Sergey Levine助理教授 来自加州伯克利UC Berkeley
作者Pieter Abbeel教授来自加州伯克利

Abstract

model-free深度RL算法已经在一系列具有挑战的决策和控制任务上得到了验证。【问题】然鹅,这些方法通常受到两个主要挑战:very high sample complexity 和brittle convergence properties高样本复杂度和脆收敛特性,which necessitate meticulous hyperparameter tuning 需要对超参数进行细致的调整。【总结】这两个挑战严重限制了此在方法在complex,real-world domains的applicability。【本文内容】本文提出了基于maximum entropy 最大熵强化学习框架的 soft actor-critic, an off-policy actor-critic deep RL algorithm (SAC,一种离-策略AC深度强化学习)。【具体介绍】在这个框架中,actor的目标是最大化期望回报的同时最大化熵——即,在尽可能随机的acting的同时succeed at the task。 之前基于此框架的深度RL方法被表述为Q-learning 方法。【实验】通过把off-policy updates 和一个稳定的随机actor-critic 公式相结合,我们的方法在一系列连续控制平台任务上取得了先进的性能,由于prior on-policy和off-policy 方法。此外,我们证明,去其他off-policy算法相比,我们的方法非常稳定,在不同的random seeds 随机种子上实现了非常相似的性能。

1. Introduction

和摘要部分的结构基本一致。

  • 第一段:model-free deep RL的回顾。
    【大背景】model-free deep RL算法广泛应用,从game 到robotic control。【优缺点描述】RL和high-capacity函数逼近器(如NN)的结合为自动化广泛的决策和控制任务holds the promise。但是,这些方法在real-world domains 的广泛采用受到了两个主要挑战的阻碍。【1号挑战】model-free deep RL 方法are notoriously expensive in terms of their sample complexity,在样本复杂度方面是非常昂贵的。即使是相对简单的任务也可能需要数百万步的数据收集,而具有高维观测的复杂行为可能需要更多的数据。【2号挑战】这些仿真在超参数方面往往很脆弱:针对不同的问题需要谨慎设置 learning rates, exploration constants, 和其他设置,才能取得良好的效果。【总结】这两个挑战严重限制了model-free deep RL 方法在real-world tasks 的applicability。

  • 第二段:别人的努力。
    【分析原因】深度RL方法的样本效率不高的原因之一是on-policy learning:一些最常用的deep RL 算法,如TRPOPPOA3C,需要为每个梯度不走收集新的样本。【继续分析】这很快就会变得extravagantly expensive异常昂贵,因为学习有效策略所需的梯度步数和每步样本数随着任务复杂度的增加而增加。【off-policy】off-policy的目的是重用过去的经验。【交锋】这在传统的策略梯度方法中并不直接可行,但对于基于Q-learning 的方法来说是比较直接的。【依据】不幸的是,off-policy和高维非线性近似NN结合,对稳定性和收敛性提出了重大挑战。【挑战加剧】在连续状态和动作空间中,这一挑战进一步加剧,其中,在Q-learning中经常使用一个单独的actor network 来执行最大化perform maximization。【差方案差在哪】在这样的环境中,通常使用DDPG,提供了sample-efficient learning,但由于它extreme brittleness 和hyperparameter sensitivity,使用起来并不容易,is notoriously challenging to use.{ 2016 2017}

  • 第三段:我们的探索,最大熵及其相关综述。
    我们探索如何为连续状态动作空间设计一个efficient 和stable 的model-free deep RL算法。为此,我们借鉴了(draw on) 最大熵框架,在标准最大回报RL目标上增加了一个entropy maximization term。【最大熵】最大熵强化学习会改变RL objective,尽管original objective可以使用temperature parameter恢复。更重要的是,最大熵公式在exploration和robustness方面提供了实质性的改进:正如Ziebart(2010)所讨论的那样,最大熵策略在面对模型和估计误差是是robust,正如Haarnoja等人 (2017)所证明的那样,他们通过获得diverse behavior来提高exploration。之前的工作已经提出了model-free deep RL算法 that perform on-policy learning with entropy maximization,以及off-policy 方法based on soft Q-learning 及其变种。【指出缺点】然而,由于上述讨论的原因,on-policy variants suffer from poor sample complexity,而在连续动作空间off-policy variants 需要复杂的近似推理过程。

  • 第四段:本文内容。
    【概括】本文,我们证明了我们可以设计一种off-policy 最大熵actor-critic 算法,我们称之为soft actor-critic(SAC),它既能提高sample-efficient learning,又能提供stability。【自夸1】这种算法可以很容易扩展到非常复杂的高维度任务,例如具有21个action dimensions的Humanoid benchmark,DDPG等off-policy算法通常难以获得良好的结果。【自夸2】SAC还避免了与之前基于soft Q-learning的off-policy最大熵算法中近似推理相关的complexity和potential instability。【收敛性】我们提出了在最大熵框架下的策略迭代的收敛性证明,然后introduce一种基于新算法,这种算法可以用深层神经网络实现,我们称之为soft actor-critic。【实验结果】我们提出的实证结果表明,soft actor-critic在performance和sample efficiency上相较于off-policy 和on-policy 方法都获得了大幅度的提高。我们还和twin delayed deep deterministic(TD3)策略梯度算法做了比较,这是一个并行工作,提出了确定性算法,大大改进了DDPG。

2. Related Work

这一部分是对组成SAC算法关键的三个要素的综述。
SAC算法的三个关键要素,各占一大段,略去不表。

  • an actor-critic archiecture with separate policy and value function networks (AC框架)
  • an off-policy formulation that enables reuse of previously collected data for efficiency (off-policy formulation)
  • entropy maximization to enable stability and exploration.(最大熵)

3. Preliminaries

3.1. Notation定义符号

MDP tuple: ( S , A , p , r ) (\mathcal{S},\mathcal{A},p,r) (S,A,p,r)
the unknown state transition probability p : S × S × A → [ 0 ,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值