Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

无模型深度强化学习(RL)算法已在一系列具有挑战性的决策和控制任务中得到证明。然而,这些方法通常面临两个主要挑战:非常高的样本复杂度和脆弱的收敛特性这需要细致的超参数调整。这两种挑战都严重限制了此类方法在复杂的现实世界领域的适用性。本文提出soft actor-critic,一种基于最大熵强化学习框架的非策略actor-critic深度强化学习算法。在这个框架中,actor的目标是在最大化熵的同时最大化期望奖励。也就是说,尽可能随机地完成任务。之前基于该框架的深度强化学习方法被定义为q学习方法。通过将策略外更新与稳定的随机actor-critic公式相结合,所提出方法在一系列连续控制基准任务上实现了最先进的性能,超过了之前的策略内和策略外方法。与其他非策略算法相比,所提出方法非常稳定,在不同的随机种子上取得了非常相似的性能。

方法:

本文证明了可以设计一种非策略的最大熵actor-critic算法,称为软actor-critic (SAC),它同时提供了样本高效学习和稳定性。该算法很容易扩展到非常复杂的高维任务。SAC还避免了之前基于软q学习的非策略最大熵算法中近似推理所带来的复杂性和潜在的不稳定性。

本文提出了最大熵框架下策略迭代的收敛性证明,然后介绍了一种新的算法,该算法基于该过程的近似,可以用深度神经网络实际实现,称为软actor-critic

4.2. Soft Actor-Critic 

状态值函数近似于软值 

 

 

结论:

本文提出软actor-critic (SAC),一种非策略最大熵深度强化学习算法,提供样本高效学习,同时保留熵最大化和稳定性的好处。理论结果导出了软策略迭代,并证明其收敛于最优策略。实验表明,它优于最先进的无模型深度强化学习方法,包括off-policy DDPG算法和on-policy PPO算法。事实上,这种方法的样本效率实际上大大超过了DDPG。结果表明,随机熵最大化强化学习算法可以为提高鲁棒性和稳定性提供一个有希望的途径,而对最大熵方法的进一步探索,包括纳入二阶信息的方法(例如,信赖域(Schulman等人,2015))或更具表现力的策略类,是未来工作的一个令人兴奋的途径。 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值