High Dimensional Continuous Control Using Generalized Advantage Estimation

策略梯度方法在强化学习中是一种很有吸引力的方法,因为它们可以直接优化累积奖励,并且可以直接与非线性函数逼近器(如神经网络)一起使用。两个主要挑战是通常需要大量的样本,以及尽管传入的数据是非平稳性,但仍难以获得稳定和稳步的改进。本文通过使用价值函数来解决第一个挑战,以一些偏差为代价,通过类似于TD(λ)的优势函数的指数加权估计来大幅减少策略梯度估计的方差。本文通过对由神经网络表示的策略和值函数使用信赖域优化过程来解决第二个挑战。该方法在高度挑战性的3D运动任务、学习双足和四足模拟机器人的跑步步态,以及学习使双足动物从一开始躺在地面上站起来的策略方面产生了强大的经验结果。与之前一大批使用手工策略表示的工作相比,所提出的神经网络策略直接从原始运动学映射到关节力矩。所提出算法是完全无模型的,在3D两足动物上学习任务所需的模拟经验量相当于1-2周的实时时间

2 PRELIMINARIES 

 

 3 ADVANTAGE FUNCTION ESTIMATION

 

 5 VALUE FUNCTION ESTIMATION

有很多不同的方法可以用来估计价值函数(参见Bertsekas(2012))。当使用非线性函数逼近器来表示值函数时,最简单的方法是解决非线性回归问题

 

 对于本工作中的实验,我们使用信任区域法来优化分批优化过程的每一次迭代的值函数。信任区域可以帮助我们避免对最近一批数据的过拟合

 

7 DISCUSSION

策略梯度方法通过提供无偏梯度估计,提供了一种将强化学习减少到随机梯度下降的方法。然而,到目前为止,它们在解决困难的控制问题方面的成功是有限的,主要是由于它们的高样本复杂度。我们已经讨论过,减小方差的关键是获得对优势函数的良好估计

本文对优势函数估计问题提供了一个直观但非正式的分析,并证明了广义优势估计器,它有两个参数γ和λ,用于调整偏差-方差权衡。我们描述了如何将这种思想与信赖域策略优化以及优化以神经网络为代表的值函数的信赖域算法相结合。结合这些技术,能够学习解决以前通用强化学习方法无法解决的困难控制任务

在并行工作中,研究人员一直在开发策略梯度方法,涉及对连续值行动的微分(Lillicrap等人,2015;Heess et al., 2015)。虽然我们从经验上发现一步回归(λ = 0)会导致过大的偏差和较差的性能,但这些论文表明,在适当调整的情况下,这种方法是可以工作的。然而,请注意,这些论文考虑的控制问题的状态和动作空间比这里考虑的要低得多。两类方法之间的比较将有助于今后的工作 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值