Trust Region Policy Optimization

在本文中,我们描述了一种优化控制策略的方法,具有保证的单调性改进。通过对理论证明的方案进行一些近似,我们开发了一个实用的算法,称为信赖域策略优化(Trust Region Policy Optimization, TRPO)。该算法对于优化大型非线性策略(如神经网络)是有效的。实验证明了其在各种任务上的鲁棒性能:学习模拟机器人游泳、跳跃和走路的步态;以及使用屏幕图像作为输入来玩Atari游戏。尽管它的近似方法偏离了理论,TRPO倾向于给出单调的改进,几乎没有调整超参数。

方法:

本文首先证明,最小化某个代理损失函数可以保证具有非平凡步长的策略改进。然后对理论证明的算法进行一系列的逼近,得到一个实用的算法,称为信赖域策略优化(trust region policy optimization, TRPO)算法。我们描述了该算法的两种变体:第一种是单路径方法,可应用于无模型环境;其次是vine方法,它要求将系统恢复到特定的状态,通常只有在仿真中才可能实现。这些算法是可扩展的,可以优化具有数万个参数的非线性策略,这些参数此前对无模型策略搜索提出了重大挑战(Deisenroth等人,2013)。实验表明,相同的TRPO方法可以从原始图像中学习复杂的游泳、跳跃和走路策略,以及直接玩Atari游戏。 

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值