Trust Region Policy Optimization

最新推荐文章于 2024-05-18 11:05:50 发布

西西弗的小蚂蚁

最新推荐文章于 2024-05-18 11:05:50 发布

阅读量137

点赞数 8

分类专栏：各类数据结构文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126678414

版权

各类数据结构专栏收录该内容

93 篇文章 0 订阅

订阅专栏

在本文中，我们描述了一种优化控制策略的方法，具有保证的单调性改进。通过对理论证明的方案进行一些近似，我们开发了一个实用的算法，称为信赖域策略优化(Trust Region Policy Optimization, TRPO)。该算法对于优化大型非线性策略(如神经网络)是有效的。实验证明了其在各种任务上的鲁棒性能:学习模拟机器人游泳、跳跃和走路的步态;以及使用屏幕图像作为输入来玩Atari游戏。尽管它的近似方法偏离了理论，TRPO倾向于给出单调的改进，几乎没有调整超参数。

方法：

本文首先证明，最小化某个代理损失函数可以保证具有非平凡步长的策略改进。然后对理论证明的算法进行一系列的逼近，得到一个实用的算法，称为信赖域策略优化(trust region policy optimization, TRPO)算法。我们描述了该算法的两种变体:第一种是单路径方法，可应用于无模型环境;其次是vine方法，它要求将系统恢复到特定的状态，通常只有在仿真中才可能实现。这些算法是可扩展的，可以优化具有数万个参数的非线性策略，这些参数此前对无模型策略搜索提出了重大挑战(Deisenroth等人，2013)。实验表明，相同的TRPO方法可以从原始图像中学习复杂的游泳、跳跃和走路策略，以及直接玩Atari游戏。

西西弗的小蚂蚁

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Trust Region Policy Optimization

这些算法是可扩展的，可以优化具有数万个参数的非线性策略，这些参数此前对无模型策略搜索提出了重大挑战(Deisenroth等人，2013)。实验表明，相同的TRPO方法可以从原始图像中学习复杂的游泳、跳跃和走路策略，以及直接玩Atari游戏。尽管它的近似方法偏离了理论，TRPO倾向于给出单调的改进，几乎没有调整超参数。在本文中，我们描述了一种优化控制策略的方法，具有保证的单调性改进。通过对理论证明的方案进行一些近似，然后对理论证明的算法进行一系列的逼近，得到一个实用的算法，
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。