在本文中,我们描述了一种优化控制策略的方法,具有保证的单调性改进。通过对理论证明的方案进行一些近似,我们开发了一个实用的算法,称为信赖域策略优化(Trust Region Policy Optimization, TRPO)。该算法对于优化大型非线性策略(如神经网络)是有效的。实验证明了其在各种任务上的鲁棒性能:学习模拟机器人游泳、跳跃和走路的步态;以及使用屏幕图像作为输入来玩Atari游戏。尽管它的近似方法偏离了理论,TRPO倾向于给出单调的改进,几乎没有调整超参数。
方法:
本文首先证明,最小化某个代理损失函数可以保证具有非平凡步长的策略改进。然后对理论证明的算法进行一系列的逼近,得到一个实用的算法,称为信赖域策略优化(trust region policy optimization, TRPO)算法。我们描述了该算法的两种变体:第一种是单路径方法,可应用于无模型环境;其次是vine方法,它要求将系统恢复到特定的状态,通常只有在仿真中才可能实现。这些算法是可扩展的,可以优化具有数万个参数的非线性策略,这些参数此前对无模型策略搜索提出了重大挑战(Deisenroth等人,2013)。实验表明,相同的TRPO方法可以从原始图像中学习复杂的游泳、跳跃和走路策略,以及直接玩Atari游戏。