摘要
深度强化学习(RL)算法可以使用大容量深度网络直接从图像观察中学习。 但是,这些高维度的观察空间在实践中提出了许多挑战,因为该政策现在必须解决两个问题:表示学习和任务学习。 在这项工作中,我们通过显式学习可以加速从图像进行强化学习的潜在表示,分别解决这两个问题。 我们提出了随机潜在行动者批评(SLAC)算法:一种样本有效且高性能的RL算法,用于直接从高维图像输入中学习复杂连续控制任务的策略。 SLAC提供了一种新颖且有原则的方法,通过学习紧凑的潜在表示,然后在模型的潜在空间中执行RL,将随机顺序模型和RL统一为一个方法。 我们的实验评估表明,在一系列困难的基于图像的控制任务上,我们的方法在最终性能和样品效率方面均优于无模型和基于模型的替代方法。 我们的网站上提供了我们的结果代码和视频
1引言
深度强化学习(RL)算法可以学习直接从原始的低层观察(例如图像)中解决任务。 但是,这样的高维观测空间在实践中提出了许多挑战:一方面,很难直接从这些高维输入中学习,但另一方面,也很难挑出一个紧凑的表示形式。 可以从中学习与任务相关的基础信息。 无标准的无模型深度RL旨在将表示学习和任务学习的这些挑战统一为一个端到端的培训过程。
但是,很难同时解决这两个问题,因为有效的策略需要有效的表示,有效的表示需要来自策略或价值函数的有意义的梯度信息,而仅使用无模型的监督信号(即奖励函数) )。 因此,实际上,使用标准的端到端RL算法直接从图像中学习可能很慢,对超参数敏感并且效率低下。
相反,我们建议通过依赖于预测模型学习来显式获取潜在表示,并在该学习的潜在空间中训练RL代理,从而将表示学习与任务学习分开。 这减轻了表示学习的挑战,因为即使在代理人在任务上没有任何进展之前,预测性学习仍会受益于丰富而翔实的监督信号,从而提高了整个学习过程的样本效率。 在这项工作中,与现有的基于模型的RL方法相比,我们的预测模型可通过分别解决表示学习来加速任务学习,后者使用预测模型来产生廉价的综合体验[51,22,32]或计划到 未来[11,13,46,9,55,26]。
我们提出的随机序贯模型(图1)对高维观测值进行了建模,这是潜在过程的结果,具有高斯先验和潜伏动力学。 该模型表示部分观察到的马尔可夫决策过程(POMDP),其中的随机潜在状态使模型可以表示任何状态变量的不确定性(根据过去的观察)。 精确地解决这种POMDP在计算上是棘手的,因为它等同于在信念空间中解决决策问题[5,33]。 最近的工作将信念近似为前向展开或粒子滤波中潜在样本的编码[8,30],或在信念状态前向模型中学习的信念表示[21]。 相反,我们提出了一个简单的近似值,该近似值是从控制作为推理框架得出的,该近似值在潜在状态样本上训练了马尔可夫评论家,在观察和动作的历史上训练了演员,从而产生了我们的随机潜在演员-批评者(SLAC)算法 。 尽管此近似值失去了完整的POMDP解算器的某些好处(例如减少不确定性),但在实践中进行训练很容易且稳定,可以在一系列具有挑战性的问题上取得有竞争力的结果。
这项工作的主要贡献是一种新颖且有原则的方法,该方法将学习随机序贯模型和RL集成到单个方法中,从而在模型的潜在空间中执行RL。 通过将问题形式化为POMDP中的控制作为推理问题,我们证明了变化推理导致我们SLAC算法的目标。 我们的经验表明,SLAC通过证明SLAC在一系列图像上的性能均优于先前的无模型和基于模型的RL算法,从而得益于无模型RL的良好渐近性能,同时还利用改进的潜在空间表示来提高样本效率 基于连续控制基准任务。
2相关工作
RL中的表示学习。 原则上,端到端深度RL可以隐式地学习表示,这是RL过程的一部分[45]。 然而,先前的工作已经观察到RL有一个“表示学习瓶颈”:必须花费相当长的学习时间来获取观测空间的良好表示[50]。 这激发了在代理甚至学会解决任务之前使用独特的表示学习过程来获取这些表示。 许多先前的工作已经探索了在RL中使用辅助监督来学习此类表示[41、14、31、29、23、47、48、19、10]。 与此类表示学习算法相反,我们显式学习了POMDP的潜在变量模型,在该模型中,共同学习了潜在表示和潜在空间动力学。 通过对连续潜在状态之间的协方差建模,我们提出的算法可以直接在学习模型的潜在空间中执行Bellman备份。
RL中的部分可观察性。 我们的工作还涉及部分可观察性下对RL的先前研究。 先前的工作已经研究了POMDP的精确和近似解决方案,但是它们需要POMDP的显式模型,并且仅适用于较简单的域[33]。 最近的工作提出了端到端的RL方法,该方法使用递归神经网络来处理观察和(有时)动作的历史,但没有构建POMDP模型[28、15、56]。 然而,其他著作学习了潜伏空间动力学系统模型,然后将其用于基于模型的RL [54、53、34、35、55、26、36]来求解POMDP。 尽管其中一些作品学习了与我们相似的潜在变量模型,但是这些方法通常受到模型误差和有限水平优化的限制。 与这些工作相比,我们的方法不使用模型进行预测,而是执行无限期策略优化。 我们的方法得益于无模型RL的良好渐近性能,同时利用改进的潜在空间表示来提高样本效率。
其他工作也训练了潜在变量模型,并将其表示用作无模型RL算法的输入。 他们使用从前向模型[8]采样的潜在状态编码的表示,从粒子滤波[30]获得的置信表示或从学习的置信空间正向模型[21]直接获得的置信表示。 我们的方法与这些现有方法密切相关,因为我们还使用了无模型的RL,并具有通过预测学习的潜在状态表示。 但是,我们的方法不是使用信念表示,而是直接在潜伏状态样本上学习评论者,这更易于控制扩展到更复杂的任务。 与我们的工作同时进行的是Hafner等。 [27]提出将无模型学习与序列模型的表示相集成,如本文所建议的那样&