Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model

摘要

深度强化学习(RL)算法可以使用大容量深度网络直接从图像观察中学习。 但是,这些高维度的观察空间在实践中提出了许多挑战,因为该政策现在必须解决两个问题:表示学习和任务学习。 在这项工作中,我们通过显式学习可以加速从图像进行强化学习的潜在表示,分别解决这两个问题。 我们提出了随机潜在行动者批评(SLAC)算法:一种样本有效且高性能的RL算法,用于直接从高维图像输入中学习复杂连续控制任务的策略。 SLAC提供了一种新颖且有原则的方法,通过学习紧凑的潜在表示,然后在模型的潜在空间中执行RL,将随机顺序模型和RL统一为一个方法。 我们的实验评估表明,在一系列困难的基于图像的控制任务上,我们的方法在最终性能和样品效率方面均优于无模型和基于模型的替代方法。 我们的网站上提供了我们的结果代码和视频

1引言

深度强化学习(RL)算法可以学习直接从原始的低层观察(例如图像)中解决任务。 但是,这样的高维观测空间在实践中提出了许多挑战:一方面,很难直接从这些高维输入中学习,但另一方面,也很难挑出一个紧凑的表示形式。 可以从中学习与任务相关的基础信息。 无标准的无模型深度RL旨在将表示学习和任务学习的这些挑战统一为一个端到端的培训过程。
但是,很难同时解决这两个问题,因为有效的策略需要有效的表示,有效的表示需要来自策略或价值函数的有意义的梯度信息,而仅使用无模型的监督信号(即奖励函数) )。 因此,实际上,使用标准的端到端RL算法直接从图像中学习可能很慢,对超参数敏感并且效率低下。
相反,我们建议通过依赖于预测模型学习来显式获取潜在表示,并在该学习的潜在空间中训练RL代理,从而将表示学习与任务学习分开。 这减轻了表示学习的挑战,因为即使在代理人在任务上没有任何进展之前,预测性学习仍会受益于丰富而翔实的监督信号,从而提高了整个学习过程的样本效率。 在这项工作中,与现有的基于模型的RL方法相比,我们的预测模型可通过分别解决表示学习来加速任务学习,后者使用预测模型来产生廉价的综合体验[51,22,32]或计划到 未来[11,13,46,9,55,26]。
我们提出的随机序贯模型(图1)对高维观测值进行了建模,这是潜在过程的结果,具有高斯先验和潜伏动力学。 该模型表示部分观察到的马尔可夫决策过程(POMDP),其中的随机潜在状态使模型可以表示任何状态变量的不确定性(根据过去的观察)。 精确地解决这种POMDP在计算上是棘手的,因为它等同于在信念空间中解决决策问题[5,33]。 最近的工作将信念近似为前向展开或粒子滤波中潜在样本的编码[8,30],或在信念状态前向模型中学习的信念表示[21]。 相反,我们提出了一个简单的近似值,该近似值是从控制作为推理框架得出的,该近似值在潜在状态样本上训练了马尔可夫评论家,在观察和动作的历史上训练了演员,从而产生了我们的随机潜在演员-批评者(SLAC)算法 。 尽管此近似值失去了完整的POMDP解算器的某些好处(例如减少不确定性),但在实践中进行训练很容易且稳定,可以在一系列具有挑战性的问题上取得有竞争力的结果。
这项工作的主要贡献是一种新颖且有原则的方法,该方法将学习随机序贯模型和RL集成到单个方法中,从而在模型的潜在空间中执行RL。 通过将问题形式化为POMDP中的控制作为推理问题,我们证明了变化推理导致我们SLAC算法的目标。 我们的经验表明,SLAC通过证明SLAC在一系列图像上的性能均优于先前的无模型和基于模型的RL算法,从而得益于无模型RL的良好渐近性能,同时还利用改进的潜在空间表示来提高样本效率 基于连续控制基准任务。

2相关工作

RL中的表示学习。 原则上,端到端深度RL可以隐式地学习表示,这是RL过程的一部分[45]。 然而,先前的工作已经观察到RL有一个“表示学习瓶颈”:必须花费相当长的学习时间来获取观测空间的良好表示[50]。 这激发了在代理甚至学会解决任务之前使用独特的表示学习过程来获取这些表示。 许多先前的工作已经探索了在RL中使用辅助监督来学习此类表示[41、14、31、29、23、47、48、19、10]。 与此类表示学习算法相反,我们显式学习了POMDP的潜在变量模型,在该模型中,共同学习了潜在表示和潜在空间动力学。 通过对连续潜在状态之间的协方差建模,我们提出的算法可以直接在学习模型的潜在空间中执行Bellman备份。
RL中的部分可观察性。 我们的工作还涉及部分可观察性下对RL的先前研究。 先前的工作已经研究了POMDP的精确和近似解决方案,但是它们需要POMDP的显式模型,并且仅适用于较简单的域[33]。 最近的工作提出了端到端的RL方法,该方法使用递归神经网络来处理观察和(有时)动作的历史,但没有构建POMDP模型[28、15、56]。 然而,其他著作学习了潜伏空间动力学系统模型,然后将其用于基于模型的RL [54、53、34、35、55、26、36]来求解POMDP。 尽管其中一些作品学习了与我们相似的潜在变量模型,但是这些方法通常受到模型误差和有限水平优化的限制。 与这些工作相比,我们的方法不使用模型进行预测,而是执行无限期策略优化。 我们的方法得益于无模型RL的良好渐近性能,同时利用改进的潜在空间表示来提高样本效率。
其他工作也训练了潜在变量模型,并将其表示用作无模型RL算法的输入。 他们使用从前向模型[8]采样的潜在状态编码的表示,从粒子滤波[30]获得的置信表示或从学习的置信空间正向模型[21]直接获得的置信表示。 我们的方法与这些现有方法密切相关,因为我们还使用了无模型的RL,并具有通过预测学习的潜在状态表示。 但是,我们的方法不是使用信念表示,而是直接在潜伏状态样本上学习评论者,这更易于控制扩展到更复杂的任务。 与我们的工作同时进行的是Hafner等。 [27]提出将无模型学习与序列模型的表示相集成,如本文所建议的那样,并与基于模型的部署相结合,从而进一步改善了先前基于模型的方法的性能。
顺序潜在变量模型。 先前的一些工作探索了各种建模选择,以学习随机顺序模型[40、4、34、16、17、12、20]。 它们在生成模型和推理模型的分解,它们的网络体系结构以及它们的训练过程中使用的目标方面有所不同。 我们的方法与这些顺序潜在变量模型中的任何一个都兼容,唯一的要求是它们提供了一种机制,可以从学习到的马尔可夫潜在空间的信念中对潜在状态进行采样。

3概述

这项工作通过使用变分推理同时学习潜在MDP状态的潜在表示,以及在最大熵RL框架中学习策略,从而解决了从POMDP中的高维观察中学习策略的问题。 在本节中,我们描述了完全可观测的MDP中的最大熵RL [57、24、42],以及用于训练POMDP的潜在状态空间模型的变分方法。
3.1完全可观察的MDP中的最大熵RL考虑一个马尔可夫决策过程(MDP)
其状态为st∈S,在∈A处有动作,奖励rt,初始状态分布为p(s1),随机转变分布为p(st + 1 | st , 在)。 标准RL的目的是学习某些策略πφ(at | st)的参数φ,以便在诱导的轨迹分布ρπ下最大化预期的奖励总和。 可以修改此目标以合并一个熵项,以便该策略还旨在最大程度地提高预期熵H(πφ(·| st))。 这种表述与变分推理[57、24、42]密切相关,我们在此基础上继续进行研究。 所得的最大熵目标为PT t = 1 E(st,at)〜ρπ[r(st,at)+αH(πφ(·| st))],其中r为奖励函数,α为温度参数 在最大化报酬和政策熵之间进行权衡。 软参与者评论(SAC)[24]使用此最大熵RL框架来推导软策略迭代,该迭代在所描述的最大熵框架内的策略评估和策略改进之间交替进行。 然后,SAC通过使用参数化函数逼近器来表示Q函数Qθ(临界)和策略πφ(参与者),从而将此软策略迭代扩展为处理连续的动作空间。 对软Q函数参数θ进行了优化,以最小化软Bellman残差,
公式(1)
其中γ是折现因子,而θ是延迟参数。 优化策略参数φ,以朝软Q函数的指数更新策略,从而导致策略丢失
公式(2)
SLAC通过进一步集成显式表示学习和处理部分可观察性,在此最大熵RL框架的基础上构建
3.2 POMDP中的顺序潜在变量模型和摊销变分推理为了学习RL的表示形式
我们使用经过摊销变分推理训练的潜在变量模型。 所学习的模型必须能够处理纠缠图像x中存在的大量像素,并且必须将相关信息提取为紧凑且解纠缠的表示z。 要学习这样的模型,我们可以考虑在整个生成过程p(x)= R p(x | z)p(z)dz下,从某个训练集中最大化每个观察到的数据点x的概率。
由于潜在变量z的边际化,通常难以实现该目标的计算。
在摊销变分推论中,我们利用对数似然的证据下界[38]:
公式(3)
我们可以通过学习编码器q(z | x)和解码器p(x | z),然后直接对数据点进行梯度上升,来最大化观测到的数据点的概率(即等式(3)的左侧)。 等式的右边。 在这种设置中,关注的分布是先验p(z),观察模型p(x | z)和变化近似后验q(z | x)。
为了将此类模型扩展到顺序决策设置,我们必须合并动作并在潜在状态上施加时间结构。 考虑一个部分可观测的MDP(POMDP),其潜在状态zt∈Z及其对应的观测值xt∈X。 我们对观测值xt和潜在的潜在状态zt进行了明确的区分,以强调后者是不可观察的并且其分布是未知的。 类似于MDP,初始分布和过渡分布为p(z1)和p(zt + 1 | zt,at),奖励为rt。 另外,观测模型由p(xt | zt)给出。
与VAE一样,可以通过最大化对数似然来学习这些观测值xt的生成模型。 但是,在POMDP设置中,我们注意到xt并不能提供推断zt的所有必要信息,并且在推断过程中必须考虑先前的观察。
这使我们进入了顺序潜在变量模型的讨论。 感兴趣的分布是p(z1)和p(zt + 1 | zt,at),观测模型p(xt | zt)以及近似变分后验q(z1 | x1)和q(zt + 1 | xt) + 1,zt,在)。 然后可以限制观测值的对数似然,
公式(4)
为了符号上的方便,我们定义q(z1 | x1,z0,a0):= q(z1 | x1)和p(z1 | z0,a0):= p(z1)。
先前的工作[8、30、21、26、20、36、12、55]已经探索了使用诸如具有确定性隐藏状态的递归神经网络以及概率状态空间模型之类的非马尔可夫观测序列的模型。 在这项工作中,我们可以对完全随机的顺序潜在变量模型进行有效的训练,并将其与最大熵actor-critic RL算法结合在一起,以创建SLAC:一种针对样本复杂情况的学习策略的高效样本高效RL算法 连续的控制任务直接来自于高维图像输入。

4联合建模和控制推理

对于完全可观察的MDP,可以通过引入二进制随机变量Ot来将控制问题嵌入到图形模型中,该变量指示时间步t是否最佳。 当将其分布选择为p(Ot = 1 | st,at)= exp(r(st,at))时,则通过该模型中的近似推断使p(O1:T)最大化,从而得到最大的最优策略 熵物镜[42]
在本文中,我们将此思想扩展到POMDP设置,其中概率图形模型包括潜在变量,如图1所示,并且分布可以类似地由p(Ot = 1 | zt,at)= exp(r (zt,at))。 与其仅使最优变量的可能性最大化,不如对观测值(包括观察到的过去时间步长的收益)进行联合建模,并通过使边际可能性p(x1:τ+ 1,Oτ+ 1:T)最大化来学习最大熵策略。 | a1:τ)。
该目标既代表了过去τ+ 1步中观察到的数据的可能性,也代表了代理商针对未来步骤采取的行动的最优性,从而将表示学习和控制有效地结合到一个图形模型中。 我们将变分分布分解为识别项q(zt + 1 | xt + 1,zt,at),动态项p(zt + 1 | zt,at)和策略项π(at | x1:t, a1:t−1):
公式(5)
类似于Levine [42]所描述的完全观察到的MDP设置,变异分布使用动力学用于以后的时间步长,以防止代理控制过渡和选择乐观动作。 动作的后验表示策略π。
我们使用方程式(5)的后验来获得似然性的证据下界(ELBO),
公式(6)
其中,r(zt,at)=对数p(Ot = 1 | zt,at),根据构造,p(at)是先验作用。 ELBO的完整推导在附录A中给出。

5 随机潜在演员评论家

现在,我们描述我们的随机潜在演员评论家(SLAC)算法,该算法使用函数逼近器对先验和后验分布进行建模,从而将ELBO最大化。 公式(6)中的ELBO物镜可以分为模型物镜和最大熵RL物镜。 可以直接优化模型目标,而最大熵RL目标可以通过近似消息传递来优化,消息对应于Q函数。 我们可以重写RL目标,以便根据这些消息来表达它,从而产生类似于SAC的参与者评判算法。 附录A中给出了SLAC目标推导的其他详细信息。
潜在变量模型 ELBO的第一部分对应于训练潜变量模型以最大化观察的可能性,类似于顺序潜变量模型的公式(4)中的ELBO。 生成模型由pψ(z1),pψ(zt + 1 | zt,at)和pψ(xt | zt)给出,推理模型由qψ(z1 | x1)和qψ(zt + 1 | xt + 1,zt,在)。 这些分布是对角高斯分布,其中均值和方差由神经网络的输出给出。 我们的特定模型架构的更多详细信息在附录B中给出。相对于公式(6)中的ELBO优化了分布参数ψ,其中仅依赖ψ并因此构成模型目标的项由下式给出:
公式(7)
其中定义qψ(z1 | x1,z0,a0):=qψ(z1 | x1)和pψ(z1 | z0,a0):=pψ(z1)。 我们使用重新参数化技巧从滤波分布qψ(z1:τ+ 1 | x1:τ+ 1,a1:τ)中进行采样。
演员和评论家。 ELBO的第二部分对应于最大熵RL目标。
正如在第3.1节中完全观察到的情况以及Levine [42]所述,可以通过传递软Q值的消息来解决此优化问题。 但是,在我们的方法中,由于真实状态未知,因此必须使用潜在状态z。 通过使软Bellman残差最小化来近似消息,我们用它们来训练软Q函数参数θ,
公式(8)
公式(9)
其中Vθ是软状态值函数,¯θ是延迟的目标网络参数,以θ的指数移动平均值获得。 注意,贝尔曼备份中使用的潜伏zτ和zτ+ 1是从相同的过滤分布中采样的,即zτ+ 1到qψ(zτ+ 1 |xτ+ 1,zτ,aτ)。 然后可以根据软Q函数重写与ELBO第二部分相对应的RL物镜。 优化了策略参数φ以最大程度地实现此目标,从而导致类似于软参与者批评者的策略损失[24]:
公式(10)
我们假设先采取统一行动,因此log p(at)是我们从策略损失中忽略的常数项。 这种损失仅使用批注者的序列的最后一个样本zτ+ 1,我们使用重新参数化技巧从策略中进行抽样。 请注意,该策略并非以潜在状态为条件,因为这会导致过度乐观的行为,因为该算法将学习具有对潜在状态的完美访问权限的策略的Q值。 相反,我们算法中的学习策略直接取决于过去的观察结果和操作。 这具有额外的好处,即可以在运行时执行学习的策略而无需推断潜在状态。 最后,我们注意到,对于等式(9)中Bellman残差中的潜在状​​态的期望,不是从所有z〜Z的潜在状态采样,而是从滤波分布qψ(z1:τ+ 1 | x1: τ+ 1,a1:τ)。 这种设计选择使我们能够将与Qθ最相关的样本的批评损失降至最低,同时还允许批评损失以与方程式(10)中的策略损失所暗示的方式相同的方式使用Q函数。
算法1中概述了SLAC。参与者关键组件遵循先前的工作,具有温度α的自动调节功能和两个Q函数,以减轻过高估计[18、24、25]。 SLAC可以看作是SAC的一种变体[24],其中批评家接受了我们的序列潜在变量模型的随机潜在状态的训练。 评论者的备份是在元组(zτ,aτ,rτ,zτ+ 1)上执行的,该元组是从滤波分布qψ(zτ+ 1,zτ| x1:τ+ 1,a1:τ)采样的。 评论家原则上可以利用状态zt的完善知识,这使学习更加容易。 但是,该策略无权访问zt,并且必须基于观察和操作的历史做出决策。
SLAC不是基于模型的算法,因为它不会使用模型进行预测,但是我们在实验中看到SLAC可以实现与基于模型的算法相似的样本效率。

6实验评估

6.1连续控制基准任务的比较评估
为了提供与现有方法的比较评估,我们对DeepMind Control Suite [52]中的四个任务(猎豹奔跑,助行器行走,杯中接球,手指旋转)进行了SLAC评估,并评估了四个任务(猎豹,助行器,蚂蚁 (料斗)来自OpenAI Gym [7]。 请注意,Gym任务通常用于低维状态观察,而我们使用原始图像观察对其进行评估。
我们将我们的方法与以下基于模型的最新模型和无模型算法进行比较:SAC [24]:这是一种偏离策略的参与者批评算法,它代表了与现有模型的比较 免费的学习。 我们进行的实验显示了基于真实状态(作为性能的上限)以及直接来自原始图像的SAC的性能。
D4PG [6]:这也是一种不符合政策的演员批评算法,直接从原始图像中学习。 如Tassa等人在基准测试中所述,以下图表中报告的结果是108个训练步骤后的表现。 [52]。
MPO [2,1]:这是一种脱离政策的参与者批评算法,它执行策略迭代的期望最大化形式,直接从原始图像中学习。
DVRL [30]:这是一种无策略模型的RL算法,可训练部分随机的潜在变量POMDP模型。 相对于我们的方法,DVRL使用对潜伏状态的充分信念作为行为者和评论者的输入,而不是使用我们的方法,该方法训练具有潜伏状态的评论者和具有行动和观察历史的行为者。
PlaNet [26]:这是一种基于模型的RL方法,用于从图像中学习,它使用部分随机的顺序潜在变量模型,但没有明确的策略学习。 取而代之的是,该模型用于模型预测控制(MPC)进行计划,其中每个计划都使用交叉熵方法(CEM)进行优化。
DrQ [39]:这与SAC算法相同,但结合了图像输入上的数据增强。
我们在图3中的DeepMind Control Suite上进行的实验表明,SLAC的采样效率与基于模型的和无模型的替代方案相当或更好。 这表明,克服表示学习的瓶颈,再加上有效的非策略RL,可提供类似于基于模型的方法的快速学习,同时获得可与从状态学习的完全无模型的技术相媲美的最终性能。 SLAC的性能也大大优于DVRL。 这种差异可以部分通过使用有效的非策略RL算法来解释,该算法可以更好地利用学习的表示形式。 与后续工作DrQ相比,SLAC的性能相当或稍好,后者也使用高效的非策略SAC算法。
我们还在图4中评估了来自OpenAI Gym的连续控制基准测试任务上的SLAC。我们注意到,这些任务比DeepMind Control Suite任务更具挑战性,因为奖励的形式不一样,也不在0到1之间,动力学是不同的 ,并且情节在失败时终止(例如,当漏斗或助步器跌倒时)。 PlaNet无法解决最后三个任务,而对于猎豹任务,它学习了一个次优的策略,该策略涉及将猎豹翻转过来并向前推。 为了更好地了解固定水平MPC在这些任务上的性能,我们还使用了地面真实动力学(即真实的模拟器)进行了评估,发现即使在这种情况下,MPC也无法获得良好的最终性能,这表明了无限的视野 通过SLAC和无模型算法执行的策略优化对于在这些任务上获得良好的结果很重要。
我们的实验表明,SLAC从原始图像输入中成功学习了复杂的连续控制基准任务。 在DeepMind控制套件上,SLAC在这四个任务上的性能超过了先前的工作PlaNet,并且SLAC的性能与后续工作DrQ相当或稍好。 但是,在较难的基于图像的OpenAI Gym任务上,SLAC大大优于PlaNet。 我们注意到,尽管进行了大量的超参数调整,但我们测试的先前方法在基于图像的OpenAI Gym任务上通常表现不佳。
6.2消融实验
我们研究了潜变量模型的选择,对演员和批评者的输入,模型的预训练以及相对于代理交互的次数的训练更新数如何影响SLAC。 附录D中给​​出了其他结果,包括比较解码器输出方差的影响并使用随机裁剪进行数据增强的实验。
潜在变量模型我们研究了图5a和图8中的潜在变量模型在不同设计选择之间的权衡。我们将完全随机模型与标准非序列VAE模型[38]进行了比较,该模型已在多个先前的工作中用于表示学习。 RL [29,23,47]和非顺序因式VAE模型,该模型使用我们的自回归二变量因式分解法,但没有任何时间依赖性。 我们还比较了使用时间相关性但不使用二变量分解的顺序过滤模型,PlaNet [26]使用的部分随机模型以及模型的两个其他变体:完全确定性模型,该模型消除了所有随机性。 隐藏的状态动态,以及部分随机模型,在过渡过程中添加了确定性路径,类似于PlaNet模型,但具有我们潜在的因式分解和体系结构。 除PlaNet模型外,所有模型都是我们模型的变体,它们使用与完全随机模型相同的体系结构,并且在转换或潜在变量分解方面的差异最小。 在所有情况下,我们都使用SLAC的RL框架,仅改变表示学习的模型选择。
我们的完全随机模型优于所有其他模型。 与先前的工作[26,8]中的结论相反,完全随机模型在性能上优于部分随机模型,同时保留了对随机状态空间模型的吸引人的解释。 我们假设这些先验工作受益于确定性路径(实现为LSTM或GRU),因为它们使用了先验的多步样本。 相比之下,我们的方法使用来自后验的样本,这些样本以同步观测为条件,因此对潜态随时间的传播不太敏感。 我们的模型(包括我们的模型)的顺序变体优于非顺序的VAE模型。 在非顺序VAE模型和顺序随机模型中,具有二变量分解的模型的性能类似或优于它们各自的等效项。 总体而言,包括时间依赖性在内,可以最大程度地提高性能,其次是自回归潜在变量分解和使用完全随机模型。
演员和评论家的投入接下来,我们将调查演员和评论家输入的替代选择,即观察行动历史或潜在样本。 在SLAC中,演员以观察动作历史为条件,评论家以单个潜在样本为条件。 历史记录中的图像首先通过模型的卷积网络进行压缩,然后再提供给网络。 但是,演员和评论家的损失不会将任何梯度信号传播到模型中,也不会将其卷积层传播到模型中,即用于观察作用历史的卷积层仅受模型损失的训练。
图5b和图9显示,通常,当评论者输入是历史记录而不是潜在样本时,性能会明显变差,并且对演员输入的选择无动于衷。
这与我们的推论相吻合-应该给批评者一些潜在的样本,但是演员可以以任何条件为条件(因为该政策是变后验的)。 但是,我们注意到潜伏条件的参与者可能会导致在不确定的环境中过分自信的行为。 出于一般性考虑,我们选择将原始历史直接提供给演员。
模型预训练 接下来,我们研究在代理开始学习任务之前对模型进行预训练的效果。 在我们的实验中,代理首先通过执行随机动作收集少量数据,然后对该模型进行预训练。 除非另有说明,否则该模型会在DeepMind Control Suite实验中进行50000次迭代的预训练。 图5c和图10显示很少或没有预训练会导致学习变慢,并且在某些情况下会导致较差的渐近性能。 使用100000而不是50000迭代时,性能几乎没有差异,尽管前者在某些任务中的试验之间会产生较大差异。 总体而言,这些结果表明,即使在业务代表未完成任何任务之前,业务代表也将从模型的监督信号中受益。
每次迭代的培训更新 接下来,我们研究每次迭代的训练更新数量的影响,或者等效地,每个环境步骤的训练更新数量的影响(在我们所有的实验中,每次迭代使用1个环境步骤)。 图5d和图11显示,通常,每次迭代更多的训练更新会稍微加快学习速度,但是每次迭代更新太多会导致跨试验的差异更大,并且某些任务的渐近性能会稍差。 然而,渐近性能的下降(如果有的话)很小,这表明与以前的工作相比,我们的方法不太容易过拟合。 我们假设使用随机潜在样本训练批评者会提供一些随机性,这会限制过度拟合。 当每个迭代使用2个训练更新时,可以达到最佳折衷,但是,与其他工作一样,在所有其他实验中,每个迭代使用1个训练更新。

7结论

我们提出了SLAC,这是一种用于从高维图像输入中学习的有效RL算法,该算法将有效的无策略性无模型RL与通过顺序随机状态空间模型的表示学习相结合。 通过在学习的潜在空间中结合表示学习和有效的任务学习,与先前的基于模型的RL方法和无模型的RL方法相比,我们的方法实现了更高的样本效率和最终任务性能。
尽管我们当前的SLAC算法完全没有模型,但是模型的预测没有被用来加速训练,我们方法的自然扩展是使用模型预测本身来生成合成样本。 将这些额外的基于合成模型的数据合并到基于混合模型和无模型的方法中,可以进一步提高样品效率和性能。 更广泛地说,将显式表示学习与RL结合使用不仅可以缩短培训时间并增加可完成任务的复杂性,而且还可以在任务之间重用和转移我们学习的表示形式。
广泛的影响
尽管在受控环境(例如工厂或实验室)中存在自动化机器人系统,但是控制系统的标准方法仍需要精确且昂贵的传感器设置来监视环境中感兴趣的相关细节,例如机器人的关节位置或姿势信息 该区域中所有对象的数量。 相反,能够直接从更普遍和更丰富的视觉方式中学习,将极大地促进我们学习系统的当前状态。
直接从图像中学习的能力不仅排除了昂贵的现实世界设置,而且还消除了状态估计中对人为工程工作的昂贵需求。 对于我们的学习系统来说,能够直接从原始图像观察中学习确实是非常有益的,但这引入了处理高维以及部分可观察输入的算法挑战。 在本文中,我们研究了显式学习潜在表示的使用,以直接从原始的高维图像协助无模型的强化学习。
标准的端到端RL方法试图同时解决表示学习和任务学习,并且在实践中,这导致了易碎的解决方案,该解决方案对超参数敏感,但又缓慢且效率低下。 这些挑战说明了在深度RL社区中主要使用模拟技术。 我们希望借助更高效,稳定,易于使用和易于训练的深层RL算法(例如我们在本文中提出的算法),可以帮助深层RL领域过渡到实际应用中。 -世界设置,例如机器人技术。
从更广泛的角度来看,从使危险和不良任务自动化到加速社会自动化和经济效率,自治决策制定者可以在我们的社会中发挥积极作用的应用案例和应用领域很多。 话虽这么说,但是自动化决策系统的确引入了安全隐患,并且当他们犯错时缺乏可解释性进一步加剧了安全隐患。 尽管这项工作并未明确解决安全问题,但我们认为可以将其与安全控制器级别结合使用,以最大程度地减少负面影响,同时利用其强大的深度强化学习根源来实现现实世界中的自动化和健壮任务。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值