论文笔记--Guided Meta-Policy Search

核心思想

传统的元强化学习方法在meta-training过程中需要大量的数据,因为很多是on-policy的。在许多问题中很难满足。本文的思想是在元学习阶段(learn a RL procedure;外循环)提供监督信息,实际使用有监督的模仿学习,这样可以充分利用off-policy数据,内循环仍然是一个RL学习。模仿的专家策略可以是标准强化学习方法自动产生的,这样实际上不需要额外的监督假设。如果能结合人类的范例,可以更有效地训练。在meta-training阶段使用范例能在元优化阶段有效帮助探索,使其在稀疏奖励环境下更有效地学习。
优点:①学习到更为有效的自适应方法,最多能减少十倍的样本量;②可以用在稀疏奖励环境下。

Guided Meta-Policy Search

目标就是使用之前的已经学习好的skill(专家策略)来指导元学习过程,虽然还是会用到on-policy数据,但是由于利用这些先验知识,会减少很多样本。分为两个阶段训练:

  • 单独训练每个元训练任务:可以使用高效off-policy方法,得到每个任务下的(近)最优策略 π i ∗ \pi^*_i πi。对元测试阶段的任务没有促进作用,只是为了下一阶段学习提供监督信息;
  • 用训练过的元训练任务进行元学习:同MAML的元学习目标,训练初始化参数 θ \boldsymbol{\theta} θ,使其能快速收敛到上一阶段学习到的多任务参数,总的样本需求少于单阶段的meta-RL;
    在这里插入图片描述

元学习阶段(二阶段)

一个完整的双阶段MAML过程,不同的是这里的外循环目标是基于监督模仿的,或者称行为克隆(BC),损失函数为:
L B C ( ϕ i , D i ) ≜ − ∑ ( s t , a t ) ∈ D log ⁡ π ϕ ( a t ∣ s t ) \mathcal{L}_{BC}(\phi_i, \mathcal{D}_i)\triangleq-\sum_{(\mathbf{s}_t,\mathbf{a}_t)\in\mathcal{D}}\log \pi_{\phi}(\mathbf{a}_t|\mathbf{s}_t) LBC(ϕi,Di)(st,at)Dlogπϕ(atst)这个监督学习的梯度方差较低,可以更稳定地强化学习。总的学习步骤表示为:

  1. 利用第一阶段学习到的策略 π ∗ \pi^* π进行采样作为每个任务的专家样本 D i ∗ \mathcal{D}^*_i Di
  2. 用采样的数据集来进行MAML的双阶段训练:
    min ⁡ θ ∑ T i ∑ D i val ∼ D i ∗ E D i tr ∼ π θ [ L B C ( θ − α ∇ θ L R L ( θ , D i tr ) , D i val ) ] \min_{\theta}\sum_{\mathcal{T}_i}\sum_{\mathcal{D}^{\text{val}}_i\sim\mathcal{D}^*_i}\mathbb{E}_{\mathcal{D}^{\text{tr}}_i\sim\pi_\theta}\left[\mathcal{L}_{BC}(\theta-\alpha\nabla_\theta\mathcal{L}_{RL}(\theta,\mathcal{D}^{\text{tr}}_i),\mathcal{D}^{\text{val}}_i)\right] θminTiDivalDiEDitrπθ[LBC(θαθLRL(θ,Ditr),Dival)]其中注意的是, L R L \mathcal{L}_{RL} LRL是一般基于梯度更新的RL算法,内循环数据 D i tr \mathcal{D}^{\text{tr}}_i Ditr是根据初始化策略参数 θ \theta θ来采样的,不同于外循环数据 D i val \mathcal{D}^{\text{val}}_i Dival来自于专家策略。

在MAML元优化过程中,为了降低BC中常见的复合误差,将DAgger算法引入进来,即交替地进行数据聚合(并加入到 D ∗ \mathcal{D}^* D)和元策略优化。数据聚合过程重要为:①自适应元策略参数 θ \theta θ到针对每个元训练任务的策略参数 ϕ i \phi_i ϕi;②利用自适应的策略 π ϕ i \pi_{\phi_i} πϕi采样数据 ( { s t } i , { a t } i ) (\left\{s_t\right\}_i,\left\{a_t\right\}_i) ({st}i,{at}i);③利用专家策略 π i ∗ \pi^*_i πi给上一步采集的数据打标签 D = [ ( { s t } i , { π i ∗ ( s t ) } i ) ] \mathcal{D}=\left[(\left\{s_t\right\}_i,\left\{\pi^*_i(s_t)\right\}_i)\right] D=[({st}i,{πi(st)}i)];④将 D \mathcal{D} D加入到专家样本中 D ∗ ← D ∗ ∪ D \mathcal{D}^*\leftarrow\mathcal{D}^*\cup\mathcal{D} DDD。在本文的设置下,数据聚合过程完全可以被人类提供的范例取代
除此之外,在MAML的内循环过程中,更新用的是初始策略参数 θ \theta θ,外循环每元更新一次的话,下一次内循环开始应该是利用更新过的 θ \theta θ重新采样的。这里利用重要性采样的方法 π θ ( a t ∣ s t ) π θ i n i t ( a t ∣ s t ) \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{init}}(a_t|s_t)} πθinit(atst)πθ(atst),可以一次内循环采样对应多次外循环BC更新。

专家策略学习阶段(一阶段)

采用一个上下文策略 π θ ( a t ∣ s t , ω ) \pi_\theta(a_t|s_t,\omega) πθ(atst,ω)来代表针对不同任务的专家策略,这样一个策略可同时使用所有任务下的数据。 ω \omega ω代表每个任务的上下文,可以是任何能够用来是被任务的信息,例如目标位置甚至任务序号。只需要用于meta-training阶段,训练好初始参数 θ \theta θ后,元测试阶段不需要。同时利用这种设置在元训练阶段可以结合许多额外的信息,这些信息可以促进元训练任务学习专家策略,但是不会用在元测试阶段。

一点思考

这篇论文的核心思想其实就是在原有的Bi-level元学习框架外,提前训练好元训练任务的策略,将特定任务策略的学习和提高与元学习的步骤分离开。之前的MAML方法任务都是从零开始一边训练提升策略性能,一边进行元学习的,所以原始MAML方法的外循环是要有策略提升的一个作用,这里的GMPS方法外循环则只需要模仿学习就好,不需要进行策略的提升。但是对于元训练任务比较多的情况下,训练好所有的meta-training任务似乎是不容易的,虽然文章中应用了所谓的一个contextual policy代表整个分布任务的专家策略,但是如果训练不好的话,直接影响模仿学习的性能,因为模仿学习的性能不可能超过专家策略。有一个好处是可以利用人类的演示样本,同时融合了模仿学习和基于PG的方法,以前的方法都是model-free的PG或者model-based的方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: b'fast end-to-end trainable guided filter'是一个快速端到端可训练的引导滤波器。它是一种用于图像增强和降噪的滤波器,将图像作为输入,并产生增强的输出图像。该滤波器采用网络架构,可以通过监督学习进行训练,从而使其能够自适应地对不同的图像进行增强和降噪。此技术的创新之处在于它的速度快,并且可以自动调整和学习不同图像的特征和参数,从而提高了图像增强和降噪的效果和传统方法的性能。 ### 回答2: 快速端到端可训练引导滤波器(fast end-to-end trainable guided filter)是一种基于深度学习的图像处理算法,它可以快速地进行图像去噪、图像增强等操作。引导滤波是一种经典的图像降噪算法,它的原理是利用附加信息对图像进行滤波。传统的引导滤波需要在滤波过程中手动设置许多参数,效率较低,而且不易学习。 该算法将引导滤波嵌入到深度神经网络中,使得其可以端到端地训练,自动学习最佳参数,可以根据实际情况自动调整参数,从而得到更好的降噪结果。同时,该算法还引入了快速可分离滤波器(fast separable filter)的思想,通过对滤波器进行一定的优化,使其更加高效。 该算法的训练过程分为个步骤。首先,使用成对的清晰和模糊图像进行训练,学习引导滤波器中的参数。其次,在测试时,使用该滤波器对任意输入图像进行滤波。该算法可以应用于多种图像降噪应用,如图像去模糊、图像去噪等。 与传统的算法相比,fast end-to-end trainable guided filter 的效果更好,速度更快,具有更好的鲁棒性和可扩展性,可以处理更大的图像数据集。 总而言之,fast end-to-end trainable guided filter 是现代图像处理领域的一种重要算法,它将深度学习的优势与传统的引导滤波算法相结合,在图像降噪、图像增强等方面得到广泛的应用。 ### 回答3: Fast end-to-end trainable guided filter(简称FastGF)是一种基于全可训练的引导滤波器的算法。引导滤波器是一种基于一对输入——引导图像和输入图像,来使输入图像平滑的滤波器。FastGF是引导滤波器的一种新近提出的算法,与之前的引导滤波方法相比有着很多的优势。 首先,FastGF可以通过深度神经网络进行训练,从而使其具有更好的泛化能力。其次,FastGF的计算速度非常快,可以在实时环境下进行使用。最后,FastGF可以很容易地与传统的图像处理算法进行集成,从而提高了它的实用价值。 FastGF可以被用于很多的计算机视觉任务,比如超分辨率、风格迁移和图像去噪。例如在图像去噪中,可以将噪声图像作为引导图像,原始图像作为输入图像,通过计算这个图像之间的权重来实现图像去噪的目的。 总之,FastGF是一种可广泛应用于图像处理领域的算法。它结合了神经网络和引导滤波器的优点,并具有快速的计算速度和高实用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值