Guided Meta-Policy Search读书笔记

最新推荐文章于 2021-03-13 17:14:35 发布

pkusjh

最新推荐文章于 2021-03-13 17:14:35 发布

阅读量244

点赞数

分类专栏： RL 文章标签： Meta RL

本文链接：https://blog.csdn.net/weixin_45929818/article/details/103277386

版权

RL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

Introduction
Method

Introduction

MAML的优化目标是
$\min_\theta \sum_{\tau} L(\theta -\alpha \nabla_\theta L(\theta, D_\tau^{tr}),D_\tau^{val})$
将MAML应用到强化学习上，那么损失函数应当为负期望累计奖励
$L_{RL}(\theta, D_\tau)=-\frac{1}{\vert D_\tau\vert}\sum_{s_t,a_t\in D_\tau} r(s_t, a_t)$
内层优化（优化每个task的 $\theta_i$ ）可以使用Policy Gradient来估计梯度，而外层优化（优化全局的 $\theta$ ）如果仍采用Policy Gradient，那么就需要对内层优化后的policy进行采样，再估计梯度，这样的话会导致优化非常不稳定。本文提出，外层优化可以改为另外一种更稳定的方法进行，从而提高meta leanring的效果。

Method

本文将meta learning分为两个阶段：第一阶段单独解决每个task，第二阶段用这些policy进行meta-learning。

假设第一阶段已经得到每个task上的接近optimal的policy { $\pi_i^*$ }。Meta-learning的目标是找到一组参数 $\theta$ ，使得policy以这组参数初始化能够很快adapt到新的task上。Adapt的过程仍采用policy gradient的方法，但是meta-objective改为supervised imitation（也叫behavior cloning）
$L_{BC}(\theta_i, D_i)=-\sum_{(s_t,a_t)\in D_i} log \pi_{\theta_i}(a_t|s_t)$
其中 $D_i$ 是被模仿的行为，在这里采用{ $\pi_i^*$ }的行为。因此，meta-objective成为下面的表达式
$\min_\theta \sum_{\tau_i} \sum_{D_i^{val} \sim D_i^*}E_{D_i^{tr}\sim \pi_\theta}[L_{BC}(\theta - \alpha \nabla L_{RL}(\theta, D_i^{tr}), D_i^{val})]$
简单来说，这个meta-objective就是每次adapt后的policy能够很好的模仿这个task上的专家policy $\pi_i^*$ ，而以前的meta-objective是adapt后的policy的reward尽可能大。
注意到当专家policy是available的时候，behavior cloning还可以采用类似DAgger的方式进行训练，即 $D^*$ 根据训练过程中得到的state不断更新。

pkusjh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Guided Meta-Policy Search读书笔记

文章目录IntroductionMethodIntroductionMAML的优化目标是min⁡θ∑τL(θ−α∇θL(θ,Dτtr),Dτval)\min_\theta \sum_{\tau} L(\theta -\alpha \nabla_\theta L(\theta, D_\tau^{tr}),D_\tau^{val})minθ∑τL(θ−α∇θL(θ,Dτtr),Dτval...
复制链接

扫一扫