文章目录
Introduction
MAML的优化目标是
min
θ
∑
τ
L
(
θ
−
α
∇
θ
L
(
θ
,
D
τ
t
r
)
,
D
τ
v
a
l
)
\min_\theta \sum_{\tau} L(\theta -\alpha \nabla_\theta L(\theta, D_\tau^{tr}),D_\tau^{val})
minθ∑τL(θ−α∇θL(θ,Dτtr),Dτval)
将MAML应用到强化学习上,那么损失函数应当为负期望累计奖励
L
R
L
(
θ
,
D
τ
)
=
−
1
∣
D
τ
∣
∑
s
t
,
a
t
∈
D
τ
r
(
s
t
,
a
t
)
L_{RL}(\theta, D_\tau)=-\frac{1}{\vert D_\tau\vert}\sum_{s_t,a_t\in D_\tau} r(s_t, a_t)
LRL(θ,Dτ)=−∣Dτ∣1∑st,at∈Dτr(st,at)
内层优化(优化每个task的
θ
i
\theta_i
θi)可以使用Policy Gradient来估计梯度,而外层优化(优化全局的
θ
\theta
θ)如果仍采用Policy Gradient,那么就需要对内层优化后的policy进行采样,再估计梯度,这样的话会导致优化非常不稳定。本文提出,外层优化可以改为另外一种更稳定的方法进行,从而提高meta leanring的效果。
Method
本文将meta learning分为两个阶段:第一阶段单独解决每个task,第二阶段用这些policy进行meta-learning。
假设第一阶段已经得到每个task上的接近optimal的policy {
π
i
∗
\pi_i^*
πi∗}。Meta-learning的目标是找到一组参数
θ
\theta
θ,使得policy以这组参数初始化能够很快adapt到新的task上。Adapt的过程仍采用policy gradient的方法,但是meta-objective改为supervised imitation(也叫behavior cloning)
L
B
C
(
θ
i
,
D
i
)
=
−
∑
(
s
t
,
a
t
)
∈
D
i
l
o
g
π
θ
i
(
a
t
∣
s
t
)
L_{BC}(\theta_i, D_i)=-\sum_{(s_t,a_t)\in D_i} log \pi_{\theta_i}(a_t|s_t)
LBC(θi,Di)=−∑(st,at)∈Dilogπθi(at∣st)
其中
D
i
D_i
Di是被模仿的行为,在这里采用{
π
i
∗
\pi_i^*
πi∗}的行为。因此,meta-objective成为下面的表达式
min
θ
∑
τ
i
∑
D
i
v
a
l
∼
D
i
∗
E
D
i
t
r
∼
π
θ
[
L
B
C
(
θ
−
α
∇
L
R
L
(
θ
,
D
i
t
r
)
,
D
i
v
a
l
)
]
\min_\theta \sum_{\tau_i} \sum_{D_i^{val} \sim D_i^*}E_{D_i^{tr}\sim \pi_\theta}[L_{BC}(\theta - \alpha \nabla L_{RL}(\theta, D_i^{tr}), D_i^{val})]
minθ∑τi∑Dival∼Di∗EDitr∼πθ[LBC(θ−α∇LRL(θ,Ditr),Dival)]
简单来说,这个meta-objective就是每次adapt后的policy能够很好的模仿这个task上的专家policy
π
i
∗
\pi_i^*
πi∗, 而以前的meta-objective是adapt后的policy的reward尽可能大。
注意到当专家policy是available的时候,behavior cloning还可以采用类似DAgger的方式进行训练,即
D
∗
D^*
D∗根据训练过程中得到的state不断更新。