简介
视觉控制任务的挑战之一是学习到visual environment和dynamic的合适表征,一般通过一些hand-designed特征或者unsupervised/self-supervised方式得到表征。本文直接end-to-end地优化表征:学习能够使得planning有效的特征。
方法
GDP
Gradient Descent Planner(GDP)是一种可微的规划方法:在一个可微的dynamic中求reward关于action的微分并用梯度法进行优化。具体来说, f ϕ f_\phi fϕ是state encoder, g θ g_\theta gθ是dynamic,GDP的优化目标是 ∥ x T − x g ∥ 2 2 \Vert x_T-x_g\Vert_2^2 ∥xT−xg∥22,其中 x T = f ϕ ( o T ) x_T=f_\phi(o_T) xT=fϕ(oT), x g = f ϕ ( o g ) x_g = f_\phi(o_g) xg=fϕ(og), o 0 = f ϕ ( o 0 ) o_0 = f_\phi(o_0) o0=fϕ(o0), x t + 1 = g θ ( x t , a t ) x_{t+1} = g_\theta(x_t, a_t) xt+1=gθ(xt,at)
Imitation Objective
本文的目标是对state representation和dynamic进行优化,使得GDP能够得到想要的结果。本文利用imitation objective来表示plan结果的好坏,即通过一些expert actions来指导state representation和dynamic的优化。Imitation objective为GDP得到的action序列和expert序列的距离:
L
i
m
i
t
=
∥
a
^
t
:
t
+
T
−
a
t
:
t
+
T
∗
∥
2
2
L_{imit} = \Vert \hat{a}_{t:t+T} - a^{*}_{t:t+T}\Vert_2^2
Limit=∥a^t:t+T−at:t+T∗∥22
RL with UPN Latent Space
本文还发现用上述学到的表征具有较好的通用性,可以作为reward signal用来训练其他RL算法,即用 ∥ x t − x g ∥ 2 2 \Vert x_t-x_g\Vert_2^2 ∥xt−xg∥22作为reward,采用model-free方法来训练。