Universal Planning Networks-CSDN博客

本文链接：https://blog.csdn.net/weixin_45929818/article/details/105923588

简介

视觉控制任务的挑战之一是学习到visual environment和dynamic的合适表征，一般通过一些hand-designed特征或者unsupervised/self-supervised方式得到表征。本文直接end-to-end地优化表征：学习能够使得planning有效的特征。

方法

GDP

Gradient Descent Planner（GDP）是一种可微的规划方法：在一个可微的dynamic中求reward关于action的微分并用梯度法进行优化。具体来说， $f_\phi$ 是state encoder， $g_\theta$ 是dynamic，GDP的优化目标是 $\Vert x_T-x_g\Vert_2^2$ ,其中 $x_T=f_\phi(o_T)$ , $x_g = f_\phi(o_g)$ , $o_0 = f_\phi(o_0)$ , $x_{t+1} = g_\theta(x_t, a_t)$

Imitation Objective

本文的目标是对state representation和dynamic进行优化，使得GDP能够得到想要的结果。本文利用imitation objective来表示plan结果的好坏，即通过一些expert actions来指导state representation和dynamic的优化。Imitation objective为GDP得到的action序列和expert序列的距离：
$L_{imit} = \Vert \hat{a}_{t:t+T} - a^{*}_{t:t+T}\Vert_2^2$