Universal Planning Networks

简介

视觉控制任务的挑战之一是学习到visual environment和dynamic的合适表征,一般通过一些hand-designed特征或者unsupervised/self-supervised方式得到表征。本文直接end-to-end地优化表征:学习能够使得planning有效的特征。

方法

GDP

Gradient Descent Planner(GDP)是一种可微的规划方法:在一个可微的dynamic中求reward关于action的微分并用梯度法进行优化。具体来说, f ϕ f_\phi fϕ是state encoder, g θ g_\theta gθ是dynamic,GDP的优化目标是 ∥ x T − x g ∥ 2 2 \Vert x_T-x_g\Vert_2^2 xTxg22,其中 x T = f ϕ ( o T ) x_T=f_\phi(o_T) xT=fϕ(oT), x g = f ϕ ( o g ) x_g = f_\phi(o_g) xg=fϕ(og), o 0 = f ϕ ( o 0 ) o_0 = f_\phi(o_0) o0=fϕ(o0), x t + 1 = g θ ( x t , a t ) x_{t+1} = g_\theta(x_t, a_t) xt+1=gθ(xt,at)

Imitation Objective

本文的目标是对state representation和dynamic进行优化,使得GDP能够得到想要的结果。本文利用imitation objective来表示plan结果的好坏,即通过一些expert actions来指导state representation和dynamic的优化。Imitation objective为GDP得到的action序列和expert序列的距离:
L i m i t = ∥ a ^ t : t + T − a t : t + T ∗ ∥ 2 2 L_{imit} = \Vert \hat{a}_{t:t+T} - a^{*}_{t:t+T}\Vert_2^2 Limit=a^t:t+Tat:t+T22

RL with UPN Latent Space

本文还发现用上述学到的表征具有较好的通用性,可以作为reward signal用来训练其他RL算法,即用 ∥ x t − x g ∥ 2 2 \Vert x_t-x_g\Vert_2^2 xtxg22作为reward,采用model-free方法来训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值