pkusjh-CSDN博客

原创 Universal Planning Networks

简介视觉控制任务的挑战之一是学习到visual environment和dynamic的合适表征，一般通过一些hand-designed特征或者unsupervised/self-supervised方式得到表征。本文直接end-to-end地优化表征：学习能够使得planning有效的特征。方法GDPGradient Descent Planner（GDP）是一种可微的规划方法：在一个可...

2020-05-04 21:34:29 214

原创 TRAJECTORY VAE FOR MULTI-MODAL IMITATION读书笔记

本文为了解决imitation learning中的multi-modal问题，提出Trajectory-VAE(T-VAE)，学习一个trajectory的latent variable再进行解码，得到multi-modal的policy。首先将{st,at}\{s_t, a_t\}{st,at}的序列输入Bi-LSTM,再通过mean-pooling和Dense layer得到qψ(z∣...

2019-12-03 11:05:02 187

原创 Planning with Goal-Conditioned Policies读书笔记

本文主要解决高维问题（比如image state）里的goal-planning问题。用temporal difference models(TDMs)得到goal-conditioned value function，可以作为goal reachable的衡量。在planning的时候，目标是使sub-goal序列的reachable尽可能大，并且最后一个sub-goal是最终的goal即可。...

2019-11-30 20:48:15 449

原创 Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记

文章目录IntroductionWatch-Try-LearnIntroductionImitation learning需要的样本较多，Meta-imitation learning 是一种解决小样本问题的有效方法。但有时候仅靠demonstration不能提供完整的信息，还需要agent与环境进行一定的交互来消除某些不确定性。本文提出一种同时利用demonstration和interact...

2019-11-28 21:33:08 403

原创 Self-Consistent Trajectory Autoencoder读书笔记

文章目录IntroductionSeCTARIntroduction层次强化学习(Hierarchical reinforcement learning, HRL)需要学习low-level和high-level的policy。low-level policy的训练往往需要hand-specification或者subgoal information。本文提出一种基于VAE的轨迹自编码方法(S...

2019-11-28 17:13:05 345

原创 NoRML: No-Reward Meta Learning读书笔记

文章目录IntroductionIntroductionMAML在适应不同reward的任务上已经取得了一定的成功，但是对于其他的改变，例如dynamic change, sensor drifts或者reward missing的情况下，MAML效果不佳。本文为了解决这一问题，在学习meta-policy的同时，学习一个advantage function（Learned Advangate...

2019-11-27 19:25:46 363

原创 Guided Meta-Policy Search读书笔记

文章目录IntroductionMethodIntroductionMAML的优化目标是min⁡θ∑τL(θ−α∇θL(θ,Dτtr),Dτval)\min_\theta \sum_{\tau} L(\theta -\alpha \nabla_\theta L(\theta, D_\tau^{tr}),D_\tau^{val})minθ∑τL(θ−α∇θL(θ,Dτtr),Dτval...

2019-11-27 16:34:23 303

weixin_45929818的博客