- 博客(7)
- 收藏
- 关注
原创 Universal Planning Networks
简介视觉控制任务的挑战之一是学习到visual environment和dynamic的合适表征,一般通过一些hand-designed特征或者unsupervised/self-supervised方式得到表征。本文直接end-to-end地优化表征:学习能够使得planning有效的特征。方法GDPGradient Descent Planner(GDP)是一种可微的规划方法:在一个可...
2020-05-04 21:34:29 214
原创 TRAJECTORY VAE FOR MULTI-MODAL IMITATION读书笔记
本文为了解决imitation learning中的multi-modal问题,提出Trajectory-VAE(T-VAE),学习一个trajectory的latent variable再进行解码,得到multi-modal的policy。首先将{st,at}\{s_t, a_t\}{st,at}的序列输入Bi-LSTM,再通过mean-pooling和Dense layer得到qψ(z∣...
2019-12-03 11:05:02 187
原创 Planning with Goal-Conditioned Policies读书笔记
本文主要解决高维问题(比如image state)里的goal-planning问题。用temporal difference models(TDMs)得到goal-conditioned value function,可以作为goal reachable的衡量。在planning的时候,目标是使sub-goal序列的reachable尽可能大,并且最后一个sub-goal是最终的goal即可。...
2019-11-30 20:48:15 449
原创 Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记
文章目录IntroductionWatch-Try-LearnIntroductionImitation learning需要的样本较多,Meta-imitation learning 是一种解决小样本问题的有效方法。但有时候仅靠demonstration不能提供完整的信息,还需要agent与环境进行一定的交互来消除某些不确定性。本文提出一种同时利用demonstration和interact...
2019-11-28 21:33:08 403
原创 Self-Consistent Trajectory Autoencoder读书笔记
文章目录IntroductionSeCTARIntroduction层次强化学习(Hierarchical reinforcement learning, HRL)需要学习low-level和high-level的policy。low-level policy的训练往往需要hand-specification或者subgoal information。本文提出一种基于VAE的轨迹自编码方法(S...
2019-11-28 17:13:05 345
原创 NoRML: No-Reward Meta Learning读书笔记
文章目录IntroductionIntroductionMAML在适应不同reward的任务上已经取得了一定的成功,但是对于其他的改变,例如dynamic change, sensor drifts或者reward missing的情况下,MAML效果不佳。本文为了解决这一问题,在学习meta-policy的同时,学习一个advantage function(Learned Advangate...
2019-11-27 19:25:46 363
原创 Guided Meta-Policy Search读书笔记
文章目录IntroductionMethodIntroductionMAML的优化目标是minθ∑τL(θ−α∇θL(θ,Dτtr),Dτval)\min_\theta \sum_{\tau} L(\theta -\alpha \nabla_\theta L(\theta, D_\tau^{tr}),D_\tau^{val})minθ∑τL(θ−α∇θL(θ,Dτtr),Dτval...
2019-11-27 16:34:23 303
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人