自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Universal Planning Networks

简介视觉控制任务的挑战之一是学习到visual environment和dynamic的合适表征,一般通过一些hand-designed特征或者unsupervised/self-supervised方式得到表征。本文直接end-to-end地优化表征:学习能够使得planning有效的特征。方法GDPGradient Descent Planner(GDP)是一种可微的规划方法:在一个可...

2020-05-04 21:34:29 214

原创 TRAJECTORY VAE FOR MULTI-MODAL IMITATION读书笔记

本文为了解决imitation learning中的multi-modal问题,提出Trajectory-VAE(T-VAE),学习一个trajectory的latent variable再进行解码,得到multi-modal的policy。首先将{st,at}\{s_t, a_t\}{st​,at​}的序列输入Bi-LSTM,再通过mean-pooling和Dense layer得到qψ(z∣...

2019-12-03 11:05:02 187

原创 Planning with Goal-Conditioned Policies读书笔记

本文主要解决高维问题(比如image state)里的goal-planning问题。用temporal difference models(TDMs)得到goal-conditioned value function,可以作为goal reachable的衡量。在planning的时候,目标是使sub-goal序列的reachable尽可能大,并且最后一个sub-goal是最终的goal即可。...

2019-11-30 20:48:15 449

原创 Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记

文章目录IntroductionWatch-Try-LearnIntroductionImitation learning需要的样本较多,Meta-imitation learning 是一种解决小样本问题的有效方法。但有时候仅靠demonstration不能提供完整的信息,还需要agent与环境进行一定的交互来消除某些不确定性。本文提出一种同时利用demonstration和interact...

2019-11-28 21:33:08 403

原创 Self-Consistent Trajectory Autoencoder读书笔记

文章目录IntroductionSeCTARIntroduction层次强化学习(Hierarchical reinforcement learning, HRL)需要学习low-level和high-level的policy。low-level policy的训练往往需要hand-specification或者subgoal information。本文提出一种基于VAE的轨迹自编码方法(S...

2019-11-28 17:13:05 345

原创 NoRML: No-Reward Meta Learning读书笔记

文章目录IntroductionIntroductionMAML在适应不同reward的任务上已经取得了一定的成功,但是对于其他的改变,例如dynamic change, sensor drifts或者reward missing的情况下,MAML效果不佳。本文为了解决这一问题,在学习meta-policy的同时,学习一个advantage function(Learned Advangate...

2019-11-27 19:25:46 363

原创 Guided Meta-Policy Search读书笔记

文章目录IntroductionMethodIntroductionMAML的优化目标是min⁡θ∑τL(θ−α∇θL(θ,Dτtr),Dτval)\min_\theta \sum_{\tau} L(\theta -\alpha \nabla_\theta L(\theta, D_\tau^{tr}),D_\tau^{val})minθ​∑τ​L(θ−α∇θ​L(θ,Dτtr​),Dτval...

2019-11-27 16:34:23 303

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除