Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记

本文介绍了结合示范和交互的元学习方法,旨在解决模仿学习中小样本的问题。Watch-Try-Learn策略包括:首先,使用示范数据训练trial policy进行环境交互;然后,结合示范和交互数据学习retrial policy作为最终任务策略。在meta-training阶段,利用示范任务训练trial policy,再用其生成轨迹训练retrial policy;在meta-test阶段,先用示范数据得到初步策略,再通过交互改进策略。
摘要由CSDN通过智能技术生成

Introduction

Imitation learning需要的样本较多,Meta-imitation learning 是一种解决小样本问题的有效方法。但有时候仅靠demonstration不能提供完整的信息,还需要agent与环境进行一定的交互来消除某些不确定性。本文提出一种同时利用demonstration和interaction的meta-learning方法,帮助agent更快地adapt到新的并且更加广泛的任务上。

Watch-Try-Learn

对于一个新任务的一些demonstration,第一步首先需要得到一个trial policy, 用于与环境交互得到新的数据;第二步结合demonstration和交互数据学习一个retrial policy,作为解决新任务的policy。trial policy和tetrial policy分别记为 π T ( a ∣ s , { d i , k } ) \pi^T(a|s,\{d_{i,k}\}) πT(as,{ di,k}) π R ( a ∣ s , { d i , k } , { τ i , k } ) \pi^R(a|s,\{d_{i,k}\},\{\tau_{i,k}\}) πR(as,{ di,k},{ τi,k})
trial policy的训练方法为模仿demonstration(文章中说这是Thompson sampling的策略),采用meta-imitation learning的方法,即优化下面的目标函数:
L T ( θ , D i ∗ ) = E { d i , k } ∼ D i ∗ E d i t e s t ∼ D i ∗ \ { d i , k } E ( s t , a t ) ∼ d i t e s t [ − l o g π θ T ( a t ∣ s t , { d i , k } ) ] L^T(\theta, D_i^*)=E_{\{d_{i,k}\}\sim D_i^*}E_{d_i^{test}\sim D_i^* \backslash \{d_{i,k} \}} E_{(s_t,a_t)\sim d_i^{test}}[-\mathop{log}\pi_\theta^T (a_t|s_t,\{d_{i,k}\})] LT(θ,D

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值