Introduction
Imitation learning需要的样本较多,Meta-imitation learning 是一种解决小样本问题的有效方法。但有时候仅靠demonstration不能提供完整的信息,还需要agent与环境进行一定的交互来消除某些不确定性。本文提出一种同时利用demonstration和interaction的meta-learning方法,帮助agent更快地adapt到新的并且更加广泛的任务上。
Watch-Try-Learn
对于一个新任务的一些demonstration,第一步首先需要得到一个trial policy, 用于与环境交互得到新的数据;第二步结合demonstration和交互数据学习一个retrial policy,作为解决新任务的policy。trial policy和tetrial policy分别记为 π T ( a ∣ s , { d i , k } ) \pi^T(a|s,\{d_{i,k}\}) πT(a∣s,{
di,k})和 π R ( a ∣ s , { d i , k } , { τ i , k } ) \pi^R(a|s,\{d_{i,k}\},\{\tau_{i,k}\}) πR(a∣s,{
di,k},{
τi,k})
trial policy的训练方法为模仿demonstration(文章中说这是Thompson sampling的策略),采用meta-imitation learning的方法,即优化下面的目标函数:
L T ( θ , D i ∗ ) = E { d i , k } ∼ D i ∗ E d i t e s t ∼ D i ∗ \ { d i , k } E ( s t , a t ) ∼ d i t e s t [ − l o g π θ T ( a t ∣ s t , { d i , k } ) ] L^T(\theta, D_i^*)=E_{\{d_{i,k}\}\sim D_i^*}E_{d_i^{test}\sim D_i^* \backslash \{d_{i,k} \}} E_{(s_t,a_t)\sim d_i^{test}}[-\mathop{log}\pi_\theta^T (a_t|s_t,\{d_{i,k}\})] LT(θ,D