Watch,Try, Learn: Meta-Learning from Demonstrations and Rewards读书笔记

最新推荐文章于 2024-09-05 20:45:51 发布

pkusjh

最新推荐文章于 2024-09-05 20:45:51 发布

阅读量404

点赞数

分类专栏： RL

本文链接：https://blog.csdn.net/weixin_45929818/article/details/103301130

版权

本文介绍了结合示范和交互的元学习方法，旨在解决模仿学习中小样本的问题。Watch-Try-Learn策略包括：首先，使用示范数据训练trial policy进行环境交互；然后，结合示范和交互数据学习retrial policy作为最终任务策略。在meta-training阶段，利用示范任务训练trial policy，再用其生成轨迹训练retrial policy；在meta-test阶段，先用示范数据得到初步策略，再通过交互改进策略。

摘要由CSDN通过智能技术生成

Introduction

Imitation learning需要的样本较多，Meta-imitation learning 是一种解决小样本问题的有效方法。但有时候仅靠demonstration不能提供完整的信息，还需要agent与环境进行一定的交互来消除某些不确定性。本文提出一种同时利用demonstration和interaction的meta-learning方法，帮助agent更快地adapt到新的并且更加广泛的任务上。

Watch-Try-Learn

对于一个新任务的一些demonstration，第一步首先需要得到一个trial policy, 用于与环境交互得到新的数据；第二步结合demonstration和交互数据学习一个retrial policy，作为解决新任务的policy。trial policy和tetrial policy分别记为 $\pi^T(a|s,\{d_{i,k}\})$ 和 $\pi^R(a|s,\{d_{i,k}\},\{\tau_{i,k}\})$
trial policy的训练方法为模仿demonstration（文章中说这是Thompson sampling的策略），采用meta-imitation learning的方法，即优化下面的目标函数：
$\ { d i , k } E ( s t , a t ) ∼ d i t e s t [ − l o g π θ T ( a t ∣ s t , { d i , k } ) ] L^T(\theta, D_i^*)=E_{\{d_{i,k}\}\sim D_i^*}E_{d_i^{test}\sim D_i^* \backslash \{d_{i,k} \}} E_{(s_t,a_t)\sim d_i^{test}}[-\mathop{log}\pi_\theta^T (a_t|s_t,\{d_{i,k}\})]$