论文笔记--InfoGAIL

本文详细介绍了InfoGAIL,一种结合了InfoGAN思想的模仿学习框架。InfoGAIL旨在不仅模仿专家策略,还通过隐变量c揭示不同专家策略间的隐藏因素。通过最大化c与生成样本的互信息,实现对专家演示的自动分类和策略聚类,以克服模仿学习的局限性。此外,文中还讨论了奖励增强和优化改进,以提升InfoGAIL在高维任务上的性能。
摘要由CSDN通过智能技术生成

InfoGAIL:Interpretable Imitation Learning from Visual Demonstration

Motivation

模仿学习将强化学习(RL)转换成一个监督学习 ( S L ) \mathbf{(SL)} (SL)问题。通常来说imitation learning学习一个策略来模仿专家策略( π E \pi_{E} πE)的行为。但是不同的专家由于一些隐藏的因素(习惯或者skill)不同导致各个专家的policy不一样。因此想学习一个策略

  1. 不仅能模仿专家的行为;
  2. 还能解释这些隐藏因素的变化;

Method

这里面的方法也很简单,有点类似InfoGAN框架。首先模仿学习采用的是Generative Adversarial Imitation Learning框架来学习模仿的策略。GAIL中的生成模型就是参数化的学习策略,用来模仿专家策略生成数据的分布;而判别模型是用来判别专家轨迹和模仿策略生成轨迹的差异,尽可能区分专家策略和模仿的策略。其次,为了自动地发现并disentangle不同专家策略的隐藏因子(latent factor)。同InfoGAN一样采用一种隐变量生成模型( π ( a ∣ s , c ) \pi(a|s,c) π(as,c)),其中 c c c这个隐变量就表示这个不同专家之间的隐藏因子。

Formulation

GAIL:

min ⁡ π max ⁡ D ∈ ( 0 , 1 ) S × A E π [ log ⁡ D ( s , a ) ] + E π E [ log ⁡ ( 1 − D ( s , a ) ) ] − λ H ( π ) \min_{\pi}\max_{D\in(0,1)^{\mathcal{S}\times\mathcal{A}}}\mathbb{E}_\pi[\log D(s,a)]+\mathbb{E}_{\pi_E}[\log (1-D(s,a))]-\lambda H(\pi) πminD(0,1)S×AmaxEπ[logD(s,a)]+EπE[log(1D(s,a))]λH(π)这里面 π ( a ∣ s ) \pi(a|s) π(as)是要学习的策略(Generative Model),而 D D D是分类器(Discriminative Model) ,判断 ( s , a ) (s,a) (s,a)是属于策略 π \pi π的( D ( s , a ) D(s,a) D(s,a)趋近于1),还是属于专家策略 π E \pi_E πE的( D ( s , a ) D(s,a) D(s,a)趋近于0)。最后一项熵是最大熵框架的约束。

InfoGAIL

引入隐变量 c c c代表隐藏因子,每一个具体的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值