InfoGAIL:Interpretable Imitation Learning from Visual Demonstration
Motivation
模仿学习将强化学习(RL)转换成一个监督学习 ( S L ) \mathbf{(SL)} (SL)问题。通常来说imitation learning学习一个策略来模仿专家策略( π E \pi_{E} πE)的行为。但是不同的专家由于一些隐藏的因素(习惯或者skill)不同导致各个专家的policy不一样。因此想学习一个策略
- 不仅能模仿专家的行为;
- 还能解释这些隐藏因素的变化;
Method
这里面的方法也很简单,有点类似InfoGAN框架。首先模仿学习采用的是Generative Adversarial Imitation Learning框架来学习模仿的策略。GAIL中的生成模型就是参数化的学习策略,用来模仿专家策略生成数据的分布;而判别模型是用来判别专家轨迹和模仿策略生成轨迹的差异,尽可能区分专家策略和模仿的策略。其次,为了自动地发现并disentangle不同专家策略的隐藏因子(latent factor)。同InfoGAN一样采用一种隐变量生成模型( π ( a ∣ s , c ) \pi(a|s,c) π(a∣s,c)),其中 c c c这个隐变量就表示这个不同专家之间的隐藏因子。
Formulation
GAIL:
min π max D ∈ ( 0 , 1 ) S × A E π [ log D ( s , a ) ] + E π E [ log ( 1 − D ( s , a ) ) ] − λ H ( π ) \min_{\pi}\max_{D\in(0,1)^{\mathcal{S}\times\mathcal{A}}}\mathbb{E}_\pi[\log D(s,a)]+\mathbb{E}_{\pi_E}[\log (1-D(s,a))]-\lambda H(\pi) πminD∈(0,1)S×AmaxEπ[logD(s,a)]+EπE[log(1−D(s,a))]−λH(π)这里面 π ( a ∣ s ) \pi(a|s) π(a∣s)是要学习的策略(Generative Model),而 D D D是分类器(Discriminative Model) ,判断 ( s , a ) (s,a) (s,a)是属于策略 π \pi π的( D ( s , a ) D(s,a) D(s,a)趋近于1),还是属于专家策略 π E \pi_E πE的( D ( s , a ) D(s,a) D(s,a)趋近于0)。最后一项熵是最大熵框架的约束。
InfoGAIL
引入隐变量 c c c代表隐藏因子,每一个具体的