论文笔记--InfoGAIL

最新推荐文章于 2024-06-03 09:56:44 发布

zz_ytj

最新推荐文章于 2024-06-03 09:56:44 发布

阅读量1.5k

点赞数 3

分类专栏： imitation learning

本文链接：https://blog.csdn.net/zz_ytj/article/details/104391333

版权

本文详细介绍了InfoGAIL，一种结合了InfoGAN思想的模仿学习框架。InfoGAIL旨在不仅模仿专家策略，还通过隐变量c揭示不同专家策略间的隐藏因素。通过最大化c与生成样本的互信息，实现对专家演示的自动分类和策略聚类，以克服模仿学习的局限性。此外，文中还讨论了奖励增强和优化改进，以提升InfoGAIL在高维任务上的性能。

摘要由CSDN通过智能技术生成

InfoGAIL：Interpretable Imitation Learning from Visual Demonstration

Motivation
Method
Formulation
- GAIL:
- InfoGAIL
总结

Motivation

模仿学习将强化学习（RL）转换成一个监督学习 $\mathbf{(SL)}$ 问题。通常来说imitation learning学习一个策略来模仿专家策略（ $\pi_{E}$ ）的行为。但是不同的专家由于一些隐藏的因素（习惯或者skill）不同导致各个专家的policy不一样。因此想学习一个策略

不仅能模仿专家的行为；
还能解释这些隐藏因素的变化；

Method

这里面的方法也很简单，有点类似InfoGAN框架。首先模仿学习采用的是Generative Adversarial Imitation Learning框架来学习模仿的策略。GAIL中的生成模型就是参数化的学习策略，用来模仿专家策略生成数据的分布；而判别模型是用来判别专家轨迹和模仿策略生成轨迹的差异，尽可能区分专家策略和模仿的策略。其次，为了自动地发现并disentangle不同专家策略的隐藏因子（latent factor）。同InfoGAN一样采用一种隐变量生成模型（ $\pi(a|s,c)$ ）,其中 $c$ 这个隐变量就表示这个不同专家之间的隐藏因子。

Formulation

GAIL:

$\min_{\pi}\max_{D\in(0,1)^{\mathcal{S}\times\mathcal{A}}}\mathbb{E}_\pi[\log D(s,a)]+\mathbb{E}_{\pi_E}[\log (1-D(s,a))]-\lambda H(\pi)$ 这里面 $\pi(a|s)$ 是要学习的策略（Generative Model），而 $D$ 是分类器（Discriminative Model），判断 $(s, a)$ 是属于策略 $\pi$ 的（ $D (s, a)$ 趋近于1），还是属于专家策略 $\pi_E$ 的（ $D (s, a)$ 趋近于0）。最后一项熵是最大熵框架的约束。