模仿学习(行为克隆，逆强化学习，生成式对抗模仿学习）

笑傲江湖2023

已于 2023-08-10 11:43:10 修改

阅读量3.2k

点赞数 3

分类专栏：强化学习文章标签：人工智能

于 2023-08-10 11:42:02 首次发布

本文链接：https://blog.csdn.net/weixin_48878618/article/details/132193808

版权

强化学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了模仿学习中的强化学习、逆强化学习以及生成对抗模仿学习，强调了逆强化学习通过专家经验学习奖励函数的重要性，同时详细解释了GAN在生成对抗模仿学习中的角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.模仿学习

定义：当我们想训练机器人时，通过复制人类的动作，对机器人进行训练，进而达到模仿的目的

行为克隆：不需要奖励函数，直接学习策略。

逆强化学习：需要专家经验得到奖励函数，再根据奖励函数重新学习策略。

生成式对抗模仿学习：可以理解为，逆强化学习的专家经验依赖于真人提供，生成式对抗模仿学习利用GAN用网络去替代真人提供的专家经验，去学习奖励函数，同时得到策略。

逆强化学习和生成式对抗模仿学习区别：简单理解逆强化学习就是你亲自拿着机器人的手，手把手教着机器人去做事，同时你还要观察这个过程。生成式对抗模仿学习是你又找了一个人，帮你拿着机器人的手，手把手教着机器人去做事，而你只需要观察这个过程就行了。

1.1先说强化学习

强化学习关键就是通过设计奖励函数，找到一个动作序列下的最优策略函数，但通常在求解过程中的奖励函数是人为指定的，这无法保证设计的是最合适的奖励函数，而在很多复杂任务中，奖励函数是很难定下来的。所以有了逆强化学习。

1.2再说逆强化学习

强化学习中最难的问题就是如何设计奖励函数，所以用逆强化学习来解决这个问题，思路如下，假设我们想进行一个机器人采摘红薯的训练，我们找了农业专家，将他们认为好的动作，做成指令集对机器人进行轨迹规划，这就是专家经验，我们假设专家经验建立在最优的奖励函数基础上，然后让机器人运动，在次此基础上，学习该策略下的奖励函数，最后再用该奖励函数重新训练机器人，得到新的策略

进一步根据下图理解，逆强化学习中，给定了状态s，动作a，状态转移概率函数p，按照固定的策略 $\pi$ （专家经验），采样得到动作轨迹，再根据这个动作轨迹，学习奖励函数r，最后再根据得到的奖励函数，重新学习策略 $\pi$ 。

1.3最后说生成对抗模仿学习

1.3.1先说GAN

GAN的全称是Generative adversarial network，中文翻译过来就是生成对抗网络。生成对抗网络其实是两个网络的组合：生成网络（Generator）负责生成模拟数据；判别网络Discriminator）负责判断输入的数据是真实的还是生成的。生成网络要不断优化自己生成的数据让判别网络判断不出来，判别网络也要优化自己让自己判断得更准确。二者关系形成对抗，因此叫对抗网络。

1.3.2再说生成对抗模仿学习

在逆强化学习（IRL）领域有名的算法是生成对抗模仿学习（GAIL），这种算法模仿了生成对抗网络GAN。我们要训练一个策略网络去尽量拟合提供的示教数据，那么我们可以让需要训练的奖励函数来进行评价，奖励函数通过输出评分来分辨哪个是示教数据的轨迹，哪个是自己生成的虚假轨迹；而策略网络(生成网络)负责生成虚假的轨迹，尽可能骗过奖励函数（判别网络），让其难辨真假。两者是对抗关系，双方的损失函数是对立的，两者在相互对抗中一起成长，最后训练出一个较好的奖励函数和一个较好的策略网络。