强化学习(五)

最新推荐文章于 2023-04-06 10:54:52 发布

我身后没尾巴

最新推荐文章于 2023-04-06 10:54:52 发布

阅读量816

点赞数

分类专栏：菜鸟学习之路文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_45411464/article/details/109522802

版权

菜鸟学习之路专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Keys

1. reward shaping： 在我们的agent与environment进行交互时，我们人为的设计一些reward，从而“指挥”agent，告诉其采取哪一个action是最优的，而这个reward并不是environment对应的reward，这样可以提高我们estimate Q-function时的准确性。
2. ICM（intrinsic curiosity module）： 其代表着curiosity driven这个技术中的增加新的reward function以后的reward function。
3. curriculum learning： 一种广义的用在RL的训练agent的方法，其在input训练数据的时候，采取由易到难的顺序进行input，也就是认为设计它的学习过程，这个方法在ML和DL中都会普遍使用。
4. reverse curriculum learning： 相较于上面的curriculum learning，其为更general的方法。其从最终最理想的state（我们称之为gold state）开始，依次去寻找距离gold state最近的state作为想让agent达到的阶段性的“理想”的state，当然我们应该在此过程中有意的去掉一些极端的case（太简单、太难的case）。综上，reversecurriculum learning 是从 gold state 去反推，就是说你原来的目标是长这个样子，我们从我们的目标去反推，所以这个叫做 reverse curriculum learning。
5. hierarchical （分层） reinforcement learning： 将一个大型的task，横向或者纵向的拆解成多个 agent去执行。其中，有一些agent 负责比较high level 的东西，负责订目标，然后它订完目标以后，再分配给其他的 agent把它执行完成。（看教程的 hierarchical reinforcement learning部分的示例就会比较明了）
6. Imitation learning： 其讨论我们没有reward或者无法定义reward但是有与environment进行交互时怎么进行agent的学习。这与我们平时处理的问题中的情况有些类
似，因为通常我们无法从环境中得到明确的reward。Imitation learning 又被称为 learning from demonstration (示范学习) ，apprenticeship learning (学徒学习)，learningby watching (观察学习)等。
7. Behavior Cloning： 类似于ML中的监督学习，通过收集expert的state与action的对应信息，训练我们的network（actor）。在使用时input state时，得到对应的outpuraction。
8. Dataset Aggregation： 用来应对在Behavior Cloning中expert提供不到的data，其希望收集expert在各种极端state下expert的action。
9. Inverse Reinforcement learning（IRL）： Inverse Reinforcement Learning 是先找出 reward function，再去用 Reinforcement Learning 找出 optimal actor。这么做是因为我们没有环境中reward，但是我们有expert 的demonstration，使用IRL，我们可以推断expert 是因为什么样的 reward function 才会采取这些action。有了rewardfunction 以后，接下来，就可以套用一般的 reinforcement learning 的方法去找出 optimal actor。
10. Third Person Imitation Learning： 一种把第三人称视角所观察到的经验 generalize 到第一人称视角的经验的技术。

QUESTION

Inverse Reinforcement Learning 方法与GAN在图像生成中有什么异曲同工之处?
答：在GAN 中，我们有一些比较好的图片数据集，也有一个generator，一开始他根本不知道要产生什么样的图，只能随机生成。另外我们有一个discriminator，其用来给生成的图打分，expert 生成的图得分高，generator 生成的图得分低。有了discriminator 以后，generator 会想办法去骗过 discriminator。Generator 会希望discriminator 也会给它生成得图高分。整个 process 跟 IRL 的过程是类似的。我们一一对应起来看：
a. 生成的图就是 expert 的 demonstration，generator 就是actor，generator 会生成很多的图并让actor 与环境进行互动，从而产生很多 trajectory。这些 trajectory 跟环境互动的记录等价于 GAN 里面的生成图。
b. 在IRL中 learn 的 reward function 就是 discriminator。Rewards function 要给 expert 的 demonstration 高分，给 actor 互动的结果低分。
c. 考虑两者的过程，在IRL中，actor 会想办法，从这个已经 learn 出来的 reward function 里面得到高分，然后 iterative 地去循环这其实是与 GAN 的过程是一致
的.