2020李宏毅学习笔记——72 RL Advanced Version8.Imitation Learning

为什么要模仿学习 Imitation Learning
(也称为 learning by demonstration, apprenticeship learning)
在某些情况下:

机器也可以和环境进行互动,但是不能明显的得到reward
在某些任务中很难定义reward
人为涉及的奖励可能会得到不受控制的行为
因此需要 imitation learning: 让一个专家来示范应该如何解决问题,而机器则试着去模仿专家

行为克隆
这个方法可以看做是一个监督学习,在这个方法中,actor需要学习在某些特定的state下尽可能像专家一样行动

然而,专家只能进行有限的采样,因此需要引入Dataset Aggregation(让专家处于机器所处的state中)

Dataset Aggregation:
通过行为克隆得到一个 actor π1
使用 π1 和环境进行互动
让专家对观察对象作标签 π1
使用新的数据来训练 π2
缺点:
agent可能会复制专家所有的动作,包括一些无关的动作。如果机器只有有限的学习能力,可能会导致它复制到错误的行为。
有些行为必须被复制,但有些可以被忽略,但监督学习对所有的误差都平等处理。
在监督学习中,我们希望训练数据和测试数据有相同的分布,但是在行为克隆中,训练数据来自于专家的分布,而测试数据来自于actor,因为专家的 π 和actor的是不一样的,生成的state也是不一样的,分布可能会不相同,因此引入 IRL
Inverse Reinforcement Learning (IRL)在这里插入图片描述
在前面介绍过的RL中:环境和reward是用来生成一个actor的,但是在IRL中,没有reward function,而是用一个专家来和环境做互动并学到一个reward function,然后这个reward function才会被用来训练actor。

生成的reward可能会很简单,但也可能会导致复杂的policy
在这里插入图片描述
专家和actor都会生成对应的 trajectory.
生成的reward function需要满足专家的累积reward总是比actor的大
使用reward function来训练一个新的actor替换原来旧的actor
重复上述步骤.
这里的模型和GAN十分相似,actor就是generator,reward function就是discriminator。
(假设:专家永远是最棒的)
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
李宏毅2020机器学习笔记中,有一个关于注意力机制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力机制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"机器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记:Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值