[2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL

[2022]李宏毅深度学习与机器学习第十二讲(必修)-Reinforcement Learning RL

做笔记的目的

1、监督自己把50多个小时的视频看下去,所以每看一部分内容做一下笔记,我认为这是比较有意义的一件事情。
2、路漫漫其修远兮,学习是不断重复和积累的过程。怕自己看完视频不及时做笔记,学习效果不好,因此想着做笔记,提高学习效果。
3、因为刚刚入门深度学习,听课的过程中,理解难免有偏差,也希望各位大佬指正。

What is RL

当标注很困难的时候,或者我们也不知道什么是正确答案的时候(但是知道什么是好的什么是不好的),我们可以用RL。
在这里插入图片描述
RL虽然和普通的网络有很大的差别,但是也是找一个function、定义损失,优化。RL的架构大体如下图。actor做一步,然后环境给出reward同时给机器observation。
在这里插入图片描述
具体来说就是让分数总和最大。
在这里插入图片描述
在下围棋中就是赢一局reward+1,否则-1
在这里插入图片描述
步骤如下图:
在这里插入图片描述
第一步找到一个Function,相当于一个普通的分类器。RL大部分都是采取sample,这种随机性在游戏里面是比较重要的。
在这里插入图片描述
定义损失,也就是让reward最大。
在这里插入图片描述
进行优化找打最大的R,但是训练起来应该比较困难,因为这个network输出每次不一样、Env不是一个network是一个黑盒子同时也具有随机性、reward是一个规则也不是一个network,好像不能用普通的随机梯度下降来做。
在这里插入图片描述

Policy Gradient

在这里插入图片描述
有一点像监督学习,定义做有利则大于0,做没有好处就小于0,所以我们就需要Training Data来做模型的训练。那么如何产生Traing Data那,重点在于如何定于A。
在这里插入图片描述

Version 1

将未来的reward加起来衡量这一步的好坏,但是设计到一个问题,如果游戏很长,那么 r n r_n rn不一定依赖于 a 1 a_1 a1
在这里插入图片描述

Version 2

在前面乘以一个 γ < 1 \gamma<1 γ<1这样远距离就影响小了。但是这个可能应该也需要归一化的操作,不然有些太大有些太小。
在这里插入图片描述

Version 3

这里涉及到一个问题就是如何衡量b。
在这里插入图片描述
之后就可以去用梯度下降的方法去做了,主要是如何设计A。
在这里插入图片描述
每次更新一次之后资料就要重新收集,这样非常合理,所以RL非常的耗时。
在这里插入图片描述
我们也有一些方法可以收集一次资料更新好几次,技术是PPO。
在这里插入图片描述
整个过程需要随机性,不然一些action可能从来没有执行过,Exploration也是一个比较重要的步骤。
在这里插入图片描述

Actor-Critic

Critic评价actor的好坏,未卜先知,Value function 直接预测动作的奖励,但如如何训练出来那?
在这里插入图片描述
也是玩游戏,然后进行数据收集之后在训练。有MC和TD两种方法。MC的方法是上一部分Version 3 的计算公式。TD是计算公式更加巧妙如下面的第二个图。
在这里插入图片描述
在这里插入图片描述
虽然两个计算的有差异但是都是对的。
在这里插入图片描述

Version 3.5

在这里插入图片描述
为什么减掉V是合理的那?因为这样能衡量进行这一步所比随机走一步要好(坏)多少。
在这里插入图片描述

Version 4

可以看公式就是,进行当前这一步,比随机走一步要好多少,设计的非常合理。
在这里插入图片描述

Tip of actor-Critic

可以共用一些Network。
在这里插入图片描述

Reward Shaping

有很多任务,可能获得奖励需要很长时间,甚至获得不了奖励。这个时候我们可能就需要自己设计一些规则。
在这里插入图片描述
就像是下面的游戏,我们人为的自己设计一些规则。但是Reward Shaping要我们自己对游戏有理解
在这里插入图片描述
在这里插入图片描述
我是我们也需要考虑好奇心,遇到一些新的事物,这个新要有意思。
在这里插入图片描述

No Reward

reward设计的不合理,机器人可能有神逻辑,同时人定的reward可能并不是最好的。
在这里插入图片描述
找到一个expert的示范,来学习。
在这里插入图片描述
我们并不能把他看成监督学习来做,因为机器人可能遇不到特殊情况,同时有些行为可能不需要模仿,如果这样机器的能力可能是有限的。
在这里插入图片描述
本来不知道reward function,通过expert来反推,简单的reward 不一定会导致简单的actor。
在这里插入图片描述
IRL的步骤如下
在这里插入图片描述
这就很像GAN,IRL经常用来训练机械手臂。
在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值