[2022]李宏毅深度学习与机器学习第五讲(必修)-Transformer

[2022]李宏毅深度学习与机器学习第五讲(必修)-Transformer

做笔记的目的

1、监督自己把50多个小时的视频看下去,所以每看一部分内容做一下笔记,我认为这是比较有意义的一件事情。
2、路漫漫其修远兮,学习是不断重复和积累的过程。怕自己看完视频不及时做笔记,学习效果不好,因此想着做笔记,提高学习效果。
3、因为刚刚入门深度学习,听课的过程中,理解难免有偏差,也希望各位大佬指正。

Transformer

Sequence-to-Sequence模型可以解决非常多的问题,并且很多自然语言处理问题都可以堪称QA模型。
在这里插入图片描述
Multi-label Classification问题也是可以用Sequence-to-Sequence模型来解决。
在这里插入图片描述

Encodr

在这里插入图片描述
Encoder可以在放大成下图
在这里插入图片描述
在下图中运用了残差连接
在这里插入图片描述
在这里插入图片描述
当然这个Encoder得模型不一定是最好的,也有人对其进行了改进,如下图中的b,就取得了不错的效果。
在这里插入图片描述

Decoder

在这里插入图片描述
在做Decoder得时候要先输入一个Begin同时也要定义end来决定什么时候Decoder结束,在Decoder里面涉及到了 Masked Self-attention,做法如下图:
在这里插入图片描述
在这里插入图片描述
其实当你计算 a 2 a^2 a2的时候并没有 a 3 a^3 a3 a 4 a^4 a4,所以只能考虑左边的东西。
Autoregressive和not Autoregressive
在这里插入图片描述
虽然在NAT里面我们不知道什么时候End,但是有方法可以克服这一点:

  1. learn一个模型来告诉我们有多长
  2. 假设输出很长,只考虑End之前的
    NAT的优点:
  3. Decoder比较能控制输出的长度
  4. 平行计算所以比较快
    但是NAT的结果并不是很好,所以有待进一步研究。
    从Encoder到Decoder,有两个输出来自Encoder,cross attention。在论文里面是最后一个Eecoder输入到Decoder,但是也不一定非要这么做,有很多种做法如下图,结果是好是坏就不知道了,可能不同任务不一样把。
    在这里插入图片描述
    在这里插入图片描述
    Decoder损失函数是交叉熵,类似于分类,同时可以看到在训练的时候,会给他正确答案,这个技术是Teacher Forcing。
    在这里插入图片描述

训练的技巧

在做很多任务的时候,输出是从输入里抄的,比如聊天机器人、自动摘要,所以复制的能力是有必要的,这里可以用pointer network来实现。
在这里插入图片描述

Guided Attention

在这里插入图片描述
guided attention在语音合成和语音辨识比较重要,让attention从左到右,可以避免一些错误。

Beam Search

在这里插入图片描述
Greedy Decoding并不一定是最好的结果,同时最好的路也不一定符合人的尝试。beam search可以找到green这条路,但是green这条路不一定很好,所以Beam search有的时候有用有的时候不行。所以需要看任务本身的特性,对于确定的任务beam search可能有用比如语言识别。但是在需要创造的任务的时,beam search比较不行,比如自动写诗、自动补全文章等等,需要随机性。对于TTS任务也是Beam search并不管用。

Scheduled Sampling

给输入一些错误的输出,但是这一个技巧可能会影响Transform平行化,但是也有方法解决:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值