机器学习李宏毅学习笔记13


前言

transformer下(decoder)


一、Decoder

在这里插入图片描述
以语音辨识为例
Decoder先读进encoder的输出,先给decoder一个符号表示开始,这个开始符号也是用one-hot vector表示。之后decoder会输出一个向量,这个向量的长度结果可能输出的所有可能,比如中文语音辨识,这个向量的长度就是所有可能出现的所有汉字。输出这个向量之前会经过一个softmax,可能性相加=1,这些可能性最高的就是这个向量的输出。
在这里插入图片描述
之后decoder会拿“机”作为输入,并在输出中选择数值最高的。
在这里插入图片描述
不断重复,decoder会把之前的输出当做接下来的输入。
在这里插入图片描述
Decoder中有一步masked self-attention。他和普通的self-attention的区别在于,self-attention会考虑所有a1-a4输出b1,而masked只会考虑左边的,b1考虑a1,b2考虑a1、a2,以此类推。
在这里插入图片描述
为什么只考虑前面的呢,因为decoder的输出是一个一个输出的,encoder是同时输出的,对于decoder而言,先有a1,才有a2,才有a3和a4,当计算b2的时候,是没有a3和a4的,所以没有办法把a3和a4放进来。
输出的序列长度是多少呢,也就是什么时候结束,这是希望机器学会的,所以要准备一个结束符号,表示停止。
在这里插入图片描述
在这里插入图片描述
最后一个产生的向量里面结束的概率必须要是最大。
在这里插入图片描述
Decoder和encoder的差别主要在cross attention,cross attention的输入有两个来自encoder的输出。
在这里插入图片描述
Begin经过self-attention(Mask)得到一个向量,这个向量乘一个矩阵得到q,q和k1 k2 k3计算attention的分数,再和v1 v2 v3加权,将他们加起来得到v。

训练
在这里插入图片描述
在训练的时候,decoder的输入每次都是正确的,期待decoder的输出和正确的cross entropy的和越小越好,同时也包括end的cross entropy。

一个问题是,在训练的时候decoder看到的永远是正确的,但是预测的时候,decoder可能会看到错误的,可能会一步错步步错。这个现象叫做exposure bias。一个可能的方法是,训练的时候给decoder加入一些错误的信息,这样可能处理的效果更好。

二、AT v.s. NAT

AT:autoregressive
NAT:non-autoregressive
在这里插入图片描述
Nat是一次把整个句子产生出来,nat是给几个begin,产生几个。而如何知道有几个begin呢。一种做法是用一个另外的predictor输出数量。另一种做法是,给很多的begin(超过最大的可能的数量上限),看什么时候输出end,end后面的忽略。
Nat的好处:平行化,一次就可以输出,速度比at快。可以控制输出长度。
Nat缺点:效果不如at。


总结

视频学习地址:https://www.bilibili.com/video/BV13Z4y1P7D7?p=13&vd_source=3a369b537e1d34ff9ba8f8ab23afedec

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值