机器学习李宏毅学习笔记13

最新推荐文章于 2024-07-18 08:49:40 发布

log^3me

最新推荐文章于 2024-07-18 08:49:40 发布

阅读量64

点赞数

文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/weixin_46722934/article/details/130875284

版权

文章目录

前言
一、Decoder
二、AT v.s. NAT
总结

前言

transformer下（decoder）

一、Decoder

在这里插入图片描述
以语音辨识为例
Decoder先读进encoder的输出，先给decoder一个符号表示开始，这个开始符号也是用one-hot vector表示。之后decoder会输出一个向量，这个向量的长度结果可能输出的所有可能，比如中文语音辨识，这个向量的长度就是所有可能出现的所有汉字。输出这个向量之前会经过一个softmax，可能性相加=1，这些可能性最高的就是这个向量的输出。
在这里插入图片描述
之后decoder会拿“机”作为输入，并在输出中选择数值最高的。

不断重复，decoder会把之前的输出当做接下来的输入。

Decoder中有一步masked self-attention。他和普通的self-attention的区别在于，self-attention会考虑所有a1-a4输出b1，而masked只会考虑左边的，b1考虑a1，b2考虑a1、a2,以此类推。
在这里插入图片描述
为什么只考虑前面的呢，因为decoder的输出是一个一个输出的，encoder是同时输出的，对于decoder而言，先有a1，才有a2，才有a3和a4，当计算b2的时候，是没有a3和a4的，所以没有办法把a3和a4放进来。
输出的序列长度是多少呢，也就是什么时候结束，这是希望机器学会的，所以要准备一个结束符号，表示停止。
在这里插入图片描述

最后一个产生的向量里面结束的概率必须要是最大。

Decoder和encoder的差别主要在cross attention，cross attention的输入有两个来自encoder的输出。

Begin经过self-attention（Mask）得到一个向量，这个向量乘一个矩阵得到q，q和k1 k2 k3计算attention的分数，再和v1 v2 v3加权，将他们加起来得到v。

训练
在这里插入图片描述
在训练的时候，decoder的输入每次都是正确的，期待decoder的输出和正确的cross entropy的和越小越好，同时也包括end的cross entropy。

一个问题是，在训练的时候decoder看到的永远是正确的，但是预测的时候，decoder可能会看到错误的，可能会一步错步步错。这个现象叫做exposure bias。一个可能的方法是，训练的时候给decoder加入一些错误的信息，这样可能处理的效果更好。

二、AT v.s. NAT

AT：autoregressive
NAT：non-autoregressive
在这里插入图片描述
Nat是一次把整个句子产生出来，nat是给几个begin，产生几个。而如何知道有几个begin呢。一种做法是用一个另外的predictor输出数量。另一种做法是，给很多的begin（超过最大的可能的数量上限），看什么时候输出end，end后面的忽略。
Nat的好处：平行化，一次就可以输出，速度比at快。可以控制输出长度。
Nat缺点：效果不如at。