Transformer入门（一）——结构

yeen123

已于 2022-06-02 20:53:06 修改

阅读量8.5k

点赞数 7

分类专栏： Transformer论文学习文章标签： transformer 自然语言处理深度学习计算机视觉

于 2022-06-02 18:25:22 首次发布

本文链接：https://blog.csdn.net/yeen123/article/details/125104680

版权

Transformer论文学习专栏收录该内容

2 篇文章 2 订阅

订阅专栏

文章目录

前言
一、Transformer的产生和基础思想
二、Encoder中重要模块的具体实现
三、Encoder的叠加

前言

一、Transformer的产生和基础思想

1.1 Transformer的Motivation

Transformer是由谷歌于2017年提出。最初是用在NLP领域，在此之前NLP方向的SOTA模型都是以循环神经网络为基础（RNN, LSTM等）。本质上讲，RNN是以串行的方式处理数据，对应到NLP任务上，即按句中词语的先后顺序，每一个时间步长处理一个词语。然而，Transformer的巨大创新便在于它并行化的处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系，且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系，来决定应该对哪些词或短语赋予更多的注意力。

1.2 Transformer的原始框架

Transformer采用Encoder-Decoder架构，下图就是Transformer的结构。其中左半部分是encoder，右半部分是decoder。
【PS：Encoder-Decoder架构不是具体的模型，而是泛指一类结构，不同的任务可以用不同的编码器和解码器 (RNN，CNN，LSTM)。编码就是将输入Seq转化成固定长度向量，解码就是把之前生成的固定向量再转化为Seq】
Transformer初始结构图
Encoder：左边编码部分有N个相同的Encoder层叠加，每个Encoder层结构包含了两个子层，第一个子层是多头注意力层（Multi-Head Attention,橙色部分），第二个子层是前馈连接层（Feed Forward，浅蓝色部分）。除此之外，还有一个残差连接，直接将input embedding传给第一个Add & Norm层（黄色部分）以及第一个Add & Norm层传给第二个Add & Norm层（即图中的粉色–>黄色1，黄色1–>黄色2部分运用了残差连接）。

Decoder：右边解码部分有N个相同的Decoder层结构，相比Endoer，它有三个子层。第一个子层结构是遮掩多头注意力层（Masked Multi-Head Attention，橙色部分），第二个子层是多头注意力结构(Multi-Head Attenion，橙色部分)，第三个子层是前馈连接层（Feed Forward,浅蓝色部分）。

1.3 关于Decoder的补充说明

（1） Decoder单层的残差连接是粉色–>黄色1，黄色1–>黄色2，黄色2–>黄色3三个部分
（2） Decoder单层的重点是第二个子层，即多头注意力层，它的输入包括两个部分，第一个部分是第一个子层的输出，第二个部分是Encoder层的输出（这是与encoder层的区别之一），这样则将encoder层和decoder层串联起来，以进行词与词之间的信息交换（通过共享权重WQ,WV,WK得到）。
（3） Decoder单层的第一个子层中mask，它的作用是防止训练的时候使用未来的输出单词，保证预测位置i的信息只能基于比i小的输出。比如训练时，第一个单词是不能参考第二个单词的生成结果的，此时就会将第二个单词及其之后的单词都mask掉。因此，encoder层可以并行计算，一次全部encoding出来，但是decoder层却一定要像RNN一样一个一个解出来，因为要用上一个位置的输入当做attention的query.
（4）残差结构是为了解决梯度消失问题，可以增加模型的复杂性。
（5） LayerNorm层是为了对attention层的输出进行分布归一化，转换成均值为0方差为1的正态分布。cv中经常会用的是batchNorm，是对一个batchsize中的样本进行一次归一化，而layernorm则是对一层进行一次归一化，二者的作用是一样的，只是针对的维度不同，一般来说输入维度是(batch_size, seq_len, embedding)，batchnorm针对的是batch_size层进行处理，而layernorm则是对seq_len进行处理（即batchnorm是对一批样本中进行归一化，而layernorm是对每一个样本进行一次归一化）。
使用ln而不是bn的原因是因为输入序列的长度问题，每一个序列的长度不同，虽然会经过padding处理，但是padding的0值其实是无用信息，实际上有用的信息还是序列信息，而不同序列的长度不同，所以这里不能使用bn一概而论。
（6） FFN是两层全连接：w * [delta(w * x + b)] + b，其中的delta是relu激活函数。这里使用FFN层的原因是：为了使用非线性函数来拟合数据。如果说只是为了非线性拟合的话，其实只用到第一层就可以了，但是这里为什么要用两层全连接呢，是因为第一层的全连接层计算后，其维度是(batch_size, seq_len, dff)（其中dff是超参数的一种，设置为2048），而使用第二层全连接层是为了进行维度变换，将dff转换为初始的d_model(512)维。
（7） decoder层中间的多头自注意力机制的输入是两个参数——encoder层的输出和decoder层中第一层masked多头自注意力机制的输出，作用在本层时是：q=encoder的输出，k=v=decoder的输出。
（8） encoder的输入包含两个，是一个序列的token embedding + positional embedding，用正余弦函数对序列中的位置进行计算（偶数位置用正弦，技术位置用余弦）。

二、Encoder中重要模块的具体实现

2.1 Self-Attention模块

self-Attention是Transformer能找到与当前单词相关的词并加以关注的一种方法。这里描述self-attention的具体过程如下图所示：
在这里插入图片描述
从上图可以看出，attention机制中主要涉及三个向量Q(Query), K(Key), V(Value)，这三个向量的计算过程如下图所示：

图中要用到参数WQ,WV,WK是三个随机初始化的矩阵，每个特征词的向量计算公式如下所示：
在这里插入图片描述
（1） score：通过打分表示与关注单词的相关程度.
（2）这种通过 query 和 key 的相似性程度来确定 value 的权重分布的方法被称为scaled dot-product attention。
（3） attention与self-attention的区别：
self-attention是一般attention的特殊情况，在self-attention中，Q=K=V每个序列中的单元和该序列中所有单元进行attention计算。Google提出的多头attention通过计算多次来捕获不同子控件上的相关信息。
self-attention的特点在于无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现也较为简单并且可以并行计算。从一些论文中看到， self-attention可以当成一个层和RNN,CNN,FNN等配合使用，成功应用于其他NLP任务。
attention中要除以8（根号d_k）的原因是为了缩放，它具备分散注意力的作用；原始注意力值均聚集在得分最高的那个值，获得了权重为1；而缩放后，注意力值就会分散一些。
attention中除以根号d_k具备缩放的原因是因为原始表征x1是符合均值为0方差为1的正态分布的，而与权重矩阵相乘后，结果符合均值为0方差为d_k的正态分布了，所以为了不改变原始表征的分布，需要除以根号d_k

2.2 Multi-Headed Attention模块

将模型分为多个头，形成多个子空间，可以让模型去关注不同方向的信息。
多头注意力机制在这里是指分成多组Q,K,V矩阵，一组Q,K,V矩阵独立完成一次注意力机制的运算，transformer使用了8组，所以最终得到了8个矩阵，将这8个矩阵拼接起来再乘以一个参数矩阵WO,即可得出最终的多注意力层的输出。全部过程如下图所示：
在这里插入图片描述

左图表示使用多组Q,K,V矩阵，右图表示8组Q,K,V矩阵计算会得出8个矩阵，最终我们还需将8个矩阵经过计算后输出为1个矩阵，才能作为最终多注意力层的输出。如下图所示，其中WO是随机初始化的参数矩阵。
在这里插入图片描述

2.3 Positional Encoding模块

它是为了解释输入序列中单词顺序，其维度和embedding的维度一致。这个向量决定了当前词的位置，或者说是在一个句子中不同的词之间的距离。由于后续需要的时做CV，所以无需过多介绍位置编码。

2.4 Layer Normalization模块

【主要因为样本间长度不统一，不能直接用BN】
在transformer中，每一个子层（自注意力层，全连接层）后都会有一个Layer normalization层，如下图所示：
在这里插入图片描述
Normalize层的目的就是对输入数据进行归一化，将其转化成均值为0方差为1的数据。LN是在每一个样本上都计算均值和方差，如下图所示：

LN的公式为： LN(xi) = α * (xi - μL / √(σ2L + ε)) + β