【论文阅读笔记】《Attention is All You Need》——Attention机制和Transformer

最新推荐文章于 2024-07-04 17:07:39 发布

YMK_0

最新推荐文章于 2024-07-04 17:07:39 发布

阅读量1.2k

点赞数 1

分类专栏：读论文文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/ymk1998/article/details/123564010

版权

读论文专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Self-Attention

原理

计算两个向量之间的相关性α

在这里插入图片描述

$输入的向量分别乘矩阵W^q和W^k得到q(query)和k(key)$

$相似度\alpha =q\cdot k$

在这里插入图片描述

Self-attention

在这里插入图片描述

$得到相似度\alpha，也就是权重，和每个向量的value相乘再求和得到b^1$

$所谓self，是a^1自己也会与自己求一个权重\alpha ^{'}_{1,1}$

$其他向量也是如此，最终得到一组新的序列b^1,b^2,b^3,b^4$

在这里插入图片描述

$所以self-attention相比于RNN有一个好处：它是并行的，b^1,b^2,b^3,b^4同时计算出来$

从矩阵乘法的角度

计算q,k,v

$每一个 a 都要分别产生 q, k, v$
在这里插入图片描述

$将attention的输入a^1，a^2，a^3，a^4拼起来作为矩阵I，分别成W^q,W^k,W^v,得到矩阵Q,K,V$

2. 计算权重α

在这里插入图片描述

$k^i]^T拼一起乘q^1，得到的、alpha矩阵是输入a^1和其他向量的相关性，其他输入同理$

在这里插入图片描述

$用 s o f t m a x 对每一列进行归一化，用其他方法比如 R e l u 也可以$
在这里插入图片描述

3. 计算输出b
在这里插入图片描述

在这里插入图片描述

$矩阵 O 即为 S e l f - a t t e n t i o n 的输出$

这时候能发现Dot-Product（点积）计算的都是Query，Key等长的情况，而Addictive（加形）可以处理不等长的情况。Transformer中用的是Scaled Dot-Product Attention，和Dot-Product类似
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
dk是K的维度，当维度很大时（Transformer里dk=512），两个向量做点积的结果也会比较大或者比较小，所以经过Softmax后的会更加靠近1或0，即值会更加向两端靠拢，在梯度下降的时候梯度较小，算的会比较慢。

总结

在这里插入图片描述

$只有W^q,W^k,W^v是需要通过训练学出来的$

Multi-head Self-attention 多头注意力机制

个人理解：self-attention就是用每个向量的q去寻找相关的k，但是”相关“这件事情，本身就有很多种，所以我们需要不同的q去负责不同种类的“相关性”。

在这里插入图片描述

$q^{i,1}=W^{q,1}q^i$

$q^{i,2}=W^{q,2}q^i$

在这里插入图片描述

$q^{i,1}只管k^{i,1}和k^{j,1}$

$同理$

在这里插入图片描述

$最后得到输出b^i$
在这里插入图片描述

Positional Encoding

这样的Self-attention有个缺点：它没有包含位置信息，即输入的向量在前面或是在后面都没有区别。所以引入了Positional Encoding，为每个位置设定一个向量e

在这里插入图片描述

这是怎么加的，值硬加？

《Attention is all you need》里的Positional Encoding，每一列代表一个e，通过sin cos 一系列规则制定出来的(见后文)

在这里插入图片描述

Positional Encoding可以是认为通过某个函数制定的，也可以是训练出来的，一些其他的位置编码形式：

在这里插入图片描述

Self-attention应用

用Self-attention做语音识别

在这里插入图片描述

在语音识别领域，通常10ms就会产生一个向量，所以一句话能产生的向量的数量是非常大的，那么在计算权重矩阵A‘时。这个矩阵就会非常大（L*L，L为输入向量的个数），所以我们采取Truncated Self-attention，即不用和其他所有的向量都做Attention，只需要和某个范围内的向量做即可（看上面矩阵手算一下维度，容易推出A’的大小），这个范围是人为确定的。

用Self-attention做图像处理

在这里插入图片描述

$每个像素是一个三维 (R G B) 的向量$

在这里插入图片描述

Self-attention和CNN

在这里插入图片描述

CNN只考虑了感受野范围内像素之间的关系，而Self-attention考虑了全局像素之间的联系，而且Self-attention中的感受野是自动学习出来的，并不是人为规定了感受野的形状。CNN是Self-attention青春版。

在这里插入图片描述

而像Self-attention这种灵活的模型，就需要更大的数据量，否则就会产过拟合，但CNN在小数据量时就能产生不错的效果。

在这里插入图片描述

Self-attention和RNN

在这里插入图片描述

RNN的hard to consider意思是距离太远的向量，传递信息很麻烦LSTM、GRU，但Self-attention所有的向量“天涯若比邻”。

RNN不能并行，Self-attention可以并行，效率高。

论文《Transformers are RNNs: Fast Autoregressive Transformer with Linear》

Self-attention用在图上

在这里插入图片描述

已经帮Self-attention筛选过了向量之间的关系。只需要计算互相连接的点的Attention Score

这也是图神经网络GNN的一种。

Transformer

模型架构：

左侧Encoder，右侧Decoder，本质上也是seq2seq模型

Encoder

在这里插入图片描述

其中经过了n层block

在这里插入图片描述

每一层block的工作：进行Self-attention，得到输出送进Fully Connected(FC)

在这里插入图片描述

但实际上Transformer更加复杂一些，做了一步残差连接，之后进行了归一化Normlization

Layer-Normlization

Transformer没有使用Batch-Normlization ，而是Layer-Normlization

Batch Norm:：每一行是样本，列是特征

$把每一个特征进行归一化（均值为 0 ，方差为 1 ），也可以学到 λ ， β ，用来调整成任意的方差和均值。$

$在训练时对每个 m i n i - b a t c h 进行归一化，在预测是还要有一个全局的均值和方差的计算$

Layer Norm：对行（即样本）进行归一化

在三维空间看来如图

选择LN而不是BN的原因：由于样本中序列的长度并不是一样的。

对于BN，如果样本长度变化比较大，那么每次计算小批量的均值和方差的抖动是比较大的。而且在预测时要把全局的均值和方差记录下来，如果这是出现了一个非常长的样本，是我在训练时没有碰到的，那前面算的均值和方差可能就不好用了。

而LN是每个样本自己内部算均值和方差，也不需要存全局的均值和方差，所以稳定一些。

Position-wise Feed-Forward Networks

这时得到的输出才是Fully Connected的输入，同样地，Fully Connected也有残差连接以及Layer-Normlization操作，最后才得到了一层block的输出。

在这里插入图片描述

Fully Connected都干了什么呢？

Position-wise Feed-Forward Networks，本质上就是一个MLP，不同的是，对每一个词作用的是同样的MLP，即Point-wise的意思。
$FFN(x)=max(0,xW_1+b_1)W_2+b_2$

具体来看
$xW_1+b_1 \ \ \ \ 线性层$

$max(0,xW_1+b_1) \ \ \ \ ReLU激活层$

$max(0,xW_1+b_1)W_2+b_2\ \ \ \ 线性层$

$x是长度为512的向量，W_1把512投影成2048，由于之后还要进行残差连接，W_2再把2048投影回512，$

和RNN的区别

在这里插入图片描述

Transformer：Attention对输入序列的信息进行抓取进行汇聚，所以后面用MLP，想要映射到我想要的语义空间中时，每个MLP只需要独立对每个点进行处理就行了，因为每个向量都包含了整个序列的信息。

RNN：序列的信息是一步一步传递的。

关注点都是如何有效使用整个序列的信息。

Positional Encoding

再回过来看Encoder的架构图，在输入时添加了前面说过的位置编码。

在这里插入图片描述

首先在Transformer中，输入的向量的长度是512，所以位置编码的向量长度也是512。
$PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})\\PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$
然后相加。

❓后续的模块看到这个输入是怎么判断这个词的位置信息的呢？

当然，Encoder的设计也不是唯一的，上述内容是原始论文提出的Encoder架构，也有论文《On Layer Normalization in the Transformer Architecture》把block中的一些操作顺序换了换，得到了更好的结果。

在这里插入图片描述

以及为什么选Layer-Normalization而不是Batch-Normalization，也有论文《Powernorm: Rethinking Batch Normalization in Transformers》还提出了Powernorm

Decoder

——Autoregressive(AT)

接下来都以语音识别为例。

在这里插入图片描述

在Encoder产生向量之后，输入到Decoder中，并且Decoder也有自己的输入，个人感觉个RNN类似，将上一步的输出作为下一步的输入。

Decoder的结构

在这里插入图片描述

Masked Multi-Head Attention

将Decoder和Encoder的结构相比较一下

在这里插入图片描述

会发现除去红框位置的部分，其余结构Encoder和Decoder几乎是一样的，唯一差别在于 Encoder 采用的是 Multi-Head Attention 而Dcoder 采用的是 Masked Multi-Head Attention

因为Decoder的输入并不像Encoder一样是并行的，所以在做Self-attention时，前面的输入是看不到后面输入的，只能看见前面已经有的输入，所以叫 Masked Multi-Head Attention

在这里插入图片描述

更详细一点

在这里插入图片描述

$在产生b^2时，只能拿q^2与k^1和k^2分别对比计算相似度$

在Transformer中，是将q，k点积的值换成非常大的负数，其做softmax的指数的时候，softmax的结果就会变成0，权重变为0

这也是Autoregressive(AT)这种Decoder的缺点：不能并行，另一种Decoder：Non-Autoregressive(NAT)则是并行的

在这里插入图片描述

那么怎么判断什么时候结束输出呢？

对于AT来说，等到softmax计算出输出END的概率最大时，就可以停止了。
但对于NAT，由于并行输入的是一堆BEGIN，所以并不能判断输出的序列到底是多长，所以：
- 另外还有一个分类器，Encoder的输出作为输入，输出一个数字，就是Decoder应该输出序列的长度
- 假设一个非常大的长度，最后忽略END后面的输出。（如果我都能知道输出有END了，我为什么还要接着输出呢？）

而且NAT还可以控制输出的长度。但是从效果上来说NAT还是不如AT。因为存在着multi-modality这个问题