【直觉建设】Transformer合辑

最新推荐文章于 2024-07-08 09:40:21 发布

反科研pua所所长

最新推荐文章于 2024-07-08 09:40:21 发布

阅读量746

点赞数

分类专栏：机器学习文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/yasminec/article/details/124785070

版权

机器学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

引言

研究深度学习也有两年了，之前看transformer的论文，感觉完全看不懂，因此对transformer的理解都来自于网上的资源，印象比较深的是李宏毅-Transformer和Transformer 详解这两个资源，前者构建了我对自注意力的初始直觉，后者构建了我对整个模型架构的初步理解。然而，这些资源，学完之后总会有种隔靴搔痒的感觉，理解总是有些朦胧。这段时间佛系科研，又遇到了这些模型，准备重新从原文出发，构建出对transformer较为深入的直觉

Transformer

来自文章：2017-NIPS-Attention Is All You Need

1. 适用任务

虽然之后，transformer的变种被应用到各种各样的任务上，但最初，是为了序列转录模型提出的。序列转录模型，用于序列到序列的生成，比如语言建模任务和机器翻译任务，这类模型通常包括一个编码器encoder和一个解码器decoder

2. 动机

并行化：之前的序列转录模型，大多都是使用RNN-based结构。由于RNN中固有的时序性，所以限制了训练的并行化：1）RNN中第 $t$ 个step依赖于前 $t - 1$ 个step的结果，也就是说，第 $t$ 个step的结果必须要等前 $t - 1$ 得到结果后才能生成；2）当序列较长时，后面的step可能没办法记忆之前的历史信息，或者由于内存的限制而无法记住前面的历史信息（内存限制了hidden state的大小）

而注意力机制，天然得带有“天涯若比邻”的属性，因为你可以令当前step与之前的任意一个遥远的step进行注意力的计算

效率：这一点是用结果来说明的。Transformer模型能够在8块P100的情况下，只有12小时的时间达到彼时的SotA

3. 模型结构

简单来说，是6个encoder和6个decoder来完成的，我们分别以1个encoder和1个decoder为例，来进行维度推演，首先是encoder的（其中 $d_{model}=head*d_k/d_v$ ）：

层	子层	作用	输入维度	输出维度
embedding layer		将单词转化为词嵌入	$bsz,max\_len$	$bsz,max\_len,d_{model}$
positional encoding		为词嵌入添加位置信息	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Multi-head Attention	linear	将词嵌入转化为多个维度(head)的Q、K、V	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{k}/d_v$
	scaled dot-product attention	利用Q、K、V从多个维度(head)衡量不同step输入的相关性	$head*(bsz,max\_len,d_{k}/d_v)$	$head*(bsz,max\_len,d_v)$
	concat	将多个维度(head)的结果级联起来	$head*(bsz,max\_len,d_v)$	$bsz,max\_len,d_{model}$
	linear	线性映射	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Add & Norm		进行残差连接和层归一化	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Feed forward	$xW_1+b_1$	升维（类似SVM中的升维效果）	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{ff}$
	$ReLU(xW_1+b_1)W_2+b_2$	降维	$bsz,max\_len,d_{ff}$	$bsz,max\_len,d_{model}$
Add & Norm		进行残差连接和层归一化	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$

然后是decoder：

层	子层	作用	输入维度	输出维度
embedding layer		将ground truth转化为词嵌入	$bsz,max\_len$	$bsz,max\_len,d_{model}$
positional encoding		为词嵌入添加位置信息	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Masked Multi-head Attention	linear	将词嵌入转化为多个维度(head)的Q、K、V	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{k}/d_v$
	masked dot-product	Q、K得到权重经过mask再与V进行sum	$head*(bsz,max\_len,d_{k}/d_v)$	$head*(bsz,max\_len,d_v)$
	concat	将多个维度(head)的结果级联起来	$head*(bsz,max\_len,d_v)$	$bsz,max\_len,d_{model}$
	linear	线性映射	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Add & Norm		进行残差连接和层归一化	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Multi-head Attention	linear	将词嵌入转化为多个维度(head)的Q、K、V	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{k}/d_v$
	scaled dot-product attention	encoder的结果作为Q、K，decoder结果作为V进行多头注意力	$head*(bsz,max\_len,d_{k}/d_v)$	$head*(bsz,max\_len,d_v)$
	concat	将多个维度(head)的结果级联起来	$head*(bsz,max\_len,d_v)$	$bsz,max\_len,d_{model}$
	linear	线性映射	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Add & Norm		进行残差连接和层归一化	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$
Feed forward	$xW_1+b_1$	升维（类似SVM中的升维效果）	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{ff}$
	$ReLU(xW_1+b_1)W_2+b_2$	降维	$bsz,max\_len,d_{ff}$	$bsz,max\_len,d_{model}$
Add & Norm		进行残差连接和层归一化	$bsz,max\_len,d_{model}$	$bsz,max\_len,d_{model}$

4. 两大创新

Scaled Dot-Product Attention

Dot-Product Attention（点积注意力），是相对于Additive attention（加性注意力）而言的，顾名思义，Dot-Product Attention是说通过点积来计算两者之间的注意力分数，即相关性，在检索/匹配任务中很常见

注意力函数通常可以描述为，将一个查询query和键值key-value对集合映射为一个输出，这个输出是value的加权和，其权重通过计算query和key之间的相关度得出。而Scaled Dot-Product Attention就是用来计算query和key之间相关度的方式，描述为：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

一般来说，为了在不同主体之间构建更公平的度量，会使用归一化的点积，即余弦相似度，两者之间的关系是： $cos(\theta)=\frac{A·B}{||A||||B||}$ . 而在transformer中，并没有像余弦相似度这样使用两个向量的长度来进行归一化，而是使用了softmax函数

而其中的 $\sqrt{d_k}$ 就是scaled的表现，这是由于直接使用softmax函数，会因为得到的 $QK^T$ 值过大而引起梯度消失问题，于是可以加入scaled factor来避免梯度消失问题，因此称为Scaled Dot-Product Attention

Multi-Head Attention

严格来说，多头自注意力机制，还不具有完善的可解释性；其含义是，一组 $Q 、 K 、 V$ 可以从一个维度上构建相关性，而多组 $Q 、 K 、 V$ 可以从多个维度上构建相关性，而多个 $Q 、 K 、 V$ 的产生，则是通过多组不同参数的线性映射完成的：
$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O, where\ head_i=Attention(QW_i^Q,KW_i^k,VW_i^V)$
也就是说，原本单头注意力只需要在 $Q 、 K 、 V$ 中进行Scaled Dot-Product Attention就可以了，现在多头注意力则需要先将 $Q 、 K 、 V$ ( $bsz,len, d_{model}$ )分别进行 $h e a d$ 次线性映射( $bsz,len, d_{k}/d_{v}$ )，然后再映射得到的向量之间执行Scaled Dot-Product Attention得到输出( $bsz,len, d_{k}/d_{v}$ )，最后将不同 $h e a d$ 得到的输出concat起来 $bsz,len,h*d_{k}/d_{v}$ ，再变换维度到 $bsz,len,d_{model}$ . 上述过程如下图：
在这里插入图片描述
其实因为有最后一个线性层的存在，我们无需规定 $d_k,d_v,d_{model},head$ 之间的关系，但作者在具体实施中规定： $d_k=d_v=d_{model}/head=64,head=8$