Attention Is All You Need

最新推荐文章于 2024-10-02 01:49:36 发布

An_ich

最新推荐文章于 2024-10-02 01:49:36 发布

阅读量713

点赞数 25

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_62891098/article/details/141557433

版权

摘要

主要的序列转导模型是基于复杂的循环或卷积神经网络，包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构，tansformer，完全基于注意力机制，完全摒弃递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更具并行性，并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU，比现有的最佳结果(包括集合)提高了2个BLEU以上。在WMT 2014英法翻译任务中，我们的模型在8个gpu上训练3.5天后，建立了一个新的单模型最先进的BLEU分数41.0，这是文献中最佳模型训练成本的一小部分。

1 介绍

递归神经网络，特别是长短期记忆[12]和门控递归神经网络[7]，已经被牢固地确立为序列建模和转导问题(如语言建模和机器翻译)的最新方法[29,2,5]。从那以后，大量的努力继续推动循环语言模型和编码器-解码器架构的边界[31,21,13]。

循环模型通常沿输入和输出序列的符号位置进行因子计算。将位置与计算时间中的步骤对齐，根据前一个隐藏状态ht−1和位置t的输入的函数生成一个隐藏状态序列ht。这种固有的顺序性排除了训练示例中的并行化，这在较长的序列长度下变得至关重要，因为内存约束限制了跨示例的批处理。最近的研究通过因子分解技巧[18]和条件计算[26]显著提高了计算效率，同时也提高了模型在后者情况下的性能。然而，顺序计算的基本约束仍然存在。

注意机制已经成为各种任务中引人注目的序列建模和转导模型的组成部分，允许对依赖关系进行建模，而不考虑它们在输入或输出序列中的距离[2,16]。然而，在除少数情况外的所有情况下[22]，这种注意机制都与循环网络结合使用。

在这项工作中，我们提出了Transformer，这是一种避免循环的模型架构，而是完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许显着更多的并行化，并且在8个P100 gpu上经过12小时的培训后，可以达到翻译质量的新状态。

2 背景

减少顺序计算的目标也构成了Extended Neural GPU[20]、ByteNet[15]和ConvS2S[8]的基础，它们都使用卷积神经网络作为基本构建块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，将两个任意输入或输出位置的信号关联起来所需的操作数量随着位置之间的距离而增长，ConvS2S为线性增长，ByteNet为对数增长。在Transformer中，这被减少到一个恒定的操作数量，尽管其代价是由于平均注意加权位置而降低了有效分辨率，我们用3.2节中描述的多头注意抵消了这一影响。

自注意机制，有时被称为内注意，是一种将单个序列的不同位置联系起来以计算该序列的表示的注意机制。自注意已被成功地应用于阅读理解、抽象总结、文本蕴涵和学习任务无关的句子表征等多种任务中[4,22,23,19]。

端到端记忆网络基于循环注意机制，而不是顺序排列的递归，并且在简单语言问答和语言建模任务中表现良好[28]。

然而，据我们所知，Transformer是第一个完全依赖于自注意力机制来计算其输入和输出表示的转导模型，而不使用序列对齐RNN或卷积。在下面的部分中，我们将描述Transformer，激励自注意力，并讨论它相对于[14,15]和[8]等模型的优势。

3 模型架构

大多数有竞争力的神经序列转导模型具有编码器-解码器结构[5,2,29]。这里，编码器映射符号表示(x1，…， xn)的输入序列到连续表示序列z = (z1，…，zn)解码器然后生成输出序列(y1，…，ym)符号，一次一个元素。在每一步中，模型都是自回归的[9]，在生成下一个符号时，将之前生成的符号作为额外的输入。

Transformer遵循这个整体架构，在编码器和解码器层中均使用堆叠的自注意力层、逐元素操作和全连接层，如图1的左半部分和右半部分所示

3.1 编码器和解码器堆叠

编码器由N = 6个相同层的堆栈组成。每一层有两个子层。第一种是多头自注意机制，第二种是简单的全连接前馈网络。我们在两个子层的每一层周围都使用了一个残差连接[10]，然后是层归一化[1]。也就是说，每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x)是子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层产生的输出维度为dmodel = 512。

解码器:解码器也由n = 6相同层的堆栈组成。除了每个编码器层中的两个子层之外，解码器插入第三个子层，该子层对编码器堆栈的输出执行多头注意。与编码器类似，我们在每个子层周围使用残差连接，然后进行层规范化。我们还修改了解码器堆栈中的自注意子层，以防止位置关注后续位置。这种掩蔽，再加上输出嵌入被偏移一个位置的事实，确保了位置i的预测只能依赖于位置小于i的已知输出。

3.2 注意力

注意力函数可以描述为将查询和一组键值对映射到输出，其中查询、键、值和输出都是向量。输出是作为值的加权和计算的，其中分配给每个值的权重是由查询(q)与相应键(k)的兼容性函数计算的。

3.2.1 缩放的点积注意力

我们称这种特殊注意力为“缩放点积注意力”(图2)。输入由维度为dk的查询和键以及维度为dv的值组成。我们计算查询与所有键的点积，每个点积除以√dk，并应用softmax函数来获得值的权重。

在实践中，我们同时计算一组查询的注意力函数，它们被打包成矩阵q。键和值也被打包成矩阵K和v。我们计算输出的矩阵为:

两个最常用的注意力函数是加性注意力[2]和点积(乘法)注意力。点积注意力和我们的算法是一样的，除了比例因子是1/√dk。加性注意力使用一个具有单个隐藏层的前馈网络来计算兼容性函数。虽然两者在理论复杂性上相似，但在实践中，点积注意力更快，更节省空间，因为它可以使用高度优化的矩阵乘法代码来实

当dk值较小时，两种机制的表现相似，当dk[3]值较大时，加性注意力优于点积注意力。我们怀疑，对于较大的dk值，点积的大小会变大，从而将softmax函数推入具有极小梯度的区域4。为了抵消这个影响，我们将点积乘以1√dk。

3.2.2 多头注意力

我们发现，与其使用dmodel维度的键、值和查询执行单一的注意力函数，不如将查询、键和值分别以不同的、学习过的线性投影h次线性投影到dk、dk和dv维度，这是有益的。然后，在查询、键和值的每个投影版本上，我们并行地执行注意力函数，生成d维输出值。将它们连接起来并再次进行投影，得到最终值，如图2所示。

多头注意允许模型在不同位置共同注意来自不同表示子空间的信息。对于单一注意力头，平均会抑制这一点。

在这项工作中，我们使用h = 8个平行的注意层，或头。对于每一个，我们使用dk = dv = dmodel/h = 64。由于每个头部的维数降低，因此总计算成本与全维的单头注意力相似。

3.2.3 注意力在模型中的应用

Transformer以三种不同的方式使用多头注意力:

在“编码器-解码器注意”层中，查询来自前一个解码器层，而记忆键和值来自编码器的输出。这允许解码器中的每个位置都参与输入序列中的所有位置。这模仿了序列到序列模型中典型的编码器-解码器注意机制，如[31,2,8]。

编码器包含自注意力层。在自注意力层中，所有的键、值和查询都来自同一个地方，在这种情况下，是编码器中前一层的输出。编码器中的每个位置都可以处理编码器前一层中的所有位置。

解码器中的自注意层允许解码器中的每个位置注意到解码器中的所有位置直至并包括该位置。我们需要防止解码器中的向左信息流以保持自回归特性。我们通过屏蔽(设置为−∞)softmax输入中对应于非法连接的所有值来实现缩放点积注意力。参见图2

3.3 位置前馈网络

除了注意子层之外，编码器和解码器中的每一层都包含一个全连接的前馈网络，该网络分别相同地应用于每个位置。这包括两个线性转换，中间有一个ReLU激活。

虽然线性变换在不同位置上是相同的，但它们在每一层之间使用不同的参数。另一种方式是采用1*1卷积代替线性层。输入和输出的维数dmodel = 512，内层的维数dff = 2048。

3.4 嵌入和Softmax

与其他序列转导模型类似，我们使用学习嵌入将输入分词和输出分词转换为维度dmodel的向量。我们还使用通常学习的线性变换和softmax函数将解码器输出转换为预测的下一个分词概率。在我们的模型中，我们在两个嵌入层和pre-softmax线性变换之间共享相同的权重矩阵，类似于[24]。在嵌入层中，我们将这些权重乘以√dmodel。

3.5 位置编码

由于我们的模型不包含递归和卷积，为了使模型利用序列的顺序，我们必须注入一些关于序列中标记的相对或绝对位置的信息。为此，我们在编码器和解码器堆栈底部的输入嵌入中添加了“位置编码”。位置编码与嵌入具有相同的维度，因此可以对两者进行求和。

有许多位置编码的选择[8]。在这项工作中，我们使用了不同频率的正弦和余弦函数:

其中pos是位置，i是维度。也就是说，位置编码的每一个维度对应于一个正弦波。波长形成从2π到10000·2π的几何级数。我们选择这个函数是因为我们假设它可以让模型很容易地通过相对位置学习，因为对于任何固定的偏移量k, PEpos+k可以表示为PEpos的线性函数。

我们还尝试使用习得的位置嵌入[8]代替，发现这两个版本产生的结果几乎相同(见表3 (E)行)。我们选择正弦版本是因为它可以允许模型外推到比训练期间遇到的序列长度更长的序列。

4 为什么使用自注意力机制

在本节中，我们将自注意力层的各个方面与循环、卷积神经网络进行对比。为了激励我们使用自注意力机制，我们考虑了三个必要条件。

一个是每层的总计算复杂度。另一个是可以并行化的计算量，通过所需的最小顺序操作数来衡量。第三个是网络中远程依赖关系之间的路径长度。学习远程依赖关系是许多序列转导任务中的关键挑战。影响学习这种依赖关系能力的一个关键因素是网络中向前和向后信号必须经过的路径长度。输入和输出序列中任意位置组合之间的路径越短，学习远程依赖关系[11]就越容易。因此，我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

如表1所示，自注意力层用固定数量的顺序执行操作连接所有位置，而循环层则需要O(n)个顺序操作。就计算复杂度而言，当序列长度n小于表示维数d时，自注意层比循环层更快，这是机器翻译中最先进模型使用的句子表示最常见的情况，例如词块[31]和字节对[25]表示。为了提高涉及很长序列的任务的计算性能，可以将自注意限制为只考虑以各自输出位置为中心的输入序列中大小为r的邻域。这将使最大路径长度增加到O(n/r)。我们计划在未来的工作中进一步研究这种方法。

一个核宽度为k < n的卷积层不能连接所有的输入和输出位置对。在相邻核的情况下，这样做需要O(n/k)个卷积层的堆栈，或者在扩展卷积[15]的情况下，需要O(logk(n))个卷积层的堆栈，从而增加网络中任意两个位置之间最长路径的长度。卷积层的开销通常比循环层高k倍。然而，可分离卷积[6]大大降低了复杂性，为O(k·n·d + n·d2)。然而，即使k = n，可分离卷积的复杂性也等于自注意层和逐点前馈层的组合，这是我们在模型中采用的方法。

作为附带好处，自注意力可以产生更多可解释的模型。我们从我们的模型中检查注意力分布，并在附录中给出和讨论示例。不仅个体注意力头清楚地学会执行不同的任务，许多注意力头似乎表现出与句子的句法和语义结构相关的行为。

5 训练

本节描述了我们模型的训练机制。

5.1 训练数据和批处理

我们在标准的WMT 2014英语-德语数据集上进行训练，该数据集由大约450万句对组成。句子使用字节对编码[3]进行编码，[3]具有大约37000个标记的共享源-目标词汇表。对于英语-法语，我们使用了更大的WMT 2014英语-法语数据集，该数据集由36M个句子组成，并将标记拆分为32000个单词块的词汇[31]。句子对按近似序列长度进行批处理。每个训练批包含一组句子对，其中包含大约25000个源标记和25000个目标标记。

5.2 硬件和Schedule

我们在一台带有8个NVIDIA P100 gpu的机器上训练我们的模型。对于使用本文中描述的超参数的基本模型，每个训练步骤大约需要0.4秒。我们对基本模型进行了总共10万步或12小时的训练。对于我们的大型模型(如表3所示)，步长为1.0秒。大模型训练了30万步(3.5天)。

5.3 优化器

这对应于在第一个warmup_steps训练步骤中线性增加学习率，然后按步数的倒数平方根成比例地降低学习率。我们使用了warmup_steps = 4000。

5.4 正则化

我们在训练中使用三种类型的正则化:

Residual Dropout。我们将dropout[27]应用于每个子层的输出，然后将其添加到子层输入并归一化。此外，我们将dropout应用于编码器和解码器堆栈中的嵌入和位置编码之和。对于基本模型，我们使用dropout的比例为0.1。

Label Smoothing。在训练过程中，我们使用值为0.1[30]的标签平滑。这损害了困惑，因为模型学会了更不确定，但提高了准确性和BLEU分数。

6 结果

6.1 机器翻译

在WMT 2014英-德翻译任务中，Transformer (big)模型(表2中的transformer (big))比之前报道的最佳模型(包括集成)高出2.0 BLEU以上，建立了新的最先进的BLEU分数28.4。该模型的配置列在表3的底线。训练时间为3.5天，使用的是8个P100图形处理器。甚至我们的基本模型也超过了所有以前发表的模型和集合，而训练成本只是任何竞争模型的一小部分。

在WMT 2014英法翻译任务上，我们的大模型获得了41.0的BLEU分数，优于之前发布的所有单一模型，而训练成本不到之前最先进模型的1/4。训练为英语到法语的Transformer(big)模型使用的辍学率Pdrop = 0.1，而不是0.3。

对于基本模型，我们使用通过平均最后5个检查点获得的单个模型，这些检查点每隔10分钟写入一次。对于大型模型，我们取最后20个检查点的平均值。我们使用波束搜索（选取规定字符数内，组合概率最大的），波束大小为4，长度惩罚α = 0.6[31]。这些超参数是在开发集上实验后选择的。我们在推理期间将最大输出长度设置为输入长度+ 50，但在可能的情况下提前终止[31]。

表2总结了我们的结果，并将我们的翻译质量和训练成本与文献中的其他模型架构进行了比较。我们通过将训练时间、使用的GPU数量和每个GPU的持续单精度浮点容量的估计值5相乘来估计用于训练模型的浮点运算次数。

6.2 模型变化

为了评估Transformer不同组件的重要性，我们以不同的方式改变了我们的基本模型，在开发集newstest2013上测量了英语到德语翻译的性能变化。我们使用了前一节中描述的波束搜索，但没有使用检查点平均。我们在表3中展示了这些结果。

在表3行(A)中，我们在保持计算量不变的情况下，改变注意头的数量以及注意键和值维度，如3.2.2节所述。单头注意力比最佳设置差0.9 BLEU，过多的头也会降低质量。

在表3行(B)中，我们观察到减小注意键大小dk会损害模型质量。这表明确定兼容性并不容易，一个比点积更复杂的兼容性函数可能是有益的。我们在(C)和(D)行中进一步观察到，正如预期的那样，更大的模型更好，并且dropout对于避免过度拟合非常有帮助。在(E)行中，我们用学习的位置嵌入[8]替换正弦位置编码，并观察到与基本模型几乎相同的结果。

表3:Transformer体系结构的变体。未列出的值与基本模型的值相同。newstest2013的所有指标都是基于英语到德语的翻译开发集。

7 结论

在这项工作中，我们提出了Transformer，这是第一个完全基于注意的序列转导模型，用多头自注意取代了编码器-解码器架构中最常用的循环层。

对于翻译任务，Transformer的训练速度明显快于基于循环层或卷积层的体系结构。在WMT 2014的英语到德语和WMT 2014的英语到法语翻译任务上，我们都达到了一个新的水平。在前一个任务中，我们的最佳模型甚至优于所有先前报道的集成。我们对基于注意力的模型的未来感到兴奋，并计划将其应用于其他任务。我们计划将Transformer扩展到涉及文本以外的输入和输出模式的问题，并研究局部的、受限的注意力机制，以有效地处理大量的输入和输出，如图像、音频和视频。减少生成的序列是我们的另一个研究目标。

我们用来训练和评估模型的代码可以在https://github.com/ tensorflow/tensor2tensor上找到。

https://github.com/ tensorflow/tensor2tensor

波束搜索：Beam Search-CSDN博客