Transformer经典论文翻译-Attention Is All You Need

Eden&

于 2024-03-12 23:06:55 发布

阅读量169

点赞数 1

文章标签： transformer 人工智能深度学习

论文作者

Ashish Vaswani∗ Noam Shazeer∗ Niki Parmar∗ Jakob Uszkoreit∗

Llion Jones∗ Aidan N. Gomez∗ † Łukasz Kaiser∗ Illia Polosukhin∗ ‡

∗是指贡献相同，排列顺序随机。Jakob 提议用自注意力机制取代 RNN，并开始对这一想法进行评估。Ashish 和 Illia 一起设计并实现了第一个 Transformer 模型，并在这项工作的各个方面发挥了重要作用。诺姆（Noam）提出了缩放点积注意力、多头注意力和无参数位置表示法，并成为参与几乎所有细节的另一个人。尼基在我们的原始代码库和 tensor2tensor 中设计、实施、调整和评估了无数模型变体。Llion 也尝试了新的模型变体，负责我们的初始代码库以及高效推理和可视化。Lukasz 和 Aidan 花了无数个漫长的日子，设计并实现了 tensor2tensor 的各个部分，取代了我们早期的代码库，极大地改进了结果，并大大加快了我们的研究速度。在 Google Brain 工作期间完成的工作。‡ 在 Google Research 工作期间完成的工作。

摘要

主流的序列转换模型基于复杂的递归或卷积神经网络，其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构--"转换器"（Transformer），它完全基于注意力机制，无需递归和卷积。在两项机器翻译任务上的实验表明，这些模型的质量更优，同时可并行化程度更高，所需的训练时间也大大减少。在 WMT 2014 英德翻译任务中，我们的模型达到了 28.4 BLEU，比包括集合在内的现有最佳结果提高了 2 BLEU 以上。在 WMT 2014 英法翻译任务中，我们的模型在 8 个 GPU 上训练了 3.5 天后，单个模型的 BLEU 得分达到了 41.0 分，是目前最先进的单个模型 BLEU 得分，而这只是文献中最佳模型训练成本的一小部分。

1 引言

递归神经网络，特别是长短期记忆和门控递归神经网络，已被牢固地确立为语言建模和机器翻译等序列建模和转译问题的最先进方法。自此以后，许多人继续努力推动递归语言模型和编码器-解码器架构的发展。

递归模型通常按照输入和输出序列的符号位置进行计算。将位置与计算时间的步长对齐，它们会生成隐藏状态 $h_{t}$ 的序列，作为前一个隐藏状态 $h_{t-1}$ 和位置 t 的输入的函数。这种固有的序列性质排除了训练实例内的并行化，而在序列长度较长时，这一点变得至关重要，因为内存约束限制了跨实例的批处理。最近的研究通过因式分解技巧和条件计算显著提高了计算效率，同时也改善了后者的模型性能。然而，顺序计算的基本限制仍然存在。

在各种任务中，注意机制已成为引人注目的序列建模和转导模型的一个组成部分，它可以对依赖关系进行建模，而不必考虑它们在输入或输出序列中的距离。然而，除了少数情况，这种注意力机制都是与递归网络结合使用的。

在这项工作中，我们提出了Transformer这一模型架构，它摒弃了递归机制，而是完全依赖注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 可大大提高并行化程度，在八台 P100 GPU 上只需短短十二小时的训练，就能将翻译质量提升到新的水平。

2 背景

减少顺序计算的目标也是扩展神经GPU的基础，ByteNet和ConvS2S，都使用卷积神经网络作为基本构建块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，关联来自两个任意输入或输出位置的信号所需的操作数量增加在位置之间的距离，ConvS2S是线性的，ByteNet是对数的。这使得学习距离较远位置之间的依赖关系更加困难。在 Transformer 中，这被减少到恒定数量的操作，尽管由于平均注意力加权位置而导致有效分辨率降低，但是我们用多头注意力来抵消这种影响，如第 3.2 节所述。

自注意力（有时称为内部注意力）是一种将单个序列的不同位置相关联的注意力机制，以便计算序列的表示。自注意力已成功应用于各种任务，包括阅读理解、抽象概括、文本蕴涵和学习任务无关的句子表示。

端到端记忆网络基于循环注意机制而不是序列对齐循环，并且已被证明在简单语言问答和语言建模任务上表现良好。

然而，据我们所知，Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不使用序列对齐 RNN 或卷积的转换模型。在接下来的章节中，我们将描述 Transformer，激发 self-attention 并讨论其相对于 [14, 15] 和 [8] 等模型的优势。

3 模型架构

大多数出色的神经序列转换模型都具有编码器-解码器结构。在这里，编码器将输入的符号表示序列（x1, ..., xn）映射为连续表示序列 z = (z1, ..., zn)。给定 z 后，解码器每次生成一个元素的符号输出序列 (y1, ..., ym)。在每一步中，模型都是自动递归的，在生成下一步时，会消耗之前生成的符号作为额外输入。图 1 的左半部分和右半部分分别显示了编码器和解码器，Transformer 遵循了这一整体架构，使用了堆叠式自注意和点式全连接层。

3.1 编码器和解码器堆栈

编码器：编码器由N=6个相同层的堆栈组成。每一层都有两个子层。第一种是多头自注意机制，第二种是简单的、按位置全连接前馈网络。我们对每两个子层之间采用残差连接，然后层归一化。也就是说，每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x)是子层自身实现的函数。为了促进这些残差连接，模型中的所有子层以及嵌入层产生维度为 $d_{model}$ = 512的输出。

解码器:解码器也由N = 6个相同层的堆栈组成。除了每个编码器层中的两个子层外，解码器插入第三个子层，该子层对编码器堆栈的输出执行多头注意力。与编码器类似，我们在每个子层周围采用残差连接，然后进行层归一化。还修改了解码器堆栈中的self-attention子层，以防止位置关注后续位置。这种掩蔽结合嵌入偏移一个位置的事实，确保对位置i的预测只能依赖于位置小于i的已知输出。

3.2 注意力

注意力函数可以被描述为将一个查询和一组键值对映射到一个输出，其中查询、键、值和输出都是向量。输出是以值的加权和来计算的，其中分配给每个值的权重是通过查询与相应键的兼容函数来计算的。

3.2.1 缩放点积注意力

我们将这种特殊的注意力称为 "缩放点积注意力"（图 2）。输入包括查询、维度为 $d_{k}$ 的键和维度为 $d_{v}$ 的值。我们计算查询与所有密钥的点积，将每个点积除以 $\sqrt{d_{k}}$ ，然后应用softmax函数来获得值的权重。

在实践中，我们同时对一组查询计算注意力函数，这些查询被打包成一个矩阵 Q，键和值也被打包成矩阵 K 和 V：

$\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V$ (1)

最常用的两种注意力函数是加法注意力和点积（乘法）注意力。点积注意力与我们的算法相同，只是缩放因子为 $\frac{1}{\sqrt{d_{k}}}$ 。加法注意力使用单隐层前馈网络计算相容函数。虽然两者的理论复杂度相似，但点积注意力在实际应用中速度更快，空间效率更高，因为它可以使用高度优化的矩阵乘法代码来实现。在 $d_{k}$ 值较小的情况下，这两种机制的表现类似，但在 $d_{k}$ 值较大的情况下，加法注意比点积注意更胜一筹。我们怀疑，对于较大的 $d_{k}$ 值，点积的幅度会越来越大，从而将 softmax 函数推向梯度极小的区域 4。为了消除这种影响，我们将点乘缩放 $\frac{1}{\sqrt{d_{k}}}$ 。

3.2.2 多头注意力

我们发现，与其使用 $d_{model}$ 维度的键、值和查询来执行单一的注意力函数，不如将查询、键和值分别线性投影到 $d_{k}$ 、 $d_{k}$ 和 $d_{v}$ 维度，并将不同的学习过的线性投影进行 h 次投影。然后，我们对每个投影版本的查询、键和值并行执行注意力函数，得到 $d_{v}$ 维的输出值。如图 2 所示，这些值被串联起来并再次投影，从而得到最终值。

多头注意力允许模型在不同位置共同关注来自不同表征子空间的信息。而在单头注意力模式下，平均化会抑制这种情况的发生。

$\begin{aligned}\operatorname{MultiHead}(Q, K, V) & =\operatorname{Concat}\left(\operatorname{head}_{1}, \ldots, \operatorname{head}_{\mathrm{h}}\right) W^{O} \\\text { where head} & =\operatorname{Attention}\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}\right)\end{aligned}$

其中，投影是参数矩阵 $W_{i}^{Q}\in \mathbb{R}^{d_{model}\times d_{k}}$ ， $W_{i}^{K}\in \mathbb{R}^{d_{model}\times d_{k}}$ ， $W_{i}^{V}\in \mathbb{R}^{d_{model}\times d_{v}}$ 和 $W^{O}\in \mathbb{R}^{hd_{v}\times d_{model}}$ 。在这项工作中，我们使用了 h = 8 个并行注意力层，或者说头。我们使用 $d_{k}$ = $d_{v}$ = $d_{model}$ /h=64。由于每个头的维度减少，总计算成本与全维度的单头注意力相似。

3.2.3 注意力在我们模型中的应用

Transformer通过三种不同方式实现多头注意力：

在 "编码器-解码器注意力 "层中，查询来自前一个解码器层，而记忆键和记忆值则来自编码器的输出。这使得解码器中的每个位置都能关注输入序列中的所有位置。这模仿了序列到序列模型中典型的编码器-解码器注意机制，例如 [31, 2, 8]。
编码器包含自注意力层。在自注意力层中，所有的键、值和查询都来自同一个地方，在这种情况下，就是编码器中上一层的输出。编码器中的每个位置都可以关注编码器上一层的所有位置。
同样，解码器中的自注意力层允许解码器中的每个位置关注解码器中直到并包括该位置的所有位置。我们需要防止解码器中的左向信息流以保留自回归属性。我们通过屏蔽（设置为−∞）softmax 输入中与非法连接相对应的所有值来实现缩放点积注意力的内部。参见图 2。

3.3 基于位置的前馈网络

除了注意力子层，编码器和解码器中的每一层都包含一个完全连接的前馈网络，该网络分别且相同地应用于每个位置。这由两个线性变换组成，其间有一个ReLU激活。

$FFN(x)=max(0,xW_{1}+b_{1})W_{2}+b_{2}$

虽然线性变换在不同位置上是相同的，但它们在不同的层之间使用不同的参数。另一种描述方式是将其描述为核大小为1的两个卷积。输入和输出的维度为 $d_{model}$ =512，而内层的维度为

$d_{ff}=2048$ 。

3.4 嵌入层和Softmax

与其他序列转换模型类似，我们使用学习到的嵌入层将输入标记和输出标记转换为维数为 $d_{model}$ 的向量。我们还使用通常的学习线性变换和 softmax 函数将解码器输出转换为预测的下一个标记概率。在我们的模型中，我们在两个嵌入层和pre-softmax线性变换之间共享相同的权重矩阵，这与 [24] 相似。在嵌入层中，我们将这些权重乘以 $\sqrt{d_{model}}$ 。

3.5 位置编码

由于我们的模型不包含递归和卷积，为了让模型能够利用序列的顺序，我们必须注入一些关于序列中标记的相对或绝对位置的信息。为此，我们在编码器和解码器堆栈底部的输入嵌入层中添加了 "位置编码"。位置编码的维度 $d_{model}$ 与嵌入式编码相同，因此两者可以相加。位置编码有多种选择，包括学习编码和固定编码。

在这项工作中，我们使用了不同频率的正弦和余弦函数：

$PE_{(pos,2i)}=sin(pos\div 10000^{2i/d_{model}})$

$PE_{(pos,2i+1)}=cos(pos\div 10000^{2i/d_{model}})$

其中，pos 是位置，i 是维数。也就是说，位置编码的每个维度对应一个正弦波。波长形成一个从 2π 到 10000*2π 的几何级数。我们之所以选择这个函数，是因为我们假设它可以让模型轻松学会按相对位置进行关注，因为对于任何固定的偏移量 k， $PE_{pos+k}$ 都可以表示为 $PE_{pos}$ 的线性函数。

我们还尝试用学习到的位置嵌入来代替，结果发现两个版本产生的结果几乎相同（见表 3 第(E)行）。我们之所以选择正弦波版本，是因为它可以让模型推断出比训练时遇到的序列长度更长的序列。

表1：不同层类型的最大路径长度、每层复杂度和最小顺序操作数。n是序列长度，d是表示维数，k是卷积的核大小，r是限制自注意中邻域的大小。

4 为什么使用自注意力机制

在本节中，我们将自注意力层的各个方面与递归层和卷积层进行比较，这些层通常用于映射一个变长符号表示序列(x1，…， xn)到另一个相等长度的序列(z1，…， zn)， $x_{i},z_{i}\in \mathbb{R}^d$ ，例如典型的序列转导编码器或解码器中的隐藏层。激励我们使用自我注意力我们考虑三个需求。

一个是每层的总计算复杂度。另一个是可并行化的计算量，由所需的最小顺序操作数来衡量。
第三是网络中长程依赖关系之间的路径长度。学习远程依赖关系是许多序列转导任务中的一个关键挑战。影响学习这种依赖关系的能力的一个关键因素是信号在网络中必须遍历的前向和后向路径的长度。输入和输出序列中任何位置组合之间的这些路径越短，就越容易学习长程依赖关系。因此，我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

如表1所示，自注意力层将所有位置与固定数量的顺序执行操作连接起来，而循环层需要O(n)顺序操作。在计算复杂度方面，当序列长度n小于表示维度d时，自注意力层比循环层更快，这是机器翻译中最先进的模型使用的句子表示最常见的情况，如词块和字节对表示。为了提高涉及非常长的序列的任务的计算性能，可以将自注意力限制为只考虑以各自输出位置为中心的输入序列中大小为r的邻域。这将使最大路径长度增加到O(n/r)。我们计划在未来的工作中进一步研究这种方法。核宽度为k<n的单卷积层;N不连接所有的输入和输出位置对。在连续卷积核的情况下，这样做需要O(n/k)的卷积层堆栈，在扩张卷积的情况下需要 $O(log_{k}(n))$ ，增加了网络中任意两个位置之间最长路径的长度。卷积层通常比循环层昂贵k倍。然而，可分离卷积将复杂度大大降低到O(k·n·d + n·d^2)。然而，即使k = n，可分离卷积的复杂性等于自注意力层和逐点前馈层的组合，这是我们在模型中采用的方法。作为附带好处，自注意力可以产生更可解释的模型。我们将检查模型的注意力分布，并在附录中给出和讨论示例。个体注意头不仅清楚地学会了执行不同的任务，而且许多注意头似乎表现出与句子的句法和语义结构相关的行为。

5 训练

本节描述了我们模型的训练机制。

5.1 训练数据和批处理

我们在标准WMT 2014英德数据集上进行了训练，该数据集包含约450万个句子对。句子使用字节对编码进行编码，其共享的源-目标词汇量约为37000个token。对于英语-法语，我们使用了更大的WMT2014英语-法语数据集，该数据集由3600万个句子组成，并将token分割为3.2万个词块词汇。句子对按近似序列长度进行批处理;每个训练批次包含一组句子对，其中大约包含25000个源标记和25000个目标标记。

5.2 硬件和时间表

我们在一台配备8个NVIDIA P100图形处理器的机器上训练了我们的模型。对于使用本文中描述的超参数的基本模型，每个训练步骤大约需要0.4秒。我们对基础模型进行了总共100,000步或12小时的培训。对于我们的大型模型(如表3的底线所示)，步长为1.0秒。这些大模型接受了300,000步(3.5天)的训练。

5.3 优化器

我们使用Adam优化器，β1 = 0.9， β2 = 0.98， $\epsilon =10^{-9}$ 。在训练过程中，我们根据下面的公式改变学习率:

$lrate=d_{model}^{-0.5}\cdot min(step_num^{-0.5},stem_num\cdot warmup_steps^{-1.5})$

这对应于在第一个warmup_steps训练步骤中线性增加学习率，然后与步骤数的反平方根成比例地减少学习率。我们使用了warmup_steps = 4000。

5.4 正则化

在训练过程中，我们使用了三种类型的正则化。

残差Dropout 我们将Dropout应用于每个子层的输出，然后将其添加到子层输入并归一化。此外，我们将dropout应用于编码器和解码器堆栈中的嵌入和位置编码的总和。对于基础模型，我们使用 $P_{drop}=0.1$ 的比率。

标签平滑 在训练过程中，我们使用值 $\epsilon _{ls}=0.1$ 的标签平滑。这造成了困惑，因为模型学会了更不确定，但提高了准确性和BLEU分数。

表2:Transformer在英语-德语和英语-法语newstest2014测试中取得了比之前最先进的模型更好的BLEU分数，而训练成本只有很小的一部分。

6 结果

6.1 机器翻译

在WMT 2014英德翻译任务中，big transformer模型(表2中的transformer (big))比之前报告的最好模型(包括集成)的性能提高了2.0个BLEU以上，达到了28.4的BLEU分数。该模型的配置列在表3的底线中。在8个P100 gpu上训练耗时3.5天。即使我们的基础模型也超过了所有之前发布的模型和集成，而训练成本只是任何竞争模型的一小部分。

在WMT 2014英语到法语翻译任务中，我们的大模型达到了41.0的BLEU分数，超过了之前发表的所有单个模型，而训练成本不到之前最先进模型的1/4。针对英语-法语训练的Transformer(大)模型的辍学率 $P_{drop}=0.1$ ，而不是0.3。

对于基础模型，我们使用一个通过平均最后5个检查点得到的单一模型，这些检查点每10分钟写一次。对于大型模型，我们对最后20个检查点取平均值。我们使用波束搜索，波束大小为4，长度惩罚α = 0.6。这些超参数是在开发集上进行实验后选择的。我们将推理期间的最大输出长度设置为输入长度+ 50，但在可能的情况下提前终止。表2总结了我们的结果，并将我们的翻译质量和培训成本与文献中的其他模型架构进行了比较。我们通过将训练时间、使用的GPU数量和每个GPU的持续单精度浮点容量的估计相乘来估计用于训练模型的浮点操作数量。

6.2 模型的变化

为了评估Transformer不同组件的重要性，我们以不同的方式改变了基础模型，在开发集newstest2013上测量了英德翻译性能的变化。我们使用前一节中描述的波束搜索，但没有平均检查点。我们将这些结果展示在表3中。

在表3 (A)行中，我们改变attention头的数量以及attention键和值维度，保持计算量不变，如3.2.2节所述。虽然single-head - attention比最好的设置差0.9 BLEU，但过多的head也会导致质量下降。

表3:Transformer架构的变体。未列出的值与basemodel中的值相同。所有指标都在英语-德语翻译开发集newstest2013上。根据我们的字节对编码，列出的困惑度是每个单词的，不应该与单词的困惑度进行比较。

在表3的(B)行中，我们观察到减少注意力密钥大小 $d_{k}$ 会损害模型质量。这表明确定兼容性并不容易，一个比点积更复杂的兼容性函数可能是有益的。我们在(C)和(D)行中进一步观察到，正如预期的那样，模型越大越好，dropout在避免过拟合方面非常有用。在行(E)中，我们将正弦位置编码替换为学习到的位置嵌入[8]，并观察到与基本模型几乎相同的结果。

7 结论

本文提出Transformer，第一个完全基于注意力的序列转导模型，用多头自注意力取代了编码器-解码器架构中最常用的循环层。

对于翻译任务，Transformer的训练速度比基于循环或卷积层的架构快得多。在WMT 2014英语到德语和WMT 2014英语到法语的翻译任务中，我们达到了一个新的水平。在前一个任务中，我们最好的模型甚至超过了所有之前报告的集成。

我们对基于注意力的模型的未来感到兴奋，并计划将它们应用于其他任务。我们计划将Transformer扩展到涉及文本以外的输入和输出模态的问题，并研究局部的、受限的注意力机制，以有效处理大量输入和输出，如图像、音频和视频。我们的另一个研究目标是减少生成的顺序性。

我们用于训练和评估模型的代码可以在https://github.com/tensorflow/tensor2tensor上找到。

致谢

我们感谢Nal Kalchbrenner和Stephan Gouws卓有成效的评论、更正和启发。

参考文献

[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. arXiv preprint
arXiv:1607.06450, 2016.
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly
learning to align and translate. CoRR, abs/1409.0473, 2014.
[3] Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive exploration of neural
machine translation architectures. CoRR, abs/1703.03906, 2017.
[4] Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine
reading. arXiv preprint arXiv:1601.06733, 2016.
[5] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk,
and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical
machine translation. CoRR, abs/1406.1078, 2014.
[6] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv
preprint arXiv:1610.02357, 2016.
[7] Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation
of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.
[8] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolu-
tional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.
[9] Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint
arXiv:1308.0850, 2013.
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for im-
age recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 770–778, 2016.
[11] Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in
recurrent nets: the difficulty of learning long-term dependencies, 2001.
[12] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation,
9(8):1735–1780, 1997.
[13] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring
the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.
[14] Łukasz Kaiser and Ilya Sutskever. Neural GPUs learn algorithms. In International Conference
on Learning Representations (ICLR), 2016.
[15] Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Ko-
ray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2,
2017.
[16] Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks.
In International Conference on Learning Representations, 2017.
[17] Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
[18] Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint
arXiv:1703.10722, 2017.
[19] Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen
Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint
arXiv:1703.03130, 2017.
[20] Samy Bengio Łukasz Kaiser. Can active memory replace attention? In Advances in Neural
Information Processing Systems, (NIPS), 2016.
10
[21] Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-
based neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
[22] Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention
model. In Empirical Methods in Natural Language Processing, 2016.
[23] Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive
summarization. arXiv preprint arXiv:1705.04304, 2017.
[24] Ofir Press and Lior Wolf. Using the output embedding to improve language models. arXiv
preprint arXiv:1608.05859, 2016.
[25] Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words
with subword units. arXiv preprint arXiv:1508.07909, 2015.
[26] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton,
and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts
layer. arXiv preprint arXiv:1701.06538, 2017.
[27] Nitish Srivastava, Geoffrey E Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdi-
nov. Dropout: a simple way to prevent neural networks from overfitting. Journal ofMachine
Learning Research, 15(1):1929–1958, 2014.
[28] Sainbayar Sukhbaatar, arthur szlam, Jason Weston, and Rob Fergus. End-to-end memory
networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors,
Advances in Neural Information Processing Systems 28, pages 2440–2448. Curran Associates,
Inc., 2015.
[29] Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural
networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014.
[30] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and ZbigniewWojna.
Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.
[31] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang
Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine
translation system: Bridging the gap between human and machine translation. arXiv preprint
arXiv:1609.08144, 2016.
[32] Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, and Wei Xu. Deep recurrent models with
fast-forward connections for neural machine translation. CoRR, abs/1606.04199, 2016.

Eden&

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer经典论文翻译-Attention Is All You Need

主流的序列转换模型基于复杂的递归或卷积神经网络，其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构--"转换器"（Transformer），它完全基于注意力机制，无需递归和卷积。在两项机器翻译任务上的实验表明，这些模型的质量更优，同时可并行化程度更高，所需的训练时间也大大减少。在 WMT 2014 英德翻译任务中，我们的模型达到了 28.4 BLEU，比包括集合在内的现有最佳结果提高了 2 BLEU 以上。
复制链接

扫一扫