Attention Is All You Need 注意力机制的文章
论文原文 Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017. https://arxiv.org/abs/1706.03762
最新的三维视觉研究中引入了Attention(注意力机制),学习原文可能会有更多的收获
目前主流的序列转导模型主要应用cnn或rnn,性能最好的模型还通过注意力机制连接编码器和解码器。作者提出了一种新的简单网络架构,即 Transformer,它完全基于注意力机制,完全消除了递归和卷积(即RNN与CNN)。 这个模型在翻译上取得了很好的效果。
绝大多数神经序列转导模型都具有编码器-解码器结构,编码器将符号表示的输入序列 (x1; :::; xn) 映射到连续表示的序列 z = (z1; :::; zn)。 给定 z,解码器然后生成一个符号的输出序列 (y1; :::; ym),一次一个元素。 在每一步,模型都是自回归的 [10],在生成下一个时,将先前生成的符号作为额外的输入使用。
Transformer 遵循这种整体架构,使用堆叠的自注意力和逐点、完全连接的编码器和解码器层,分别如图 1 的左半部分和右半部分所示