神经序列转换领域随着Transformer架构的引入而发生了革命性变化。Transformer代表了与以往基于复杂的循环或卷积神经网络架构的最先进方法的一个里程碑式的决裂。通过完全依赖一种创新的自注意力机制,Transformer在取得新的性能基准的同时,也获得了关键的优势。
序列转换背景
将可变长度的输入序列映射到可变长度的输出序列,是机器翻译、语音识别和语言建模等多个机器学习领域的一个核心问题。循环神经网络(RNN)和卷积模型一直是主导架构,它们通过对符号进行顺序计算并将位置信息编码到固定长度的向量表示中。
然而,RNN天生是顺序的,不易并行化,而卷积需要堆叠多层才能覆盖长距离依赖关系。这些架构在学习数据中的长程依赖关系时会遇到困难。
自注意力的突破
Transformer完全用自注意力机制取代了循环和卷积,这种机制能在任意两个输入/输出位置之间建立直接连接。它的核心是一个自注意力层,可以计算所有输入对之间的注意力权重,从而直接对它们之间的关系建模。
这个自注意力层与逐点前馈网络相结合,通过编码器-解码器架构同时应用于输入和输出序列。此外,多头注意力使模型能够通过独立的注意力分布并行关注序列的多个方面。
Transformer架构
Transformer的编码器由6层相同的多头自注意力层和前馈网络组成,作用于输入序列。解码器采用类似的架构,另外还包括对编码器输出序列的多头注意力机制。
位置编码被注入到序列中以提供顺序信息,而不是依赖循环或卷积。整个模型使用标准反向传播进行端到端训练。
关键优势
- 并行化:没有顺序操作,Transformer可以完全并行训练。
- 路径长度:自注意力以固定数量的操作连接位置,更容易建模长程依赖关系。
- 可解释性:注意力可视化提供了对模型决策的解释。
- 简单性:去除循环/卷积使整体架构更简单。
破纪录的性能
Transformer在两个神经机器翻译基准测试中展现出了最先进的性能:
- 英语到德语:28.4 BLEU分数,比之前最佳的集成系统提高了2分以上
- 英语到法语:在仅训练3.5天后,单模型就达到了41.8的新BLEU分数记录
尽管取得了这些令人印象深刻的结果,但Transformer所需的训练时间比以前的计算密集型模型(如深度RNN和基于卷积的架构)要少得多。
未来之路
Transformer依赖自注意力机制的简洁方式,已经吸引了研究人员和从业者的浓厚兴趣。注意力机制被证明是一种学习序列中错综复杂关系的非常有效的归纳偏差。
未来的研究可能会探索增强和扩展自注意力机制,发掘其强大的更多理论基础,并将其应用于序列转换之外的领域。Transformer的计算效率和性能也为基于规模定律的进一步质量提升开辟了可能。
通过彻底摒弃了序列转换领域百年基础的做法,Transformer开创了注意力架构的新时代,在未来几年内可能会"改变"机器学习的整个领域。