引言
今天带来苏神的旋转位置编码论文,ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING,论文题目翻译过来是基于旋转位置嵌入增强的Transformer:RoFormer。旋转位置编码被很多大模型架构采用。
位置编码对Transformer架构是至关重要的。它为不同位置的序列元素之间的依赖建模提供了有价值的监督。本文作者提出了一种名为Rotary Position Embedding(RoPE,旋转位置编码)的新方法,可以有效地利用位置信息。
具体而言,RoPE通过旋转矩阵编码绝对位置,并在自注意力机制中同时引入显式的相对位置依赖。值得注意的是,RoPE具有一些有价值的特性,包括序列长度的灵活性、相对距离增加时的递减的元素间依赖性以及为线性自注意力提供相对位置编码的能力。
RoFormer已经集成到Huggingface中:https://huggingface.co/docs/transformers/model_doc/roformer。
笔记比较长,因此分为上下两部分。
总体介绍
单词的顺序对于自然语言理解非常重要。最近,基于Transformer架构的预训练语言模型(PLM)在多种NLP任务上取得了SOTA结果。PLM利用自注意力机制捕获给定语料的上下文表示语义,同时在