[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)

本文介绍了RoFORMER,一种基于旋转位置嵌入的Transformer模型,强调了位置编码在Transformer架构中的重要性。RoPE通过旋转矩阵编码绝对位置,同时引入相对位置依赖,具备序列长度灵活性和递减的元素间依赖性。作者分析了现有位置编码方法的局限性,并提出RoPE的优势,已在多个长文本基准数据集上取得优秀表现。
摘要由CSDN通过智能技术生成

引言

今天带来苏神的旋转位置编码论文,ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING,论文题目翻译过来是基于旋转位置嵌入增强的Transformer:RoFormer。旋转位置编码被很多大模型架构采用。

位置编码对Transformer架构是至关重要的。它为不同位置的序列元素之间的依赖建模提供了有价值的监督。本文作者提出了一种名为Rotary Position Embedding(RoPE,旋转位置编码)的新方法,可以有效地利用位置信息。

具体而言,RoPE通过旋转矩阵编码绝对位置,并在自注意力机制中同时引入显式的相对位置依赖。值得注意的是,RoPE具有一些有价值的特性,包括序列长度的灵活性、相对距离增加时的递减的元素间依赖性以及为线性自注意力提供相对位置编码的能力。

RoFormer已经集成到Huggingface中:https://huggingface.co/docs/transformers/model_doc/roformer。

笔记比较长,因此分为上下两部分。

总体介绍

单词的顺序对于自然语言理解非常重要。最近,基于Transformer架构的预训练语言模型(PLM)在多种NLP任务上取得了SOTA结果。PLM利用自注意力机制捕获给定语料的上下文表示语义,同时在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

愤怒的可乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值