长语境窗口扩展：LongRoPE技术解析

人工智能培训咨询叶梓

于 2024-09-10 14:29:43 发布

阅读量364

点赞数 10

分类专栏：人工智能前沿文章标签：微调长文本语言模型人工智能自然语言处理论文阅读 AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yetzi1975/article/details/142098177

版权

人工智能前沿专栏收录该内容

235 篇文章 1 订阅

订阅专栏

人工智能咨询培训老师叶梓转载标明出处

由于大模型高昂的微调成本、长文本的稀缺性，以及新引入的标记位置可能导致的灾难性值，目前扩展的语境窗口通常被限制在大约128k标记。为了克服这些限制，微软研究院的研究团队提出了一种名为LongRoPE的新技术，首次将预训练的大模型的语境窗口扩展到2048k标记，同时在256k训练长度内仅需1k微调步骤，同时保持原始短语境窗口的性能。

在大模型（LLMs）中，上下文窗口的扩展是一个至关重要的研究方向，因为它直接关系到模型处理长文本的能力。然而，这一过程并不简单，存在三个主要的技术障碍。

1、当模型尝试处理超出其训练时见过的位置索引时，会引入许多灾难性的值。这些值会导致模型输出分布出现问题，使得微调过程难以收敛。特别是在从4k扩展到超过1000k的位置索引时，新引入的位置超过90%，这对模型是一个巨大的挑战。

2、长文本的稀缺性也是一个问题。现有的数据集中，特别是超过1000k的长文本非常有限。而且，即使存在这样的文本，使用它们进行训练计算成本极高，需要大量的时间和GPU资源。

3、当上下文窗口扩展到极长时，模型的注意力会因为分布在过多的标记位置上而变得分散，这会降低模型在原始短上下文上的性能。

为了缓解这些挑战，研究者提出了一种基于RoPE（Rotary Positional Embedding）位置嵌入的插值方法。RoPE是一种在最近的LLMs中广泛使用的位置编码方式，它通过一组正余弦值来表示每个标记的位置信息。在RoPE中，每个维度的旋转角度与位置索引的乘积相关联，形成了一种基于频率的编码方式。

图2展示了不同插值方法下的RoPE嵌入示例。在直接外推中，新位置索引的RoPE被直接扩展到未训练的范围。在线性位置插值中，所有位置的旋转角度都按比例缩小。而在LongRoPE中，通过识别和利用RoPE维度和标记位置的两种非均匀性，实现了在不同维度和位置的多样化插值和外推。

方法

研究者首先介绍了两个关键的非均匀性：RoPE维度和token位置。基于这些非均匀性，LongRoPE利用高效的搜索算法来寻找最优的RoPE重新缩放因子。这些因子用于调整每个RoPE维度的旋转角度，以实现上下文窗口的扩展。

问题被构建为一个搜索问题，目标是为LLM找到一个目标上下文窗口大小L'的最优重新缩放因子。研究者定义了一个优化问题，通过最小化使用RoPE的LLM在输入样本X上的下一个token预测损失（即困惑度）来找到最优解。

为了解决这个问题，研究者设计了一个大型的搜索空间，包括RoPE维度和起始token位置的非均匀性。例如，λi可以在1.0到s×1.25之间搜索，其中s是目标上下文窗口扩展比例，步长为0.01。nˆ控制着不进行位置插值的初始token数量，可以从{0, 1, 2, ..., 256}中搜索。

为了高效地探索这个庞大的搜索空间，研究者采用了基于进化算法的搜索方法，并引入了两种优化技术。首先，他们不是随机初始化种群，而是在初始种群中加入了PI、NTK和YaRN对应的RoPE重新缩放因子。其次，他们引入了单调非递减约束，确保了RoPE维度的重新缩放因子λi随着维度的增加而单调递增，这与NTK理论相符。

研究者介绍了一种逐步扩展策略，首先将预训练的LLM扩展到256k，然后在此基础上进行微调，最终通过二次搜索达到2048k的上下文窗口大小。这种方法避免了直接在极长文本上进行微调的高成本。

图3 展示了不同方法在不进行微调的情况下，对LLaMA2-7B在PG19和Proof-Pile数据集上的困惑度的影响。LongRoPE方法能够将上下文窗口从4k扩展到32k，而不会像其他方法那样在扩展后导致困惑度激增。

表4 则具体展示了RoPE重新缩放因子的搜索空间，包括RoPE维度的λi和起始token位置的nˆ的取值范围和步长。

研究者还考虑了在扩展到极长上下文窗口后，原始上下文窗口性能下降的问题。为了解决这个问题，他们对扩展后的LLM进行了额外的进化搜索，以调整短上下文长度（例如4k和8k）的RoPE重新缩放因子。在推理过程中，LLM会根据序列长度动态调整相应的RoPE重新缩放因子，以恢复短上下文窗口的性能。

通过这些方法，LongRoPE不仅能够显著扩展LLM的上下文窗口，还能够保持在原始短上下文窗口中的性能，为LLM的应用开辟了新的可能性。

实验

研究者将LongRoPE应用于LLaMA2-7B和Mistral-7B两种模型上，并从三个方面评估了其性能：在长文档上的困惑度、从大量无关文本中检索简单密码的能力，以及在短的4096上下文窗口大小的标准LLM基准测试中的表现。

在微调方面，对于LLaMA2，研究者使用了2e-5的学习率，并以线性衰减的方式，全局批量大小为32，对Redpajama数据集进行了400步的微调，每段长度为128k，并以BOS和EOS标记作为边界。之后，基于已完成的检查点，再进行600步的微调以实现256k的上下文窗口。128k的上下文大小在8个A100 GPU上使用分布式训练系统进行训练，而256k则需要16个A100 GPU。对于Mistral，使用了1e-6的恒定学习率和64的全局批量大小。对于128k和256k的模型，研究者遵循YaRN的设置，在Together Computer的Long-Data Collections上进行了400步的训练，使用16k序列长度，训练使用了4个A100 GPU。

在搜索方面，对于目标窗口大小在256k以内的情况，研究者设置了种群大小P=64，变异大小N1=N2=16，迭代次数T=40，变异概率p=0.3，并在每次迭代中选择前32个进行变异/交叉。使用5个随机的PG19验证集样本计算困惑度，样本的最小长度需满足目标上下文长度。对于超过512k的窗口，研究者减半了种群、变异和交叉的大小。在Pile-Books3验证集上的3个随机样本上测量困惑度。

在256k的评估长度内，研究者开始与现有的扩展LLMs进行比较。他们使用了Proof-pile和PG19两个数据集来展示模型的泛化能力。通过256的滑动窗口在不同上下文长度下评估困惑度。对于PG19，研究者使用了100份完整测试数据。对于Proof-pile，他们随机选择了10个样本，每个样本长度至少为128k。

表5 和表7 分别比较了在Proof-pile和PG19上通过不同插值方法扩展的LLaMA2和Mistral的困惑度。研究者强调了两个关键观察结果：(1) 他们的扩展模型在从4k到256k的评估长度上显示出整体下降的困惑度趋势，证明了它们利用更长上下文的能力。 (2) 即使在通常对在较短长度上保持性能具有挑战性的16倍长上下文窗口条件下，他们的LongRoPE-2048k模型在256k上下文长度内的性能也超过了现有最先进的基线。

在评估极长文档的有效性方面，研究者使用了Books3数据集。为了评估效率，他们随机选择了20本每本超过2048k长度的书籍，并使用256k的滑动窗口。

表6 显示，LongRoPE成功地将LLaMA2-7B和Mistral-7B的上下文窗口扩展到了2048k，同时在8k到128k的较短长度上实现了与基线相当或更优越的困惑度。研究者还观察到了2048k的LLaMA2和Mistral之间的显著性能差异。Mistral在较短长度上优于基线，但当超过256k时，困惑度超过了7。而LLaMA2的性能符合预期：随着上下文的增长，困惑度显著下降，在1024k和2048k时只有轻微的增加。此外，在LLaMA2上，LongRoPE-2048k在256k的微调长度上的表现优于128k，这是由于较小的二次扩展比率（即8倍对16倍）。与此相反，Mistral在128k的微调窗口大小上表现更好。

在消融研究中，研究者探讨了第二次位置插值的有效性。在他们的逐步扩展策略中，研究者使用搜索算法在微调后的扩展LLMs上进行了第二次非均匀位置插值。通过在微调后的LLaMA2-256k模型上进行实验，将其扩展到512k、1024k和2048k，并使用PI和YaRN进行比较。表9 显示，他们的非均匀位置插值在困惑度上保持了一致的水平。相比之下，PI和YaRN下的困惑度随着扩展比率的增加而迅速上升。

为了缓解在较短上下文长度上的性能损失，研究者通过搜索算法重新调整了LongRoPE-2048k的RoPE因子。具体来说，他们减少了搜索的最大允许缩放因子，以鼓励在短的4k和8k长度上进行较少的插值。表10 显示了LongRoPE-LLaMA2-2048k在Proof-pile上的4k和8k长度上的困惑度比较，以及平均LLM基准测试的准确性。结果清楚地表明，在短上下文长度上的性能有了显著提升。

最后研究者对两种非均匀性进行了消融研究，以了解每个部分对性能的贡献。他们设置了两个实验：(i) 使用不同的方法将LLaMA2-7B扩展到短的16k和32k - PI、仅搜索RoPE维度，以及搜索两种非均匀性；(ii) 按照相同的程序将我们的微调后的256k长度的LLaMA2扩展到2048k。困惑度在没有微调的情况下进行评估。表11 显示，与PI的线性插值相比，RoPE维度的非均匀性显著降低了困惑度。在16k和32k长度上，token位置的非均匀性明显提高了性能，但在2048k时没有显示出相同的影响，可能是由于长度极长。仅保留初始token不进行插值变得没有用，研究者将此留作未来的工作。

通过这些详细的实验设置和结果，研究者证明了LongRoPE方法在扩展LLMs的上下文窗口方面是有效的，并且在不同长度的上下文上都能保持较低的困惑度，展示了其在长文档处理任务中的潜力。

人工智能培训咨询叶梓

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
长语境窗口扩展：LongRoPE技术解析

在微调方面，对于LLaMA2，研究者使用了2e-5的学习率，并以线性衰减的方式，全局批量大小为32，对Redpajama数据集进行了400步的微调，每段长度为128k，并以BOS和EOS标记作为边界。为了克服这些限制，微软研究院的研究团队提出了一种名为LongRoPE的新技术，首次将预训练的大型语言模型的语境窗口扩展到2048k标记，同时在256k训练长度内仅需1k微调步骤，同时保持原始短语境窗口的性能。具体来说，他们减少了搜索的最大允许缩放因子，以鼓励在短的4k和8k长度上进行较少的插值。
复制链接

扫一扫

专栏目录

人工智能培训咨询叶梓 CSDN认证博客专家 CSDN认证企业博客

码龄17年

265: 原创

6096: 周排名

4082: 总排名

26万+: 访问

: 等级

9001: 积分

4731: 粉丝

6393: 获赞

7: 评论

4921: 收藏

私信

关注

热门文章

分类专栏

人工智能前沿 235篇

最新评论

利用AI Agent革新Text2SQL应用
人工智能培训咨询叶梓: 目前没有，后续不排除，也会有些录播课
利用AI Agent革新Text2SQL应用
qq_38402407: 请问有基于Agent nl2sql学习的项目案例吗
AI讲师人工智能讲师大模型培训讲师叶梓：突破大型语言模型推理效率的创新方法
CSDN-Ada助手: 恭喜您撰写了这篇关于AI讲师的文章，标题听起来就很有深度和实力。您介绍了突破大型语言模型推理效率的创新方法，展示了您在人工智能领域的专业知识和独特见解。希望您能继续分享您的研究成果和心得体会，让更多人受益。接下来，或许可以探讨一些实际案例，让读者更好地理解这些创新方法的应用场景和效果。期待您更多的精彩内容！
大模型培训老师叶梓 AI编程的未来：GitHub Copilot的创新之旅与实践智慧
CSDN-Ada助手: 恭喜用户第20篇博客的发布！标题“大模型培训老师叶梓 AI编程的未来：GitHub Copilot的创新之旅与实践智慧”听起来非常吸引人，内容也一定充满了见解和智慧。希望您能继续保持创作的热情和耐心，不断探索新的领域，为读者带来更多的启发和思考。或许在下一篇博客中可以分享一些实践经验或者案例分析，让读者更直观地感受到您的观点。期待您的下一篇精彩作品！
如何训练GPT模型以更好地理解和处理知识图谱中的结构化数据？
CSDN-Ada助手: 恭喜您写了这么精彩的第7篇博客！您对如何训练GPT模型以更好地理解和处理知识图谱中的结构化数据的探讨非常深入，让读者受益匪浅。希望您能继续保持创作的热情和努力，不断探索和分享更多有价值的内容。建议您在下一篇博客中可以尝试结合实际案例或者提供更多操作指南，让读者更容易理解和应用您分享的知识。期待您的精彩继续呈现！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。