华为：SepLLM架构高效压缩段落信息-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144664138

在这里插入图片描述

📖标题：SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
🌐来源：arXiv, 2412.12094

🌟摘要

🔸大型语言模型（LLM）在一系列自然语言处理任务中表现出了卓越的性能。然而，由于其二次复杂性，它们的巨大尺寸带来了相当大的挑战，特别是在计算需求和推理速度方面。
🔸在这项工作中，我们发现了一个关键模式：与语义上有意义的标记相比，某些看似无意义的特殊标记（即分隔符）对注意力得分的贡献不成比例。这一观察表明，这些分隔符令牌之间的段的信息可以有效地压缩到分隔符令牌本身中，而不会丢失大量信息。在这一见解的指导下，我们介绍了SepLLM，这是一个即插即用的框架，通过压缩这些段并消除冗余令牌来加速推理。此外，我们实现了高效的内核来加速训练。
🔸在无训练、从头开始训练和训练后设置中的实验结果证明了SepLLM的有效性。值得注意的是，使用Llama-3-8B骨干网，SepLLM在GSM8K CoT基准上实现了KV缓存减少50%以上，同时保持了相当的性能。此外，在流媒体环境中，SepLLM有效地处理了多达400万个或更多令牌的序列，同时保持了一致的语言建模能力。项目地址为sepllm.github.io

🛎️文章简介

🔸研究问题：大语言模型（LLM）在处理长文本时存在计算和存储效率问题。
🔸主要贡献：论文提出了一种名为SepLLM的高效Transformer架构，通过数据依赖的稀疏注意机制，聚焦于初始标记、邻近标记和分隔符标记，显著提高了模型长文本的性能和效率。

🧲相关工作

🔸KV缓存压缩：包括SnapKV利用注意力分数来选择和聚类重要位置，H2O实施动态令牌保留策略平衡历史信息等。
🔸稀疏注意力：通过限制对预定义模式的注意力来创建稀疏注意力矩阵，例如局部窗口或固定步幅块模式，如BigBird和SparseBERT等。

📝重点思路

🔸稀疏注意力机制：SepLLM通过在自注意力层中仅允许当前标记查看前一层输出的部分隐藏状态（包括初始标记、分隔符标记和最近的n个标记），从而减少计算量。
🔸训练与预填充阶段：将整体流程分为训练/预填充阶段和生成阶段，确保模型在生成新标记时只依赖于关键的标记信息。
🔸实验验证：通过在多个任务和数据集上进行训练-从零开始、训练后和无训练的实验，验证SepLLM的有效性。
🔸硬件加速：实现硬件高效的核函数，进一步加速推理过程。

🔎分析总结

🔸分隔符标记的重要性：保留分隔符的KV信息显著提高了模型在数学推理和跨学科知识推理任务上的表现，表明分隔符令牌包含关键的信息。
🔸训练实验：在训练中，初始令牌和分隔符令牌对模型理解和推理能力至关重要，去除这些令牌会导致性能下降。
🔸混合层架构的益处：采用混合层架构能够有效降低训练损失，并在下游任务中提升性能。
🔸信息压缩能力：SepLLM在与传统全注意力模型比较时，使用的KV数量显著减少，但性能表现却相当或更好，显示了其高效的信息压缩能力。