SwiftKV：让大模型推理更快、吞吐量更大！_swiftkv: fast prefill-optimized inference with kno-CSDN博客

本文链接：https://blog.csdn.net/zengxiaojian2/article/details/145330943

SwiftKV：让大模型推理更快、吞吐量更大！

原创格知致能寒武纪人工智能 2025年01月21日 07:20 北京

最近，有关模型性能优化方面又有新的成果方法了。研究公司Snowflake公布了一款名为“SwiftKV”的AI模型调校技术，并源三款利用“SwiftKV”技术进行调校的 Llama 3.1模型。笔者连夜阅读了论文，发现这项技术创新的角度比较有意思，是针对提示词处理的，值得一读。

性能瓶颈：提示词太长

大语言模型 (LLM) 正在迅速成为企业应用程序和产品、检索增强生成 (RAG)、摘要和自主工作流程的核心。但推理的成本和速度决定了它们的实用性。因此，提高 LLM 推理的聚合吞吐量和降低延迟已成为一个越来越重要的关注点，各种努力从多个角度解决了这个问题。

论文作者发现，通常情况下，提示词的长度远大于生成内容的长度，平均约为生成内容的10倍（的确如此，大多数开发者都是把文档一股脑全都丢给大模型）。这种特性导致预填充（prefill）阶段的计算开销巨大，增加了响应延迟和推理成本。为适应这种大模型输入文本远大于输出本文的应用场景，作者提出了SwiftKV。

SwiftKV 是什么？

SwiftKV 是一种新型的模型优化技术，专为提高大模型在企业场景中的推理效率而设计。它的核心思想非常简单：

在处理输入时，跳过不必要的计算，并减少内存占用，直接利用较早层的输出来填充后续层的缓存。SwiftKV 还通过合并相邻层的缓存来减少内存占用。这意味着，原本需要为每一层单独分配的内存现在可以共享，从而支持更大的批量处理，进一步提高了推理效率。

SwiftKV 的厉害之处在于，它能够在几乎不影响模型性能的前提下，显著降低推理成本和延迟。

SwiftKV 技术原理

3.1 主要思路和方法：

SingleInputKV：减少预填充计算

核心思想：在 Transformer 模型中，较深层的隐藏状态（hidden states）变化较小，因此可以利用较早层的输出来为后续层填充 KV 缓存，从而跳过后续层的计算。

实现方式：通过重写模型架构，使得从某一层（例如第 L/2 层）开始，后续所有层的 KV 缓存直接由该层的输出计算得到，而无需逐层计算。

效果：减少了约 50% 的预填充计算量，同时保持了较高的生成质量。

AcrossKV：减少 KV 缓存内存占用

核心思想：将相邻层的 KV 缓存合并为一个共享缓存，从而减少内存占用。