LoongServe 论文解读:prefill/decode 分离、弹性并行、零 KV Cache 迁移
LoongServe: Efficiently Serving Long-context Large Language Models with Elastic Sequence Parallelism
论文提出了一种支持弹性分配的推理框架,通过引入弹性序列并行(Elastic Sequence Parallelism,简称 ESP)机制,动态地将 request 的 prefill 和 decode 阶段分配到 instance group 上。每个 group 可以根据负载的需求变化动态地 scale up 或者 scale down,并且没有 KV Cache 的迁移开销。

问题背景
Transformer LLM 推理过程分为两个阶段:prefill 和 decode。
- prefill 阶段:将用户输入的 prompts 生成 q、k、v,存入 KV Cache(为 decode 阶段缓存)。这一步计算并行好,是计算密集型 compute bound
- decode 阶段:由最新产生的 tokens 生成 q、k、v,计算它与之前所有 tokens 的 attention,这一步需要从 KV Cache 中读取前面所有 token 的 key、value,因此是内存密集型 memory bound。

最低0.47元/天 解锁文章
173

被折叠的 条评论
为什么被折叠?



