大模型中的 KV Cache

最新推荐文章于 2025-04-21 12:55:52 发布

多吃轻食

最新推荐文章于 2025-04-21 12:55:52 发布

阅读量1.1k

点赞数 15

文章标签：自然语言处理深度学习神经网络人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46034279/article/details/143462398

版权

是否大家在部署大模型的时候，总会遇到显存不足的问题呢？明明我的设备能存下模型参数啊！凭什么超内存了了呢！？

其实，这是 KV Cache 在作祟

KV Cache 是一种大模型推理加速的方法，该方法通过缓存 Attention 中的 K, V 来实现推理优化

1.背景：大模型推理的冗余计算

观察 Only-Decoder 架构的大模型生成的过程。

假设模型只是一层 Self-Attention，用户输入“中国的首都”，模型续写得到”是北京”。

生成过程如下：

将“中国的首都”输入模型，得到每个 token 的注意力得分(绿色)。使用 “首都” 的注意力表示，预测得到下一个 token 为 ”是”（省略计算 logits 的过程）。
将 “是” 拼接到原来的输入，得到 “中国的首都是” ，将其输入模型，得到注意力表示，使用 “是” 的注意力表示，预测得到下一个 token 是 “北”。
将“北”拼接到原来的输入，依此类推，预测得到“京”，最终得到“中国的首都是北京”

在每一步生成中，仅使用输入序列中的最后一个 token 的注意力表示即可预测出下一个 token。但是模型还是并行计算了所有 token 的注意力表示，其中产生了大量的冗余计算(包含 QKV 映射，attention 计算等)，并且输入长度越长，产生的冗余计算量越大。

例如：

在第一步中，仅需要使用“首都”的注意力表示，即可预测到 “是”，但模型仍然会并行计算出 “中国”、“的” 这两个 token 的注意力表示。
在第二步仅需要“是”就可以预测到“北”，但模型会并行计算之前所有的。

2.KV Cache

在这里插入图片描述

在推理阶段，当输入长度为 n，我们仅需要使用 $b^n$ 就可以预测下一个 token，但模型会并行计算出 $b^1, b^2,…,b^{n-1}$ ，这里产生了大量的冗余计算。

实际上 $b^n$ 可以直接通过公式 $b^n=\sum^n_{i=1}softmax(q^n·k^i)v^i$ 计算得出，即 $b^n$ 只与 $q^n$ 、所有的 $k, v$ 有关。

KV Cache 的本质是空间换时间。他将历史输入的 token 中的 k 和 v 缓存下来，避免每一步生成都重新计算历史 token 的 k 和 v 以及 注意力表示 $b^1, b^2,…,b^{n-1}$ ，而是直接通过 $b^n=\sum^n_{i=1}softmax(q^n·k^i)v^i$ 的方式计算得到 $b^n$ ,然后预测下一个 token。

举例，用户输入“中国的首都”，模型续写得到的输出为“是北京”，KV Cache每一步的计算过程如下。

第一步生成时，缓存 K, V 均为空，输入为 “中国的首都”，模型将按照常规的方法进行并行计算：

并行计算得到每个 token 对应的 k, v，以及注意力表示 $b^1,b^2,b^3$ 。
使用 $b^3$ 预测下一个 token，得到 “是”
更新缓存，令 $K=[k^1,k^2,k^3]$ ， $V=[v^1,v^2,v^3]$

在这里插入图片描述

第二步生成时，计算流程如下：

仅将“是”输入模型，对其词向量进行映射，得到 $q^4,k^4,v^4$
更新缓存，令 $K=[k^1,k^2,k^3,k^4]$ ， $V=[v^1,v^2,v^3,v^4]$
计算 $b^4=\sum^4_{i=1}softmax(q^4·k^i)v^i$ ，预测下一个 token，得到 “京”

在这里插入图片描述

上述过程中，只有第一步生成的时候，模型需要计算所有的 token 的 $k, v$ ，并缓存下来。此后的每一步，仅需要计算当前 token 的 $q, k, v$ ，更新缓存 $K ， V$ ，然后使用 $q, K, V$ 算出当前 token 的注意力表示，预测下一个 token

KV Cache 是以空间换时间，当输入序列非常长的时候，需要缓存非常多 k 和 v，显存占用非常大。

为了缓解该问题，可以使用 MQA、GQA、Page Attention 等技术。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。