📖标题:RAZORATTENTION: EFFICIENT KV CACHE COMPRESSIONTHROUGH RETRIEVAL HEADS
🌐来源:arXiv, 2407.15891
🛎️文章简介
🔸研究问题:随着输入长度的增加,大语言模型(LLM)中的键值(KV)缓存成为部署长上下文模型的主要瓶颈。
🔸主要贡献:论文提出了RazorAttention算法,将KV缓存减少了70%以上,并且对性能没有明显影响。
📝重点思路
🔺相关工作
🔸量化:是一种经典而有效的神经网络压缩方法,包括FlexGen、Atom和QServe等方案。
🔸令牌丢弃:假设并非所有键值对在自注意力计算中都是必需的,因此可以通过识别和删除不重要的KV来节省内存使用。
🔸非MHA注意力:侧重于通过在注意力头之间共享缓存来减少KV缓存,包括MQA、GQA和MLA等方案。
🔺论文方案
🔸受到注意力头功能启发,首先识别检索头,包含“回声头”和“归纳头”两种影响长上下文的注意力头。