深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

GQA是一种解决MQA在推理速度和质量之间平衡问题的注意力机制,它通过调整group数量在MHA和MQA之间找到平衡。GQA减少了KV缓存的大小,从而增大LLM服务的批处理大小,提高吞吐量。在实际应用中,如llama2和falcon,GQA通过优化内存使用和降低broadcast操作的开销,实现了推理性能的显著提升。
摘要由CSDN通过智能技术生成

GQA是2023年发表的一篇paper提出的idea,目前用在了llama2、falcon等LLM上。paper一般都篇幅众多,老规矩,本文总结出最精华的部分:) 原文首发于我的公众号"AI不止算法",文章链接在此

动机

GQA的动机主打的是MQA(multi query attention)会导致quality degradation,我们不希望仅仅是推理快,而且还希望quality可以对标MHA,所以GQA带着这个使命诞生,可以很好的做到这个balance。MQA的动机主要在于key和value的数量是随着头数量成正比,那么尤其在decoder inference的过程中,本身就是一个memory bound的过程,这下更加memory bound了,带宽的压力山大,速度快不起来,所以呢,减少头的数量,减少kv cache的size,达到减小带宽的压力的目的,那么MQA推理速度势必更快。

概念

在19年的时候也有一篇paper提出了一个叫做MQA(multi query attenti

  • 8
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值