深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

不归牛顿管的熊猫

已于 2024-03-19 22:37:55 修改

阅读量2.1k

点赞数 8

文章标签：人工智能深度学习算法 pytorch

于 2024-02-27 09:05:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43568400/article/details/136313244

版权

GQA是一种解决MQA在推理速度和质量之间平衡问题的注意力机制，它通过调整group数量在MHA和MQA之间找到平衡。GQA减少了KV缓存的大小，从而增大LLM服务的批处理大小，提高吞吐量。在实际应用中，如llama2和falcon，GQA通过优化内存使用和降低broadcast操作的开销，实现了推理性能的显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GQA是2023年发表的一篇paper提出的idea，目前用在了llama2、falcon等LLM上。paper一般都篇幅众多，老规矩，本文总结出最精华的部分:) 原文首发于我的公众号"AI不止算法"，文章链接在此

动机

GQA的动机主打的是MQA（multi query attention）会导致quality degradation，我们不希望仅仅是推理快，而且还希望quality可以对标MHA，所以GQA带着这个使命诞生，可以很好的做到这个balance。MQA的动机主要在于key和value的数量是随着头数量成正比，那么尤其在decoder inference的过程中，本身就是一个memory bound的过程，这下更加memory bound了，带宽的压力山大，速度快不起来，所以呢，减少头的数量，减少kv cache的size，达到减小带宽的压力的目的，那么MQA推理速度势必更快。

概念

在19年的时候也有一篇paper提出了一个叫做MQA（multi query attenti

最低0.47元/天解锁文章

不归牛顿管的熊猫

博客等级

码龄7年

20
原创

247
点赞

275
收藏

203
粉丝

关注

私信

热门文章

分类专栏

go
golang

展开全部收起

上一篇：: CUDA实现dropout kernel(下）--优化篇

下一篇：: 从AI推理性能优化角度看LLaMA的模型结构和源码

最新评论

全网首篇从tensorRT-LLM MoE CUDA kernel角度理解Mixtral-8x7b的推理加速及展望
CSDN-Ada助手: 恭喜作者发布了如此深度的技术博客！从tensorRT-LLM MoE CUDA kernel角度解读Mixtral-8x7b的推理加速，实属不易。希望作者在未来的创作中继续保持热情和耐心，可以考虑结合更多实际案例和应用场景，让读者更好地理解和应用所学知识。期待您的下一篇作品！
血战C++ template模板偏特化
CSDN-Ada助手: 恭喜用户第20篇博客《血战C++ template模板偏特化》发表成功！对于C++模板的学习和探索，你的坚持与努力可见一斑。在这条评论中，我想对你提出一些建议：或许可以尝试结合实际案例，分享一些具体的应用场景，让读者更容易理解和运用。希望你在创作的道路上不断进步，继续保持热情与耐心，期待你的下一篇作品！
深度学习C++模板推导再炫技：统一CUDA elementwise kernel的调用接口
CSDN-Ada助手: 恭喜作者发布了第18篇博客，标题看起来又是一篇关于深度学习C++模板推导的精彩文章！不断挑战自我，不断学习进步，真的是非常值得肯定的。希望作者在未来的创作中可以继续深入探讨相关主题，或许可以考虑分享一些实际应用案例或者与其他领域的交叉探讨，让读者能够更全面地了解这一领域的知识。期待作者更多精彩的作品！
C++模板推导再炫技：统一深度学习框架各个device各个kernel的调用和分发
CSDN-Ada助手: 恭喜您写了第17篇博客！看了您的标题，对于C++模板推导和深度学习框架的应用有了更深的了解，非常值得称赞。接下来，如果可能的话，我建议您可以深入探讨如何优化各个device和kernel的调用和分发，或者分享一些实际案例和经验教训，让读者更易于理解和应用。期待您的下一篇作品！
Flash Attention1-真正意义上的scale dot product attention的算子融合(从算法层面加速训练)
CSDN-Ada助手: 恭喜作者发布了第16篇博客，标题看起来十分专业和有深度！真正意义上的scale dot product attention的算子融合，听起来就让人期待不已。希望作者能够继续分享关于算法加速训练的经验和见解，或许可以探讨一下如何在实际项目中应用这些技术，或者分享一些实用的案例分析。期待作者的下一篇作品！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。