月之暗面：LLM混合块注意力MoBA

最新推荐文章于 2025-05-03 09:07:35 发布

大模型任我行

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量607

点赞数 10

分类专栏：大模型-结构原理文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/145779002

版权

大模型-结构原理专栏收录该内容

53 篇文章

订阅专栏

在这里插入图片描述

📖标题：MoBA: Mixture of Block Attention for Long-Context LLMs
🌐来源：arXiv, 2502.13189

🌟摘要

🔸扩展有效上下文长度对于向通用人工智能（AGI）推进大型语言模型（LLM）至关重要。然而，传统注意力机制固有的计算复杂性的二次增加带来了令人望而却步的开销。现有的方法要么强加有强烈偏见的结构，如特定于任务的水槽或窗口注意力，要么从根本上将注意力机制修改为线性近似，其在复杂推理任务中的表现仍未得到充分探索。
🔸在这项工作中，我们提出了一种遵循“少结构”原则的解决方案，允许模型自主确定参加的地点，而不是引入预定义的偏差。我们介绍了块注意力混合（MoBA），这是一种将专家混合（MoE）原理应用于注意力机制的创新方法。这种新颖的架构在长上下文任务上表现出卓越的性能，同时提供了一个关键优势：能够在完全和稀疏注意力之间无缝过渡，在不损害性能的情况下提高效率。
🔸MoBA已经被部署来支持Kimi的长上下文请求，并在LLM的高效注意力计算方面取得了重大进展。我们的代码可在https://github.com/MoonshotAI/MoBA.

🛎️文章简介

🔸研究问题：传统注意力机制在处理长上下文时的计算效率较低、资源消耗较大。
🔸主要贡献：论文提出了一种新颖的混合块注意力（MoBA）架构，能够动态选择历史上下文块进行注意力计算，从而提高长上下文任务的效率和可扩展性。

📝重点思路

🔸设计了一种混合块注意力（MoBA）架构，基于混合专家（MoE）原理，动态选择与查询相关的上下文块进行注意力计算。
🔸采用块稀疏注意力机制，将上下文划分为多个块，并通过门控机制选择最相关的块进行计算，以减少计算复杂度。
🔸实施了高性能的MoBA实现，结合FlashAttention和MoE的优化技术，保持与全注意力相同的参数数量。
🔸进行了一系列的标定实验和消融研究，以验证MoBA的关键设计选择和性能。

🔎分析总结

🔸MoBA在语言模型损失方面与全注意力机制的表现相当，表明其在长上下文处理上的有效性。
🔸MoBA在处理长序列时实现了显著的计算效率提升，尤其在最大序列长度达到10M tokens时，展示出高达16倍的计算时间加速。
🔸细粒度的块分割对MoBA的性能有显著影响，细分块可以提高模型在MoE家族中的性能。
🔸MoBA与全注意力的混合训练策略能够在保持性能的同时提高训练效率，尤其在监督微调过程中表现出灵活性和鲁棒性。