【DeepSeek】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

weixin_44376877

已于 2025-03-06 11:21:31 修改

阅读量650

点赞数 20

文章标签：深度学习人工智能机器学习

于 2025-03-05 17:47:16 首次发布

本文链接：https://blog.csdn.net/weixin_44376877/article/details/146048753

版权

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

摘要（Abstract）

长上下文建模(Long-context modeling)对于下一代语言模型至关重要，但标准注意力机制(Attention Mechanism)的高计算成本带来了显著的挑战。稀疏注意力(Sparse Attention)为提升效率同时保持模型能力提供了方向。本研究提出了NSA（Natively trainable Sparse Attention），一种可原生训练的稀疏注意力机制，通过算法创新与硬件优化实现高效长上下文建模。NSA采用动态分层稀疏策略，结合粗粒度标记压缩(Token Compression)和细粒度标记选择(Token Selection)，保留全局上下文感知和局部精度。主要创新包括：(1) 通过算术强度平衡的算法设计和硬件优化实现显著加速；(2) 支持端到端训练，降低预训练计算成本而不牺牲性能。实验表明，NSA在通用基准、长上下文任务和指令推理中匹配或超越全注意力(Full Attention)模型，同时在64k序列上显著提升解码、前向和反向传播速度。

1. 引言（Introduction）

1.1 长上下文建模的重要性

研究界日益认识到，长上下文建模是下一代大语言模型(Large Language Models, LLMs)的核心能力。这一需求源于多样化的现实应用，例如深入推理（DeepSeek-AI, 2025; Zelikman et al., 2022）、仓库级代码生成（Zhang et al., 2023a）和多轮自主代理系统（Park et al., 2023）。近期突破，如OpenAI的o系列模型、DeepSeek-R1和Gemini 1.5 Pro，展示了处理长文档和复杂推理的能力。然而，传统注意力机制的高复杂度（Zaheer et al., 2020）成为瓶颈，尤其在64k长度上下文解码时，注意力计算占总延迟的70-80%。

1.2 稀疏注意力的潜力与挑战

利用softmax注意力的固有稀疏性是一种自然解决方案（Ge et al., 2023）。现有方法通过KV缓存驱逐(KV-cache Eviction)、块状选择(Blockwise Selection)和聚类方法减少计算开销。然而，这些方法在实际部署中常未达预期加速，且缺乏训练支持，限制了稀疏性优势的充分发挥。

1.3 本文贡献

为解决上述问题，本研究提出了NSA，一种结合硬件对齐和可训练性的稀疏注意力架构。NSA通过分层标记建模降低计算负担，并在全生命周期（训练、推理）中验证了高效性。
在这里插入图片描述
图 1| Full Attention 模型与我们的 NSA 模型在性能和效率上的对比。
左图：尽管 NSA 是稀疏的，但它在通用基准测试、长文本任务和推理评估中平均表现超越了 Full Attention 基线模型。
右图：在处理 64k 长度的序列时，NSA 在解码、前向传播和反向传播等所有阶段都实现了显著的计算速度提升，相较于 Full Attention 模型。

在这里插入图片描述
图 2 | NSA 架构概览。

左图：该框架通过三个并行的注意力分支处理输入序列：对于给定的查询，前序的键和值被分别处理为压缩注意力（用于粗粒度模式）、选择注意力（用于重要的 token 块）和滑动注意力（用于局部上下文）。

右图：每个分支生成的不同注意力模式的可视化。绿色区域表示需要计算注意力得分的区域，而白色区域表示可以跳过的区域。

2. 重新思考稀疏注意力方法（Rethinking Sparse Attention Methods）

2.1 高效推理的假象（The Illusion of Efficient Inference）

许多稀疏注意力方法虽在理论上减少计算，但在推理延迟上未见显著改善。原因包括：(1) 阶段受限稀疏性，如H2O在解码中应用稀疏但预填充阶段仍需高计算；(2) 与高级架构（如GQA）的内存访问不兼容，导致实际加速受限。

2.2 可训练稀疏性的神话（The Myth of Trainable Sparsity）

现有方法多在推理阶段应用稀疏，忽视训练需求，导致性能下降和训练效率低下。非可训练组件（如ClusterKV的k-means聚类）和低效反向传播进一步加剧了问题。

2.3 本土稀疏性的必要性（Native Sparsity as an Imperative）

上述限制促使我们重新设计NSA，兼顾推理效率和训练可行性。

3. 方法（Methodology）

3.1 背景（Background）

注意力机制在语言建模中通过查询 $\mathbf{q}_t$ 与键 $\mathbf{k}_{:t}$ 计算相关性，生成值的加权和 $\mathbf{o}_t$ ：

$\mathbf{o}_t = \operatorname{Attn}(\mathbf{q}_t, \mathbf{k}_{:t}, \mathbf{v}_{:t}) = \sum_{i=1}^t \frac{\alpha_{t,i} \mathbf{v}_i}{\sum_{j=1}^t \alpha_{t,j}}, \quad \alpha_{t,i} = e^{\frac{\mathbf{q}_t^\top \mathbf{k}_i}{\sqrt{d_k}}}$

其中 $d_k$ 为键的特征维度。算术强度(Arithmetic Intensity)影响硬件优化，训练阶段受计算限制，解码阶段受内存带宽限制。

3.2 总体框架（Overall Framework）

NSA将原始键值对替换为更紧凑的表示 $\hat{\kappa}_t, \hat{v}_t$ ，优化注意力输出：

$\mathbf{o}_t^* = \sum_{c \in \{\mathrm{cmp}, \mathrm{slc}, \mathrm{win}\}} g_t^c \cdot \operatorname{Attn}(\mathbf{q}_t, \tilde{\kappa}_t^c, \tilde{V}_t^c)$