DeepSeek 2025年2月16日最新NSA论文解读：硬件适配且可原生训练的原生稀疏注意力机制

硅基创想家

已于 2025-02-20 15:38:22 修改

阅读量994

点赞数 21

分类专栏： # 大模型-DeepSeek系列文章标签： DeepSeek NSA 稀疏注意力

于 2025-02-20 15:20:44 首次发布

本文链接：https://blog.csdn.net/xidianjiapei001/article/details/145754371

版权

大模型-DeepSeek系列专栏收录该内容

7 篇文章

订阅专栏

《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了一种新型的稀疏注意力机制，旨在解决传统Transformer模型在处理长序列时面临的计算和内存瓶颈。其核心方案结合了硬件优化设计和可训练性，以下是其方案与技术的详细解读：

核心方案

硬件对齐的稀疏模式设计
- 块状稀疏结构：将注意力矩阵划分为规则的块（如2x2或4x4的块），仅保留部分块的非零权重。这种结构与GPU/Tensor Core的矩阵计算单元对齐，能够利用硬件的并行计算能力，减少内存碎片和随机访问开销。
- 内存连续性优化：通过预定义稀疏块的位置（如对角线附近的块或均匀间隔的块），确保非零元素在内存中连续存储，提升内存带宽利用率。
原生可训练性
- 端到端训练：稀疏模式无需预训练或固定掩码，直接通过反向传播优化。稀疏权重在训练过程中动态调整，避免了传统稀疏方法中因固定模式导致的性能损失。
- 可微稀疏门控：引入可学习的门控参数（如Gumbel-Softmax），控制每个块的激活状态，使模型能够自动学习最优的稀疏结构。
动态稀疏自适应
- 输入相关的稀疏调整：根据输入序列的内容动态调整稀疏块的分布（如关注局部细节或全局依赖），平衡计算效率与模型表达能力。

请添加图片描述

关键技术

块稀疏注意力计算
- 将传统的密集注意力矩阵分解为多个子块，仅计算关键块的点积。例如，对序列长度 $L$ ，划分为 $L / B$ 个块（ $B$ 为块大小），每个块独立计算注意力权重，再通过稀疏聚合生成最终输出。
硬件友好的核函数优化
- 针对GPU架构（如NVIDIA Tensor Core）设计定制化核函数，将块稀疏矩阵乘法转化为高效的硬件指令，减少计算延迟。例如，使用CUDA Warp-level的并行计算策略加速块操作。
梯度传播的稳定性
- 采用直通估计器（Straight-Through Estimator, STE）处理稀疏门控的梯度，避免二值化门控导致的梯度消失问题，确保训练稳定性。
混合稀疏模式
- 结合局部稀疏（如滑动窗口）和全局稀疏（如固定间隔的全局关注点），在降低计算复杂度的同时保留长程依赖建模能力。

请添加图片描述

优势与创新

计算效率提升
- 相比传统密集注意力（ $O(L^2)$ 复杂度），块稀疏注意力将复杂度降低至 $O (L B)$ （ $\ll L$ ），内存占用减少50%-90%，尤其适用于长序列（如DNA序列、高分辨率图像）。
硬件性能优化
- 通过硬件对齐的块稀疏设计，在GPU上实现接近理论峰值算力的利用率，推理速度提升2-5倍。
灵活性与可扩展性
- 支持动态稀疏模式，适用于不同任务和硬件平台（如移动端TPU），无需重新设计模型结构。