《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了一种新型的稀疏注意力机制,旨在解决传统Transformer模型在处理长序列时面临的计算和内存瓶颈。其核心方案结合了硬件优化设计和可训练性,以下是其方案与技术的详细解读:
核心方案
-
硬件对齐的稀疏模式设计
- 块状稀疏结构:将注意力矩阵划分为规则的块(如2x2或4x4的块),仅保留部分块的非零权重。这种结构与GPU/Tensor Core的矩阵计算单元对齐,能够利用硬件的并行计算能力,减少内存碎片和随机访问开销。
- 内存连续性优化:通过预定义稀疏块的位置(如对角线附近的块或均匀间隔的块),确保非零元素在内存中连续存储,提升内存带宽利用率。
-
原生可训练性
- 端到端训练:稀疏模式无需预训练或固定掩码,直接通过反向传播优化。稀疏权重在训练过程中动态调整,避免了传统稀疏方法中因固定模式导致的性能损失。
- 可微稀疏门控:引入可学习的门控参数(如Gumbel-Softmax),控制每个块的激活状态,使模型能够自动学习最优的稀疏结构。
-
动态稀疏自适应
- 输入相关的稀疏调整:根据输入序列的内容动态调整稀疏块的分布(如关注局部细节或全局依赖),平衡计算效率与模型表达能力。