《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了一种新型的稀疏注意力机制,旨在解决传统Transformer模型在处理长序列时面临的计算和内存瓶颈。其核心方案结合了硬件优化设计和可训练性,以下是其方案与技术的详细解读:
核心方案
-
硬件对齐的稀疏模式设计
- 块状稀疏结构:将注意力矩阵划分为规则的块(如2x2或4x4的块),仅保留部分块的非零权重。这种结构与GPU/Tensor Core的矩阵计算单元对齐,能够利用硬件的并行计算能力,减少内存碎片和随机访问开销。
- 内存连续性优化:通过预定义稀疏块的位置(如对角线附近的块或均匀间隔的块),确保非零元素在内存中连续存储,提升内存带宽利用率。
-
原生可训练性
- 端到端训练:稀疏模式无需预训练或固定掩码,直接通过反向传播优化。稀疏权重在训练过程中动态调整,避免了传统稀疏方法中因固定模式导致的性能损失。
- 可微稀疏门控:引入可学习的门控参数(如Gumbel-Softmax),控制每个块的激活状态,使模型能够自动学习最优的稀疏结构。
-
动态稀疏自适应
- 输入相关的稀疏调整:根据输入序列的内容动态调整稀疏块的分布(如关注局部细节或全局依赖),平衡计算效率与模型表达能力。
关键技术
-
块稀疏注意力计算
- 将传统的密集注意力矩阵分解为多个子块,仅计算关键块的点积。例如,对序列长度 L L L,划分为 L / B L/B L/B个块( B B B为块大小),每个块独立计算注意力权重,再通过稀疏聚合生成最终输出。
-
硬件友好的核函数优化
- 针对GPU架构(如NVIDIA Tensor Core)设计定制化核函数,将块稀疏矩阵乘法转化为高效的硬件指令,减少计算延迟。例如,使用CUDA Warp-level的并行计算策略加速块操作。
-
梯度传播的稳定性
- 采用直通估计器(Straight-Through Estimator, STE)处理稀疏门控的梯度,避免二值化门控导致的梯度消失问题,确保训练稳定性。
-
混合稀疏模式
- 结合局部稀疏(如滑动窗口)和全局稀疏(如固定间隔的全局关注点),在降低计算复杂度的同时保留长程依赖建模能力。
优势与创新
-
计算效率提升
- 相比传统密集注意力( O ( L 2 ) O(L^2) O(L2)复杂度),块稀疏注意力将复杂度降低至 O ( L B ) O(LB) O(LB)( B ≪ L B \ll L B≪L),内存占用减少50%-90%,尤其适用于长序列(如DNA序列、高分辨率图像)。
-
硬件性能优化
- 通过硬件对齐的块稀疏设计,在GPU上实现接近理论峰值算力的利用率,推理速度提升2-5倍。
-
灵活性与可扩展性
- 支持动态稀疏模式,适用于不同任务和硬件平台(如移动端TPU),无需重新设计模型结构。
实验验证
- 任务表现:在文本生成(如PG-19)、图像分类(ImageNet)和长序列建模(如LRA Benchmark)任务中,模型性能与密集注意力相当,显著优于固定稀疏模式方法(如Longformer)。
- 速度与内存:在序列长度8192时,训练速度提升3倍,GPU内存占用减少70%。
总结
该论文通过硬件对齐的块稀疏设计和动态可训练机制,实现了高效且灵活的自注意力计算。其核心贡献在于将稀疏模式的优化从算法层面向硬件计算特性延伸,同时保持端到端的可训练性,为长序列建模提供了新的解决方案。未来可进一步探索自适应块大小和跨硬件平台的通用优化策略。