文章目录 稀疏注意力 PVT v2中的稀疏注意力 公式 代码示例 局部注意力 局部注意力 Swin Transformer中的基于窗口的注意力 公式 代码示例 窗口移位操作(Shifted Window) 实现细节 公式 代码示例 低秩/线性注意力 低秩/线性注意力 Linformer 公式 代码示例 代码解释 稀疏注意力 稀疏注意力(Sparse Attention)是一种通过选择性地处理部分token来减少整体计算负荷的方法。这在自然语言处理和计算机视觉中的注意力机制中尤为重要,因为它可以显著降低计算复杂度和内存使用。 在标准的全连接注意力机制中,每个token(词或图像patch)都与其他所有token计算注意力权重,这会导致计算复杂度为 O ( N 2 ) O(N^2) O