细粒度结构化稀疏神经网络：第四节

最新推荐文章于 2024-06-09 09:37:05 发布

L5PC

最新推荐文章于 2024-06-09 09:37:05 发布

阅读量822

点赞数

文章标签：神经网络人工智能机器学习

原文链接：https://arxiv.org/pdf/2102.04010.pdf

版权

摘要

深度神经网络 (DNN) 中的稀疏性已被广泛研究以压缩和加速资源受限环境中的模型。它通常可以分为非结构化细粒度稀疏性（将分布在神经网络中的多个个体权重归零）和结构化粗粒度稀疏性（修剪神经网络的子网络块）。细粒度稀疏可以实现高压缩比，但对硬件不友好，因此速度增益有限。另一方面，粗粒度的稀疏性不能同时在现代 GPU 上实现明显的加速和良好的性能。在本文中，我们第一个研究从头开始训练（N:M）细粒度结构化稀疏网络，该网络可以在专门设计的 GPU 上同时保持非结构化细粒度稀疏性和结构化粗粒度稀疏性的优势。

具体来说，一个（2 : 4）稀疏网络可以在 Nvidia A100 GPU 上实现 2 倍加速而不降低性能。此外，我们提出了一种新颖有效的成分，一种稀疏精炼的直通估计器（SR-STE），以减轻优化过程中由普通 STE 计算的近似梯度的负面影响。我们还定义了一个度量，即稀疏架构发散 (SAD)，以测量训练过程中稀疏网络的拓扑变化。最后，我们用 SAD 证明了 SR-STE 的优势，并通过对各种任务进行综合实验证明了 SR-STE 的有效性。

第四节方法

N:M细粒度结构化稀疏性

在这里，我们定义了训练具有 N:M 细粒度结构化稀疏性的神经网络的问题。具有 N:M 稀疏性的神经网络满足在网络的每组 M 个连续权重中，最多有 N 个具有非零值的权重。图 1 说明了一个 2:4 的稀疏网络。一般来说，我们的目标是训练一个 N:M 稀疏神经网络：

其中 D 表示观察到的数据，L 表示损失函数，表示 L 层神经网络的参数，S(W, N, M) 是 N:M 稀疏神经网络参数。

训练 N:M 稀疏网络的直通估计器 (STE)

训练 N:M 稀疏网络的直接解决方案是简单地扩展直通估计器 (STE) (Bengio et al., 2013) 以执行在线基于幅度的修剪和稀疏参数更新，如图 2(a) 所示. STE 广泛用于模型量化（Rastegari 等人，2016 年），因为没有 STE 的量化函数是不可微的，并且使用 STE 优化的网络在仔细设置下具有良好的性能（Yin 等人，2019 年）。在 STE 中，在训练过程中保持一个密集的网络。在前向传播期间，我们将密集权重 W 投影到满足 N:M 稀疏性的稀疏权重中。令 w ⊂ W 为 W 中的一组连续 M 个参数，中的对应组。 w 的投影可以表示为：