细粒度结构化稀疏神经网络:第三节

摘要

深度神经网络 (DNN) 中的稀疏性已被广泛研究以压缩和加速资源受限环境中的模型。它通常可以分为非结构化细粒度稀疏性(将分布在神经网络中的多个个体权重归零)和结构化粗粒度稀疏性(修剪神经网络的子网络块)。细粒度稀疏可以实现高压缩比,但对硬件不友好,因此速度增益有限。另一方面,粗粒度的稀疏性不能同时在现代 GPU 上实现明显的加速和良好的性能。在本文中,我们第一个研究从头开始训练(N:M)细粒度结构化稀疏网络该网络可以在专门设计的 GPU 上同时保持非结构化细粒度稀疏性和结构化粗粒度稀疏性的优势。

具体来说,一个(2 : 4)稀疏网络可以在 Nvidia A100 GPU 上实现 2 倍加速而不降低性能。此外,我们提出了一种新颖有效的成分,一种稀疏精炼的直通估计器(SR-STE),以减轻优化过程中由普通 STE 计算的近似梯度的负面影响。我们还定义了一个度量,即稀疏架构发散 (SAD),以测量训练过程中稀疏网络的拓扑变化。最后,我们用 SAD 证明了 SR-STE 的优势,并通过对各种任务进行综合实验证明了 SR-STE 的有效性。

第三节 相关工作

非结构化和结构化稀疏:DNN 的稀疏性是压缩和加速深度学习模型的一个有前途的方向。在所有稀疏类型中,非结构化稀疏可以实现非常高的压缩比(例如 13 倍(Han 等人,2015)和 108 倍(Guo 等人,2016)),同时通过剪枝确保良好的准确性。针对非结构化稀疏提出了许多不同的剪枝标准和剪枝方法,例如,基于大小的剪枝(Han et al., 2015; Frankle & Carbin, 2018)、基于 Hessian 的启发式算法(LeCun et al., 1990)和使用连接灵敏度(Lee et al., 2018)。

然而,非结构化稀疏性的加速能力非常有限,因为存储不规则的非零索引矩阵需要大量开销。另一方面,温等人。 (2016) 引入了结构稀疏性来加速 GPU 上的深度模型。现有的结构稀疏度包括过滤器稀疏度(Li et al., 2016)、通道稀疏度(Li et al., 2016)和过滤器形状稀疏度。与现有的稀疏模式(细粒度非结构化稀疏和粗粒度结构化稀疏)不同,本文提出了一种 N:M 细粒度结构化稀疏,一种兼具高效和无损性能的稀疏类型。

一阶段和两阶段方法:主要有两类获得稀疏神经网络的技术,一阶段方法和二阶段方法。两阶段方法首先修剪一个训练好的密集神经网络,然后重新训练一个固定的稀疏网络以恢复其性能。典型的两阶段方法包括单次剪枝 (Lee et al., 2018) 和迭代剪枝 (Han et al., 2015; Guo et al., 2016)。后来,彩票假说(Frankle & Carbin,2018)表明,稀疏子网络(中奖彩票)可以通过相同的初始化从头开始训练,而中奖彩票是通过密集训练发现的。另一方面,Deep-Rewiring (Bellec et al., 2017) 是一种典型的单阶段方法,它采用贝叶斯视角并从后验采样稀疏网络连接,但是计算成本高且难以应用于大规模的任务。

稀疏进化训练 (Mocanu et al., 2018)(SET) 被提出作为一种更简单的方案,其中根据用于修剪和增长随机位置的连接的标准幅度标准修剪权重。 Dettmers & Zettlemoyer (2019) 使用每个参数的动量作为增加权重的标准,并获得了测试准确性的提高。 GMP (Gale et al., 2019) 从头开始​​使用变分 dropout 和 l0 正则化训练非结构化稀疏网络,并表明通过剪枝学习的非结构化稀疏架构不能从头开始训练以具有与密集模型相同的测试性能。最近提出的最先进的方法 STR (Kusupati et al., 2020) 引入了修剪可学习阈值以获得非均匀稀疏网络。 RigL (Evci et al., 2019a) 使用基于幅度的方法进行修剪,并使用周期性密集梯度来重新增长连接。然而,与从头开始训练密集神经网络相比,要达到相同的性能,RigL 需要多 5 倍的训练时间。与我们最密切相关的工作可能是 DNW(Wortsman 等人,2019 年),它在反向运行中使用完全密集的梯度来动态发现最佳布线。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值