细粒度结构化稀疏神经网络：第一节

L5PC

已于 2022-07-14 17:00:34 修改

阅读量391

点赞数

文章标签：大数据神经网络人工智能

于 2022-07-14 16:53:07 首次发布

原文链接：https://arxiv.org/pdf/2102.04010.pdf

版权

摘要

深度神经网络 (DNN) 中的稀疏性已被广泛研究以压缩和加速资源受限环境中的模型。它通常可以分为非结构化细粒度稀疏性（将分布在神经网络中的多个个体权重归零）和结构化粗粒度稀疏性（修剪神经网络的子网络块）。细粒度稀疏可以实现高压缩比，但对硬件不友好，因此速度增益有限。另一方面，粗粒度的稀疏性不能同时在现代 GPU 上实现明显的加速和良好的性能。在本文中，我们第一个研究从头开始训练（N:M）细粒度结构化稀疏网络，该网络可以在专门设计的 GPU 上同时保持非结构化细粒度稀疏性和结构化粗粒度稀疏性的优势。

具体来说，一个（2 : 4）稀疏网络可以在 Nvidia A100 GPU 上实现 2 倍加速而不降低性能。此外，我们提出了一种新颖有效的成分，一种稀疏精炼的直通估计器（SR-STE），以减轻优化过程中由普通 STE 计算的近似梯度的负面影响。我们还定义了一个度量，即稀疏架构发散 (SAD)，以测量训练过程中稀疏网络的拓扑变化。最后，我们用 SAD 证明了 SR-STE 的优势，并通过对各种任务进行综合实验证明了 SR-STE 的有效性。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
细粒度结构化稀疏神经网络：第一节

具体来说，一个（2 : 4）稀疏网络可以在 Nvidia A100 GPU 上实现 2 倍加速而不降低性能。此外，我们提出了一种新颖有效的成分，一种稀疏精炼的直通估计器（SR-STE），以减轻优化过程中由普通 STE 计算的近似梯度的负面影响。我们还定义了一个度量，即稀疏架构发散 (SAD)，以测量训练过程中稀疏网络的拓扑变化。最后，我们用 SAD 证明了 SR-STE 的优势，并通过对各种任务进行综合实验证明了 SR-STE 的有效性。......
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。