论文笔记-精读-8.24-Pruning neural networks without any data by iteratively conserving synaptic flow

最新推荐文章于 2024-09-10 15:29:42 发布

ywsdxxzj

最新推荐文章于 2024-09-10 15:29:42 发布

阅读量1k

点赞数 1

分类专栏：神经网络论文阅读剪枝文章标签：深度学习算法剪枝

本文链接：https://blog.csdn.net/ywsdxxzj/article/details/119858676

版权

神经网络同时被 3 个专栏收录

9 篇文章 1 订阅

订阅专栏

论文阅读

6 篇文章 1 订阅

订阅专栏

剪枝

4 篇文章 1 订阅

订阅专栏

原文：https://arxiv.org/pdf/2006.05467v1.pdf
代码：https://github.com/ganguli-lab/Synaptic-Flow

文章目录

总结

解决的问题

现有的gradient-based的剪枝方法在初始化时会遭遇layer-collapse的问题——即导致过早的剪去一整个layer使得网络模型无法训练的现象；
彩票假设提出后，对模型到底是否需要pre-trained提出了质疑，很自然有这样一个问题：能不能不训练，甚至不借助于任何数据输入，而直接地detect the wining lottery ticket? 对此目前没有有效的算法；

方法的新颖之处

不依赖于训练数据（所以不需要loss，也不需要反向传播）就能够识别wining ticket，效率高。对于别的算法，随着数据集的复杂化，需要1000、2000甚至10000次前馈，而SynFlow只需要100次，与数据集无关；
对于确定的网络 $f(x;\theta_{0})$ 和给定压缩率 $\rho$ ，只需一个额外超参数，即迭代次数n。

研究范围

在VGG, ResNet等模型，对于CIFAR-10/100和Tiny ImageNet等数据集。

效果

99.9%的最大稀疏率 (which means the accuracy drops exactly to zero).
SynFlow1

缺点

只提升了剪枝曲线后半段的能力 (大约在压缩率大于 $10^{3}$ 时) ，在前半段精度损失还是比较明显。故此算法之在极限情形下有优秀表现，但实际上，像精度损失超过20%的情形，或许不能够得到很好的实际应用。

贡献

Maximal Critical Compression的提出，分析了以往工作为什么不能够达到极限剪枝率；
synaptic saliency概念的归纳；
SynFlow算法的提出。

有意思的引文

本篇的related works部分比较全面，概括得很有条理，建议研究一下。

引文15, 16, 17-新颖的微架构设计
引文25-https://arxiv.org/pdf/2002.04809v1.pdf
引文29, 30, 31-基于更多复杂变量

正文

Layer-collapse: 阻止初始化时就剪枝的关键障碍

几个定义：

compression ratio $\rho=\frac{N_{original}}{N_{remain\text{ }after\text{ }pruning}}$ ;
Max compression $\rho_{max}$ : 刚好不引发layer-collapse的最大压缩率，即每层留一个参数（？一个参数怎么前后连接）
Critical compression $\rho_{cr}$ : 对于不同算法的压缩率上界，对任意 $\rho_{cr}$ 都有 $\rho_{cr}\le \rho_{max}$ 。

文章认为有如下公理成立：
SynFlow_Axiom1
文章比较的对象有random scoring, soring based on weight magnitudes, 以及另外两个state-of-the-art的single-shot剪枝方法——SNIP(连接敏感度)和GraSP(梯度信号保留)。这两者都是基于梯度的、at initialization的剪枝方法。

突触显著性守恒定理

随机剪枝以相同的数额修剪每一层，因此小的层先被剪完。所以此算法偏好最小层。

magnitude-based的方法则相反，以不同的比率修剪每一层。当使用某些初始化方法时，此方法偏好最宽层，权值的大小与层宽度W成反比，因此越大的网络越早被全部剪完。

基于梯度的SNIP和GraSP方法同样是变剪枝比，其这种偏好的根源不太清晰。但是事实上，这两种方法都相当偏好修剪最大层，即带有最多的可训练参数的层。

基于此守恒，我们假设一层之内基于梯度的平均评分与layer size成反比关系。

基于梯度的得分的一般表达式

突触依赖性就是一类能用下式概括的度量值：
$S(\theta)=\frac{\partial R}{\partial \theta} \odot \theta$

当 $R$ 取训练损失 $L$ 的时候，就退化为 $-\frac{\partial L}{\partial \theta} \odot \theta$ ，这在Skeletonization中经常被用到；

这个度量同时与SNIP使用的 $|\frac{\partial L}{\partial \theta} \odot \theta|$ ，GraSP使用的 $-(H\frac{\partial L}{\partial \theta}) \odot \theta$ ，Taylor-FO(需预训练)中使用的 $(\frac{\partial L}{\partial \theta} \odot \theta)^2$ 都密切相关。而当 $R=<\frac{\partial L}{\partial y}, y>$ ，度量值就与OBD中使用的 $diag(H)\theta \odot \theta$ 高度相关。

未完待续

ywsdxxzj

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文笔记-精读-8.24-Pruning neural networks without any data by iteratively conserving synaptic flow

原文：代码：总结解决的问题：现有的gradient-based的剪枝方法在初始化时会遭遇layer-collapse的问题——即导致过早的剪去一整个layer使得网络模型无法训练的现象；彩票假设提出后，对模型到底是否需要pre-trained提出了质疑，很自然有这样一个问题：能不能不训练，甚至不借助于任何数据输入，而直接地detect the wining lottery ticket? 对此目前没有有效的算法；方法的新颖之处：不依赖于训练数据就能够识别wining ticket；
复制链接

扫一扫

专栏目录