Lecture 13(Preparation)：Network Compression

zzz_qing

已于 2023-05-07 16:17:38 修改

阅读量393

点赞数

文章标签：人工智能深度学习机器学习

于 2023-05-07 16:05:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzz_qing/article/details/130543845

版权

目录

Network Pruning

Knowledge Distillation

Parameter Quantization

Architecture Design

Dynamic Computation

下面介绍五个network compression的技术。这五个技术都是以软体为导向的，在软体上面对network进行压缩，不考虑硬体加速部分。

Network Pruning

——类神经网路剪枝(Pruning)与大乐透假说(Lottery Ticket Hypothesis)

Network can be pruned: Networks are typically over-parameterized (there is significant redundant weights or neurons). Prune them!

Network Pruning: 把参数/神经元当做修剪的单位，评估参数/神经元的重要性。步骤如下：

① lmportance of a weight: absolute values, life long ...

lmportance of a neuron: the number of times it wasn't zero on a given data set ......

② After pruning, the accuracy will drop (hopefully not too much).

③ Fine-tuning on training data for recover.

④ Don't prune too much at once, or the network won't recover.

weight pruning v.s. neuron pruning

把参数或神经元当做修剪的单位，在实作上有很显著的差距。

Why pruning？为什么不直接train一个smaller network，而要先train一个big network再进行剪枝？——lt is widely known that smaller network is more difficult to learn successfully. Lottery Ticket Hypothesis(大乐透假说).

Lottery Ticket Hypothesis:

大乐透假说在实验上如何证实：

有个研究对大乐透进行了解构：

大乐透的假说不一定是对的，之前的研究对比小model和大model的时候，设定update的epoch数目是一样的。在下面这个研究中，把小model多update几个epoch，小model的结果就比pruning后的model结果好：

Knowledge Distillation

为什么不直接train小的network？理由和Network Pruning一样，直接train一个小的network，结果比根据大的network学习出的小的network的结果差。

Knowledge Distillation:

Knowledge Distillation为什么会有帮助，一个比较直觉的解释是teacher network会提供给student network额外的资讯。

teacher network不一定是一个单一的巨大的network，也可以是多个network的ensemble：

使用Knowledge Distillation的小技巧：稍微改一下softmax的function，加一个temperature

Parameter Quantization

——用比较少的空间储存一个参数

1. Using less bits to represent a value

2. Weight clustering

3. Represent frequent clusters by less bits, represent rare clusters by more bits

例如哈夫曼编码

4. Binary Weights. 可以压缩到只拿一个bit去存一个参数

下面是Binary Network中一个经典方法（Binary Connect）用在三个影像辨识问题上的结果，结果表明用Binary Connect的错误率比正常network的错误率低。一个可能的理由是，Binary Network给了network比较大的限制，所以它不太容易overfitting。

Architecture Design

——通过network架构的设计，达到减少参数量的效果

Standard CNN:

Depthwise Separable Convolution:

下面比较Standard CNN和Depthwise Separable Convolution这两者参数量的差异：

Dynamic Computation

——network可以自由调整它需要的运算量

怎么让network自由地调整它对运算资源的需求，一个可能的方向是让network自由的调整它的深度：Dynamic Depth

另一个可能的方向是让network自由的决定它的宽度：Dynamic Width

上面两个方向是由人自由的去决定network的宽度和深度，也可以让network根据它任务的复杂程度自行决定它的宽度和深度：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lecture 13(Preparation)：Network Compression

下面介绍五个network compression的技术。这五个技术都是以软体为导向的，在软体上面对network进行压缩，不考虑硬体加速部分。
复制链接

扫一扫

zzz_qing CSDN认证博客专家 CSDN认证企业博客

码龄5年

44: 原创

119万+: 周排名

95万+: 总排名

1万+: 访问

: 等级

448: 积分

9: 粉丝

2: 获赞

7: 评论

12: 收藏

私信

关注

热门文章

分类专栏

论文精读 2篇

最新评论

Overcoming catastrophic forgetting in neural networks
xuebing55555: 请问有完整实现代码吗？
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 非常棒的博客！学习元学习是非常有趣和有用的！我们希望看到更多关于此主题的内容。我们建议您写一篇有关如何使用元学习来优化深度学习模型的博客。谢谢你的分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615663682?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
The first GAN——Generative Adversarial Nets
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/614789723。
[机器学习]Lecture 1：Regression，Pokemon classification，Logistic Regression
CSDN-Ada助手: 非常感谢您分享这篇博客。恭喜您能够坚持创作，继续保持哦！同时，我希望您能够在未来的博客中，更深入地探讨机器学习的其他方面，例如深度学习和神经网络等等。期待您的下一篇作品，谢谢！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。