ICML2022论文解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』

He-z

已于 2022-07-26 12:02:07 修改

阅读量1.1k

点赞数

文章标签：深度学习神经网络人工智能

于 2022-07-26 12:00:08 首次发布

本文链接：https://blog.csdn.net/weixin_43895951/article/details/125991520

版权

ICML2022的论文揭示，剪枝后的稀疏神经网络出现双下降现象，测试准确率随稀疏度上升先降后升再降。研究挑战了彩票假说中剪枝无害的观点，提出学习距离可能是关键因素。

摘要由CSDN通过智能技术生成

论文解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』

1. 研究动机
2. 稀疏神经网络中的双下降现象
3. 如何解释稀疏神经网络的泛化性能与双下降现象？
4. 与彩票假说的区别与联系
5. 后记
论文与代码连接
参考文献：

「Sparse Double Descent: Where Network Pruning Aggravates Overfitting」是ICML2022关于网络剪枝、彩票假说与模型泛化的一个新工作。

这篇论文主要是受模型过参数化（over-parameterization）和彩票假说（lottery tickets）两方面研究的启发，探索分析了剪枝后的稀疏神经网络的泛化性能。
一句话结论：稀疏神经网络的泛化能力受稀疏度的影响，随着稀疏度不断增加，模型的测试准确率会先下降，后上升，最后再次下降。

1. 研究动机

根据传统机器学习的观点，模型难以同时最小化预测时的偏差与方差，因此往往需要权衡两者，才能找到最合适的模型。这便是广为流传的偏差-方差均衡(bias-variance tradeoff)曲线：随着模型容量增加，模型在训练集上的误差不断下降，然而在测试集上的误差却会先下降后上升。

虽然传统观点认为模型参数过多会导致过拟合，但是神奇的是，在深度学习实践中，大模型往往有着更好的表现。

今年来有学者发现，深度学习模型的测试误差和模型容量的关系，并非是U型曲线，而是具备的双下降（Double Descent）的特点，即随着模型参数变多，测试误差是先下降，再上升，然后第二次下降¹ ²。

双下降曲线

也就是说，过参数的神经网络非但不会发生严重的过拟合，反而有可能具有更好的泛化性能！

这究竟是为什么呢？

彩票假说（lottery tickets）³为解释这一现象提供了一个新的思路。

彩票假说认为，一个随机初始化的密集网络（未剪枝过的初始网络），包含着性能良好的稀疏子网络，这个子网络从原初始化（winning ticket）训练时，可以达到媲美原始密集网络的准确率，甚至还有可能更快收敛(而如果让这个子网络从一个新的初始化值开始训练，效果则往往大不如原始网络)。

当一个网络参数越多，它包含这样一个性能良好的子网络的概率就越大，也就是中彩票的可能性越高。
从这个角度出发，一个过参数的神经网络中，真正对优化和泛化起作用可能只有相当少的一部分参数，而其余的参数只是作为冗余备份存在，即使被剪

最低0.47元/天解锁文章

He-z

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
ICML2022论文解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』

ICML2022 文章解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』稀疏双下降：网络剪枝也能加剧过拟合？
复制链接

扫一扫