ICML2022论文解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』

ICML2022的论文揭示,剪枝后的稀疏神经网络出现双下降现象,测试准确率随稀疏度上升先降后升再降。研究挑战了彩票假说中剪枝无害的观点,提出学习距离可能是关键因素。
摘要由CSDN通过智能技术生成

「Sparse Double Descent: Where Network Pruning Aggravates Overfitting」是ICML2022关于网络剪枝、彩票假说与模型泛化的一个新工作。

这篇论文主要是受模型过参数化(over-parameterization)和彩票假说(lottery tickets)两方面研究的启发,探索分析了剪枝后的稀疏神经网络的泛化性能。
一句话结论:稀疏神经网络的泛化能力受稀疏度的影响,随着稀疏度不断增加,模型的测试准确率会先下降,后上升,最后再次下降。

1. 研究动机

根据传统机器学习的观点,模型难以同时最小化预测时的偏差与方差,因此往往需要权衡两者,才能找到最合适的模型。这便是广为流传的偏差-方差均衡(bias-variance tradeoff)曲线:随着模型容量增加,模型在训练集上的误差不断下降,然而在测试集上的误差却会先下降后上升。
偏差-方差均衡(bias-variance tradeoff)曲线
虽然传统观点认为模型参数过多会导致过拟合,但是神奇的是,在深度学习实践中,大模型往往有着更好的表现。

今年来有学者发现,深度学习模型的测试误差和模型容量的关系,并非是U型曲线,而是具备的双下降(Double Descent)的特点,即随着模型参数变多,测试误差是先下降,再上升,然后第二次下降1 2

双下降曲线

也就是说,过参数的神经网络非但不会发生严重的过拟合,反而有可能具有更好的泛化性能!

这究竟是为什么呢?

彩票假说(lottery tickets)3为解释这一现象提供了一个新的思路。

彩票假说认为,一个随机初始化的密集网络(未剪枝过的初始网络),包含着性能良好的稀疏子网络,这个子网络从原初始化(winning ticket)训练时,可以达到媲美原始密集网络的准确率,甚至还有可能更快收敛(而如果让这个子网络从一个新的初始化值开始训练,效果则往往大不如原始网络)。

当一个网络参数越多,它包含这样一个性能良好的子网络的概率就越大,也就是中彩票的可能性越高。
从这个角度出发,一个过参数的神经网络中,真正对优化和泛化起作用可能只有相当少的一部分参数,而其余的参数只是作为冗余备份存在,即使被剪

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值