论文解读『Sparse Double Descent: Where Network Pruning Aggravates Overfitting』
「Sparse Double Descent: Where Network Pruning Aggravates Overfitting」是ICML2022关于网络剪枝、彩票假说与模型泛化的一个新工作。
这篇论文主要是受模型过参数化(over-parameterization)和彩票假说(lottery tickets)两方面研究的启发,探索分析了剪枝后的稀疏神经网络的泛化性能。
一句话结论:稀疏神经网络的泛化能力受稀疏度的影响,随着稀疏度不断增加,模型的测试准确率会先下降,后上升,最后再次下降。
1. 研究动机
根据传统机器学习的观点,模型难以同时最小化预测时的偏差与方差,因此往往需要权衡两者,才能找到最合适的模型。这便是广为流传的偏差-方差均衡(bias-variance tradeoff)曲线:随着模型容量增加,模型在训练集上的误差不断下降,然而在测试集上的误差却会先下降后上升。
虽然传统观点认为模型参数过多会导致过拟合,但是神奇的是,在深度学习实践中,大模型往往有着更好的表现。
今年来有学者发现,深度学习模型的测试误差和模型容量的关系,并非是U型曲线,而是具备的双下降(Double Descent)的特点,即随着模型参数变多,测试误差是先下降,再上升,然后第二次下降1 2。
也就是说,过参数的神经网络非但不会发生严重的过拟合,反而有可能具有更好的泛化性能!
这究竟是为什么呢?
彩票假说(lottery tickets)3为解释这一现象提供了一个新的思路。
彩票假说认为,一个随机初始化的密集网络(未剪枝过的初始网络),包含着性能良好的稀疏子网络,这个子网络从原初始化(winning ticket)训练时,可以达到媲美原始密集网络的准确率,甚至还有可能更快收敛(而如果让这个子网络从一个新的初始化值开始训练,效果则往往大不如原始网络)。
当一个网络参数越多,它包含这样一个性能良好的子网络的概率就越大,也就是中彩票的可能性越高。
从这个角度出发,一个过参数的神经网络中,真正对优化和泛化起作用可能只有相当少的一部分参数,而其余的参数只是作为冗余备份存在,即使被剪