概要:
L1与L2是两种最常见的正则化方法,本文将细述L1正则化更少被应用的原因和L1正则化适合的实际应用场景。
1、 正则化的作用
正则化是防止模型过拟合的有效手段,训练过程中正则化促使模型参数变小,从而让学得的模型本身变得简单,起到防止过拟合的效果。其中,最常见的是L1与L2正则化。
2、L1与L2正则化的特性
L1与L2正则都具有减小模型参数,使学得的模型更简单的效果。同时,L1正则化还具有稀疏性,能令学得模型的很多参数等于0,起到自动特征选择的作用。那为什么优势更少的L2正则化具有更多的实际应用呢?
3、L1正则化的不足之处
原来一方面是,与L2正则化在实数域全部连续且可导不同,L1正则化在x=0处导数不存在,对梯度下降优化模型参数具有更大的挑战;另一方面是在特征选择上,L1正则并不能从一组高度相关特征中选出效果最好的那一个特征、保证特征选择的最优性,而是从中随机选定一个特征并抛弃其他特征。
总结
因此,面对模型训练中的过拟合问题,L2是最常使用的正则化方法;而L1正则的首要应用场景在我们特别希望参数变稀疏的时候。