参考文章:机器学习中的范数规则化
L1范数是指向量中各个元素绝对值之和,用于特征选择。使用L1可以得到稀疏的权值。
L2范数是指向量各元素的平方和然后求平方根,用于防止过拟合,提升模型的泛化能力。使用L2可以得到平滑的权值。
L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要,再通过交叉验证。
为什么L1,L2范数可以防止过拟合呢?
在代价函数后面加上正则项,L1即是Lasso回归,L2是岭回归但是它为什么能防止过拟合呢?
奥卡姆剃刀原理:能很好的拟合数据且模型简单
模型参数在更新时,正则项可使参数的绝对值趋于0,使得部分参数为0,降低了模型的复杂度(模型的复杂度由参数决定),从而防止了过拟合。提高模型的泛化能力