C2-1.4（L1,L2）正则化

最新推荐文章于 2024-10-16 01:06:03 发布

帅翰GG

最新推荐文章于 2024-10-16 01:06:03 发布

阅读量549

点赞数 22

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_46228946/article/details/136239064

版权

5 篇文章 0 订阅

订阅专栏

本文介绍了正则化在机器学习中的作用，包括防止过拟合，L1和L2正则化的区别，以及如何通过λ的选择来优化模型。重点讲述了L1正则化导致参数稀疏性，用于特征选择，而L2正则化对参数进行平滑，两者与过拟合/欠拟合的关系。

摘要由CSDN通过智能技术生成

参考书籍

在这里插入图片描述

正则化(Regularization) 是机器学习中对原始损失函数引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项，常用的额外项一般有两种，中文称作L1正则化和L2正则化，或者L1范数和L2范数（实际是L2范数的平方）。
L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。
为什么只对W进行限制，而不对b进行限制呢？：
- 答：b是一个常数，影响拟合曲线的上下位移

在这里插入图片描述

L1正则化可以使得参数稀疏化，即得到的参数是一个稀疏矩阵，可以用于特征选择。
- 稀疏性，说白了就是模型的很多参数是0。通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，很多参数是0，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，即使去掉对模型也没有什么影响，此时我们就可以只关注系数是非零值的特征。这相当于对模型进行了一次特征选择，只留下一些比较重要的特征，提高模型的泛化能力，降低过拟合的可能。
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合。