正则化(1) L1和L2正则化

最新推荐文章于 2024-08-24 10:58:56 发布

yaochuyi

最新推荐文章于 2024-08-24 10:58:56 发布

阅读量1.5k

点赞数

分类专栏：机器学习系列文章标签：机器学习正则

本文链接：https://blog.csdn.net/yaochuyi/article/details/80024181

版权

本文介绍了正则化的概念，包括L1和L2正则化，以及它们在线性回归中的应用。L1正则化能够产生稀疏模型，适合特征选择，而L2正则化通过降低参数值防止过拟合。正则化项的图形理解揭示了L1正则化倾向于产生系数为0的解，而L2正则化使参数值趋向于小值。

摘要由CSDN通过智能技术生成

正则化（Regularization）

参考：
https://blog.csdn.net/jinping_shi/article/details/52433975
https://blog.csdn.net/u012162613/article/details/44261657

1. 正则化的概念

规则化 vs 正则化
- 规则化，顾名思义，给你的模型加入某些规则，来达到某些目的（在机器学习或深度学习中是为了防止过拟合）
- 正则化，与规则化是同一个意思。

正则项一般加在损失函数后面，英文是 $l_1$ -norm和 $l_2$ -norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。

2. L1范数和L2范数

L1范数： $||\omega||_1$ ，指权值向量 $\omega$ 中各个元素的绝对值之和
L2范数： $||\omega||_2$ ，指权值向量 $\omega$ 中各个元素的平方和然后再求平方根

3. 线性回归的正则化

线性回归+L1正则项：Lasso回归
线性回归+L2正则项：Ridge回归（岭回归）

4. L1和L2正则化的作用

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。
L2正则化可以防止模型过拟合。（一定程度上，L1也可以防止过拟合）。

L1正则化-特征选择

1. 稀疏模型与特征选择

L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。那么，为什么要生成一个稀疏矩阵？

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

举个栗子，患病回归模型 $y=\omega_1x_1+\omega_2x_2+...+\omega_{1000}x_{1000}+b$ ，通过学习，最后学习到的 $\omega$ 就只有很少几个非零元素，例如只有5个非零的 $\omega_i$ 。也就是说，患不患这种病只和这5个因素有关，那医生就好分析多了。