正则化(Regularization)
一 机器学习中的过拟合
- 机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。
- 通俗点说就是模型复杂到可以记住你所有样本,包括其中的噪声。
- 即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。
- 为了避免过拟合,最常用的一种方法是数据增强(smote数据生成)以及适当选择模型和最常见的正则化,例如 L1 和 L2 正则化。
二 L1与L2正则化
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数。数学上来讲,正则化即为在目标函数中加入对权值系数的约束。
-
L1 正则化公式很简单,直接在原来的损失函数基础上加上权重参数的绝对值:(Lasso回归)
-
l2 正则化公式直接在原来的损失函数基础上加上