Regularization(L1 L2 正则化解决过拟合)

最新推荐文章于 2021-11-29 16:37:21 发布

sqzeng

最新推荐文章于 2021-11-29 16:37:21 发布

阅读量303

点赞数

分类专栏：机器学习

原文链接：https://sakura-gh.github.io/ML-notes/ML-notes-html/2_Regression-Case-Study.html

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Regularization(L1 L2 正则化解决overfitting)

关于overfitting的问题，很大程度上是由于曲线为了更好地拟合training data的数据，而引入了更多的高次项，使得曲线更加“蜿蜒曲折”，反而导致了对testing data的误差更大

回过头来思考，我们之前衡量model中某个function的好坏所使用的loss function，仅引入了真实值和预测值差值的平方和这一个衡量标准；我们想要避免overfitting过拟合的问题，就要使得高次项对曲线形状的影响尽可能小，因此我们要在loss function里引入高次项(非线性部分)的衡量标准，也就是将高次项的系数也加权放进loss function中，这样可以使得训练出来的model既满足预测值和真实值的误差小，又满足高次项的系数尽可能小而使曲线的形状比较稳定集中

以下图为例，如果loss function仅考虑了 ${\left( {\hat y - y} \right)^2}$ 这一误差衡量标准，那么拟合出来的曲线就是红色虚线部分(过拟合)，而过拟合就是所谓的model对training data过度自信, 非常完美的拟合上了这些数据, 如果具备过拟合的能力, 那么这个方程就可能是一个比较复杂的非线性方程 , 正是因为这里的 ${x^3}$ 和 ${x^2}$ 使得这条虚线能够被弯来弯去, 所以整个模型就会特别努力地去学习作用在 ${x^3}$ 和 ${x^2}$ 上的c、d参数. 但是在这个例子里，我们期望模型要学到的却是这条蓝色的曲线. 因为它能更有效地概括数据 .而且只需要一个 ${y = a + bx}$ 就能表达出数据的规律.

或者是说, 蓝色的线最开始时, 和红色线同样也有c、d两个参数, 可是最终学出来时, c 和 d 都学成了0, 虽然蓝色方程的误差要比红色大, 但是概括起数据来还是蓝色好

这也是我们通常采用的方法，我们不可能一开始就否定高次项而直接只采用低次线性表达式的model，因为有时候真实数据的确是符合高次项非线性曲线的分布的；而如果一开始直接采用高次非线性表达式的model，就很有可能造成overfitting，在曲线偏折的地方与真实数据的误差非常大。我们的目标应该是这样的：

在无法确定真实数据分布的情况下，我们尽可能去改变loss function的评价标准

我们的model的表达式要尽可能的复杂，包含尽可能多的参数和尽可能多的高次非线性项；
但是我们的loss function又有能力去控制这条曲线的参数和形状，使之不会出现overfitting过拟合的现象；
在真实数据满足高次非线性曲线分布的时候，loss function控制训练出来的高次项的系数比较大，使得到的曲线比较弯折起伏；
在真实数据满足低次线性分布的时候，loss function控制训练出来的高次项的系数比较小甚至等于0，使得到的曲线接近linear分布

那我们如何保证能学出来这样的参数呢? 这就是 L1 L2 正规化出现的原因.

之前的loss function仅考虑了 ${\left( {\hat y - y} \right)^2}$ 这一误差衡量标准，而L1 L2正规化就是在这个loss function的后面多加了一个东西，即model中跟高次项系数有关的表达式；

L1正规化即加上 $\lambda \sum {\left| {{w_j}} \right|}$ 这一项，loss function变成 $\sum\limits_{i = 1}^n {{{\left( {{{\hat y}^i} - {y^i}} \right)}^2} + } \lambda \sum {\left| {{w_j}} \right|}$ ，即n个training data里的数据的真实值与预测值差值的平方和加上λ权重下的model表达式中所有项系数的绝对值之和
L2正规化即加上 $\lambda \sum {{w_j}^2}$ 这一项，loss function变成 $\sum\limits_{i = 1}^n {{{\left( {{{\hat y}^i} - {y^i}} \right)}^2} + } \lambda \sum {{w_j}^2}$ ，即n个training data里的数据的真实值与预测值差值的平方和加上λ权重下的model表达式中所有项系数的平方和