1.4+1.5 L1、L2正则化

羊老羊

于 2022-09-04 18:14:46 发布

阅读量300

点赞数

分类专栏：统计学方法|李航文章标签：机器学习统计学习方法 L1、L2正则化

本文链接：https://blog.csdn.net/wistonty11/article/details/126692538

版权

2022.08.27 李航老师《统计学习方法》： 一. 统计学习及监督学习概论
# 本文目的就是为学者简化学习内容，提取我认为的重点 把书读薄;
# 本文重点：1.5 正则化理解

一. 统计学习及监督学习概论

1.4 模型评估与模型选择

图 1.8

m=0：就是未知数最高是0次幂 y=C 是条平行于x轴的线；
m=1：就是未知数最高是1次幂 y=kx+b 是条斜线；

越复杂的函数，训练数据误差是逐步减小的，但在预测未知数据时是误差是先减小后增大的，原因就是过拟合。

机器学习会出现过拟合的现象，如何解决？ 正则化。

$\mathop{\min}\limits_{f\in F}\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)$

其中， $\lambda J(f)$ 为正则化项。

什么是正则化？
减少泛化误差的方法，也就是减少过拟合的方法，也就是不是减少训练误差而是减少测试误差的方法。
我们怎么思考去正则化限制测试误差？ 有两个角度

第一种理解：见【图 1.8】，上一章有讲，未知数次数越高，泛化能力就约差，越容易过拟合，我们应该适当的限制次数；限制方法就是在适当的位置m开始小到 $w_m,w_{m+1},...$ 均为0 ；
第二种理解：我们在训练神经网络的时候，比如输出层的输入：
$z^{[l]}=W^{[l]^T}·a^{[l-1]}+b^{[l]}$
- l是输出层，之前是隐藏层。就是用第l-1层输出的结果a带入到第l层神经网络上计算。
- 我们把隐藏层的w和b均扩大2倍时,那么l层输入变为了 $2^{(l-1)}a^{[l-1]}$ , 我们把输出层W缩小 $2^{(l-1)}$ 倍，那么