岭回归和Lasso回归:
给定数据集
D
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
m
,
y
m
)
D = {(x_1 , y_1), (x_2 , y_2) ,… , (x_m , y_m)}
D=(x1,y1),(x2,y2),…,(xm,ym),其中
x
∈
R
d
x\in R^{d}
x∈Rd,
y
∈
R
y\in R
y∈R,我们考虑最简单的线性回归模型,以平方误差为损失函数,则优化目标为:
岭回归
当样本特征很多,而样本数相对较少时,上式很容易陷入过拟合。为了缓解过拟合问题,可对上式引入正则化项,若使用 L2 范数正则化(关于L1、L2范数正则化可以看我的另一篇文章),则有:
其中正则化参数 λ>0,上式称为 “岭回归” (ridge regression) ,通过引入 L2 范数正则化,确能显著降低过拟合的风险。
当线性回归过拟合时,权重系数 w j w_j wj 就会非常的大。岭回归(Ridge Regression)可以理解为在线性回归的损失函数的基础上,加入一个L2正则项,来限制权重 w w w不要过大。通过确定λ的值可以使得模型在偏差和方差(关于偏差方差可以看我的另一篇博客机器学习中“模型误差”的总结)之间达到平衡,随着λ的增大,模型的方差减小,偏差增大。
岭回归一般写成如下式子形式:
L
o
s
s
=
L
0
+
λ
2
n
∑
w
2
Loss=L_0+ \dfrac{\lambda}{2n}\sum w^2
Loss=L0+2nλ∑w2
λ \lambda λ为正则项系数, n n n为训练集大小, 1 2 \dfrac{1}{2} 21是为了求导方便, w w w为参数。
现在从数学方面理解一下为什么L2正则项的加入,能够限制权重
w
w
w不要过大!
假设一个回归模型的损失函数为:
L
o
s
s
=
∑
(
y
−
w
x
i
)
+
λ
2
n
∑
w
2
Loss=\sum (y-wx_i)+ \dfrac{\lambda}{2n}\sum w^2
Loss=∑(y−wxi)+2nλ∑w2
对参数
w
w
w进行求导:
如果不加L2正则化, X X T XX^T XXT为0时,参数趋于无限大,加了正则化后就会降低这个风险!(数学太有用了,基础科学呀)
Lasso回归
将正则化项中的 L2 范数替换为 L1范数,就是Lasso回归:
L1不仅有助于降低过拟合风险还会带来一个额外的好处:它比后者更易于获得"稀疏" (sparse)解,即它求得的
w
w
w 会有更少的非零分量。
因此Lasso回归可以进行特征选择,Lasso回归属于嵌入式选择,嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
关于为什么L1正则具有稀疏性的数学推导,可以参考作者Magic 杨的博客,写的很细,这里我也进行一下简单的推导: