正则化
前提
-
y = k x + b y=kx+b y=kx+b
-
拟合结果 f ( w ) = w T x f(w)=w^Tx f(w)=wTx
-
运用最小二乘法得到损失函数 L = ∑ i = 1 N ∣ ∣ w T x i − y i ∣ ∣ 2 L=\sum^N_{i=1}||w^Tx_i-y_i||^2 L=∑i=1N∣∣wTxi−yi∣∣2
-
对损失函数求导可得 w = ( X T X ) − 1 X T Y w=(X^TX)^{-1}X^TY w=(XTX)−1XTY
由于 X T X X^TX XTX有可能是不可逆矩阵,因此发成可能有无数多个解,很容易造成过拟合。
处理过拟合的方法
- 增加数据量
- 减小模型复杂度 :典型的是对特征进行处理
- 例如:特征的选择、特征提取(PCA)、 通过方差(方差大通常来说数据的波动大,有效信息更多)、p值
- 正则化
w = a r g m i n [ L ( w ) + λ P ( w ) ] = a r g m i n J ( w ) w=argmin[L(w)+\lambda P(w)]=argminJ(w) w=argmin[L(w)+λP(w)]=argminJ(w) λ > 0 \lambda>0 λ>0
注: L ( w ) L(w) L(w)为原损失函数, P ( w ) P(w) P(w)可理解为惩罚函数, λ \lambda λ为正则化参数, λ P ( w ) \lambda P(w) λP(w)为正则项
L 1 L^1 L1正则化 (Lasso回归,套索回归)
L 1 L^1 L1正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化
P ( w ) = ∣ ∣ w ∣ ∣ 1 = ∑ i = 1 m ∣ w i ∣ P(w)=||w||_1=\sum^m_{i=1}|w_i| P(w)=∣∣w∣∣1=∑i=1m∣wi∣
L 2 L^2 L2正则化 ( Ridge回归,岭回归)
L 2 L^2 L2正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化。
P ( w ) = ∣ ∣ w ∣ ∣ 2 2 = ∑ i = 1 N w i 2 P(w)=||w||^2_2=\sum^N_{i=1}w_i^2 P(w)=∣∣w∣∣22=∑i=1Nwi2 → w T w w^Tw wTw
J ( w ) = L ( w ) + λ P ( w ) J(w) = L(w)+\lambda P(w) J(w)=L(w)+λP(w)
= L ( w ) + λ w T w =L(w)+\lambda w^Tw =L(w)+λwTw
J ( w ) ′ = L ( w ) ′ + ( λ w T w ) ′ J(w)'=L(w)'+(\lambda w^Tw)' J(w)′=L(w)′+(λwTw)′
= X T X W + X T X W − X T Y − X T Y + 2 λ I W =X^TXW+X^TXW-X^TY-X^TY+2\lambda IW =XTXW+XTXW−XTY−XTY+2λIW
= 2 X T X W − 2 X T Y + 2 λ I W =2X^TXW-2X^TY+2\lambda IW =2XTXW−2XTY+2λIW
= 0 =0 =0
w = ( X T X + λ I ) − 1 X T Y w=(X^TX+\lambda I)^{-1}X^TY w=(X