最小二乘岭回归 lasso回归

最新推荐文章于 2024-07-17 00:14:30 发布

zhengjihao

最新推荐文章于 2024-07-17 00:14:30 发布

阅读量2.6k

点赞数 1

分类专栏： ★机器学习 ------回归文章标签： Lasso 回归岭回归最小二乘 LWLR

本文链接：https://blog.csdn.net/zhengjihao/article/details/70318660

版权

★机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

------回归

1 篇文章 0 订阅

订阅专栏

线性回归适用于数值型数据，目的是对数据进行预测。线性回归的一般模型可以表示为：

y = θ 0 + \sum i = 1 m θ i x i

$y=\theta_0+\sum_{i=1}^{m}\theta_ix_i$
令

x=(1,x1,…,xn)T,θ=(θ0,θ1,…,θn)T $x=(1,x_1,\dots,x_n)^T,\theta=(\theta_0,\theta_1,\dots,\theta_n)^T$ ,则上式可以重写为

y = θ T x = x T θ

$y=\theta^Tx=x^T\theta$

在线性回归中，损失函数是平方损失 $L(y,f(x))=(y-f(x))^2$
假设给定数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m) \}$ ,
假设 $x_i=(1,x_i^1,\dots,x_i^n)^T$ , $y=(y_1,y_2,\dots,y_m)^T$ , $X=(x_1^T,\dots,x_m^T)^T$ , 则线性回归的矩阵形式为

y = X θ

$y=X\theta$
经验风险为

R = \sum i = 1 m (y i - x T i θ) 2 = (y - X θ) T (y - X θ)

$R=\sum_{i=1}^{m}(y_i-x_i^T\theta)^2=(y-X\theta)^T(y-X\theta)$
对

θ $\theta$ 求导数

\partial R \partial θ = - 2 X T (y - X θ) = 0

$\frac{\partial R}{\partial \theta}=-2X^T(y-X\theta)=0$
得到

θ^=(XTX)−1XTy $\hat{\theta}=(X^TX)^{-1}X^Ty$
值得注意的是，上述公式中包含

(XTX)−1 $(X^TX)^{-1}$ ，因此这个方程只有个逆矩阵存在时才有用。该方法称为普通最小二乘法(ordinary least squares)。

线性回归的一个问题是有可能出现欠拟合现象，因为它求的是具有最小均方差的无偏估计量。如果模型欠拟合，则不能取得很好的效果。所以有些方法允许在估计中引入一些偏差，从而降低均方误差。其中一个方差就是局部加权线性回归(Locally weighted Linear regression)。

在该算法中，我们给带预测点附近的每个点赋予一定的权重，然后以加权的平方误差为目标函数，求解参数向量。
在普通最小二乘法中，目标函数为

R = \sum i = 1 m (y i - x T i θ) 2

$R=\sum_{i=1}^{m}(y_i-x_i^T\theta)^2$
而在LWLR中，目标函数为

R = \sum i = 1 m w i (y i - x T i θ) 2

$R=\sum_{i=1}^{m}w_i(y_i-x_i^T\theta)^2$
其中，

wi $w_i$ 是指样本

xi $x_i$ 相对于待预测变量

x $x$ 的权重。
LWLR使用 “核”来对附近的点赋予更高的权重，最常用的是高斯核，高斯核对应的权重如下：

W (i, i) = exp (| x i - x | - 2 k 2)

$W(i,i)=\exp\left (\frac{|x_i-x|}{-2k^2} \right )$
这样就构建了一个只含对角元素的权重矩阵

W $W$ .
假设

V $V$ 是一个对角矩阵，且

V∗V=W $V*V=W$ , 即

Vii=Wii−−−√ $V_{ii}=\sqrt{W_{ii}}$ ,且有

VT=V $V^T=V$ ,那么LWLR的损失函数可以用矩阵表示为

R=(V(y−Xθ))T(V(y−Xθ)) $R=(V(y-X\theta))^T(V(y-X\theta))$ ,
对

θ $\theta$ 求导得到

\partial R \partial θ = - 2 X T V T V (y - X θ) = 0

$\frac{\partial R}{\partial \theta}=-2X^TV^TV(y-X\theta)=0$
得到

θ^= (X T W X) - 1 X T W y

$\hat{\theta}=(X^TWX)^{-1}X^TWy$

上面讨论到，如果 $X^TX$ 的逆矩阵不存在，则普通最小二乘法就会失效。比如，属性比样本多，则逆矩阵不存在。解决的办法是引入正则化项。下面，我们分别讨论岭回归(Ridge Regression)和lasso回归(lasso Regression)。

岭回归是在目标函数中加入了L2正则化项，改进后的目标函数为

R = \sum i = 1 m (y i - x T i θ) 2 + λ \sum j = 1 n θ 2 j

$R= \sum_{i=1}^{m}(y_i-x_i^T\theta)^2+\lambda \sum_{j=1}^{n}\theta_j^2$
或者可以写为:

min \sum i = 1 m (y i - x T i θ) 2 s . t . \sum j = 1 n θ 2 j \leq t

$\begin{aligned} &\min \sum_{i=1}^{m}(y_i-x_i^T\theta)^2\\ &s.t. \sum_{j=1}^{n}\theta_j^2 \leq t \end{aligned}$
目标函数的矩阵形式可以写为：

R = (y - X θ) T (y - X θ) + λ θ T θ

$R=(y-X\theta)^T(y-X\theta)+\lambda \theta^T\theta$
求导后得到：

\partial R \partial θ = - 2 X T (y - X θ) + 2 λ θ = 0

$\frac{\partial R}{\partial \theta}=-2X^T(y-X\theta)+2\lambda \theta=0$
结果为

θ^= (X T X + λ I) - 1 X T y

$\hat{\theta}=(X^TX+\lambda I)^{-1}X^{T}y$
其中，

I $I$ 为单位矩阵。
岭回归相当于在矩阵

XTX $X^TX$ 上加上一个

λI $\lambda I$ 从而使得矩阵非奇异，进而能对其求逆.

如果在目标函数中加入L1正则化项，则得到了Lasso （Least Absolute Shrinkage and Selection Operator）回归。lasso回归的目标函数可以写为：

R = \sum i = 1 m (y i - θ T x i) 2 + λ \sum j = 1 n | θ j |

$R=\sum_{i=1}^{m}(y_i-\theta^T x_i)^2+\lambda \sum_{j=1}^{n} |\theta_j|$

或者可以写为:

min \sum i = 1 m (y i - x T i θ) 2 s . t . \sum j = 1 n | θ j | \leq t

$\begin{aligned} &\min \sum_{i=1}^{m}(y_i-x_i^T\theta)^2\\ &s.t. \sum_{j=1}^{n}|\theta_j| \leq t \end{aligned}$

因为L1正则化不可导，所以我们不在继续讨论。具如果有兴趣，可以参看该文档

参考文档：
《机器学习实战》
《The Elements of Statistical Learning 》
《斯坦福机器学习讲义(全)Stanford_Machine_Leaning》

zhengjihao

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

最小二乘 岭回归 lasso回归

最小二乘岭回归 lasso回归