机器学习实战笔记(二)
标签(空格分隔): 机器学习
局部加权线性回归
平方误差 ∑ i = 1 m ( y i − x i T w ) 2 \sum_{i=1}^m (y_i - x_i^T w)^2 ∑i=1m(yi−xiTw)2 = ( y − X w ) T ( y − X w ) =(y-Xw)^T(y-Xw) =(y−Xw)T(y−Xw)求导令其为0得到如下
ω
^
=
(
X
T
X
)
−
1
X
T
y
\hat{\omega } = (X^TX)^{-1} X^Ty
ω^=(XTX)−1XTy
ω
^
=
(
X
T
W
X
)
−
1
X
T
W
y
\hat{\omega } = (X^TWX)^{-1} X^TWy
ω^=(XTWX)−1XTWy
在局部加权线性回归中,较小的核容易得到较低的误差,但是最小的核容易过拟合
缩减系数来理解数据
- 首先如果数据特征多于样本点怎么办?
求
解
(
X
T
X
)
−
1
求解(X^TX)^{-1}
求解(XTX)−1会出现问题
统计学家引入岭回归,以及lasso法
岭回归
其实就是在 X T X 上 面 加 上 一 个 λ I 从 而 让 矩 阵 非 奇 异 X^TX上面加上一个\lambda I从而让矩阵非奇异 XTX上面加上一个λI从而让矩阵非奇异
在增加如下条件下,普通最小二乘法可以得到和岭回归一样的公式
∑ k = 1 n ω k 2 ≤ λ \sum _{k=1}^n \omega _k ^2 \leq \lambda k=1∑nωk2≤λ
lasso回归
∑ k = 1 n ∣ ω k ∣ ≤ λ \sum _{k=1}^n | \omega _k | \leq \lambda k=1∑n∣ωk∣≤λ
诊断偏差和方差
训练集误差和交叉验证集误差近似时:偏差/欠拟合
交叉验证集误差远大于训练集误差时:方差/过拟合