线性回归
线性回归(Liner Regression)
回归(regression)与分类(classification)
1.分类问题输出的值是离散的,回归问题输出的值是连续的
e.g. 预测明天的温度,预测明天是否下雨
2.分类问题输出的值是定性的,回归问题输出的值是定量的
3.损失函数不同
回归基本形式的解释
f(xi) = wTxi + b
x若是一维则可以写成f(x) = wx + b,是个很熟悉的直线方程
x若是四维:
x1 | x2 | x3 | x4 | y |
---|---|---|---|---|
0.1 | 16 | 1 | 2 | 1.1 |
0.2 | 12 | 2 | 3 | 2.2 |
0.3 | 10 | 3 | 4 | 3.2 |
上表展示了,某特征x1,x2,x3,x4和标签y,其中x1,x2,x3,x4构成x向量,但是标签y却是标量。所以需要将向量x转换成标量(点乘结果为一个数值),及 wTx
最小二乘法
注:二乘,即平方
思想:让总的误差的平方最小的y就是真值,这是基于——如果误差是随机的,应该围绕真值上下波动。
上图描述的是,一条真实的直线,如果误差是随机的,那么采样得到的样本点应该在对应位置满足高斯分布,即围绕真值波动。
那么使所有 y预测 - y样本达到最小,即是我们要的结果。
也即:
损失函数
损失函数(loss function)或代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。——百度百科
这里线性回归的损失就是
L
(
w
)
=
∑
i
=
0
n
∣
∣
w
T
x
i
−
y
i
∣
∣
2
L(w) =\sum_{i=0}^n||w^Tx_i-y_i||^2
L(w)=i=0∑n∣∣wTxi−yi∣∣2
上式化简得:
L
(
w
)
=
(
w
T
X
−
Y
T
)
(
X
w
−
Y
)
L(w) =(w^TX-Y^T)(Xw - Y)
L(w)=(wTX−YT)(Xw−Y)
求最小损失下的参数w
即: w ^ = a r g m i n L ( w ) \hat w = argminL(w) w^=argminL(w)
带入L(w),并且对w求偏导得:
∂
L
(
w
)
∂
w
=
2
X
T
X
w
−
2
X
T
Y
\frac {\partial L(w)}{\partial w} = 2X^TXw - 2X^TY
∂w∂L(w)=2XTXw−2XTY
令其为0求得w:
w
=
(
X
T
X
)
−
1
X
T
Y
w = (X^TX)^{-1}X^TY
w=(XTX)−1XTY
此时,预测的回归线就找到了
概率的视角
我们使用最小二乘的时候,就默认了误差(噪声)服从高斯(正态)分布,即:
ξ
~
N
(
0
,
σ
2
)
\xi \widetilde~ N(0,\sigma ^2)
ξ
N(0,σ2)
于是有: y样本 = y预测 + ξ
即:
y
样
本
∣
x
i
~
N
(
w
T
X
,
σ
2
)
y_{样本}|x_i \widetilde~ N(w^TX,\sigma ^2)
y样本∣xi
N(wTX,σ2)
极大似然估计
定义似然函数:
L
(
w
)
=
l
o
g
P
(
Y
∣
X
)
\mathcal L(w) = logP(Y|X)
L(w)=logP(Y∣X)
=
∑
i
=
0
n
l
o
g
P
(
y
i
∣
x
i
)
= \sum_{i=0}^nlogP(y_i|x_i)
=i=0∑nlogP(yi∣xi)带入高斯分布分布函数
=
∑
i
=
0
n
(
l
o
g
1
2
π
−
1
2
σ
2
(
y
i
−
w
T
x
i
)
2
)
= \sum_{i=0}^n(log\frac {1}{\sqrt{2\pi} } -\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2)
=i=0∑n(log2π1−2σ21(yi−wTxi)2)
这里使
L
(
w
)
\mathcal L(w)
L(w)达到最大(log似然最大)时,求此时的w
几何视角
x1 | x2 | x3 | x4 | y |
---|---|---|---|---|
0.1 | 16 | 1 | 2 | 1.1 |
0.2 | 12 | 2 | 3 | 2.2 |
0.3 | 10 | 3 | 4 | 3.2 |
还是上面的例子,把其看成四个向量x1、x2、x3、x4、y,注:这个y是样本y样本(y样本 = y预测+ξ 误差)。
因为所求的回归线是y预测 = wTx,也就是可以使用这些x向量去表示y预测,所以这些x和y预测在同一个面(高维)内。
有误差的y样本会游离于上述平面。于是用y样本向上述平面做投影,即可得到y预测
有关系:
式子:
X
T
(
Y
样
本
−
Y
预
测
)
=
0
→
X^T(Y_{样本}-Y_{预测}) = \overrightarrow 0
XT(Y样本−Y预测)=0
其中设y预测 = xβT
带入计算:
β
=
(
X
T
X
)
−
1
X
T
Y
\beta = (X^TX)^{-1}X^TY
β=(XTX)−1XTY