最小二乘法及其几何意义
最小二乘法介绍
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。
最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
假设有N个样本点
X
=
(
x
1
,
x
2
,
…
,
x
N
)
T
X=(x_1, x_2, \dots, x_N)^T
X=(x1,x2,…,xN)T,
x
i
x_i
xi是
p
p
p维向量, 相应的观测数据
Y
=
(
y
1
,
y
2
,
…
,
y
N
)
T
Y=(y_1, y_2, \dots, y_N)^T
Y=(y1,y2,…,yN)T,则我们需要通过这N个样本点来拟合出一个线性函数
y
=
w
T
x
y=w^Tx
y=wTx,构建损失函数
L
(
w
)
=
∑
i
=
1
N
∣
∣
y
i
−
w
T
x
i
∣
∣
2
L(w)=\sum_{i=1}^N||y_i-w^Tx_i||^2
L(w)=∑i=1N∣∣yi−wTxi∣∣2,也就是要拟合出权重参数
w
w
w使得损失函数
L
(
w
)
L(w)
L(w)达到最小。
简化
L
(
w
)
=
(
y
1
−
w
T
x
1
y
2
−
w
T
x
2
…
y
N
−
w
T
x
N
)
(
y
1
−
w
T
x
1
y
2
−
w
T
x
2
⋮
y
N
−
w
T
x
N
)
=
(
Y
T
−
w
T
X
T
)
(
Y
−
X
w
)
=
Y
T
Y
−
w
T
X
T
Y
−
Y
T
X
w
+
w
T
X
T
X
w
(
w
T
X
T
Y
和
Y
T
X
w
是
秩
一
矩
阵
,
相
等
)
=
Y
T
Y
−
2
w
T
X
T
Y
+
w
T
X
T
X
w
\begin{aligned}L(w)&=\begin{pmatrix}y_1-w^Tx_1 & y_2-w^Tx_2 & \dots & y_N-w^Tx_N\end{pmatrix}\begin{pmatrix}y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \vdots \\ y_N-w^Tx_N\end{pmatrix}\\ &=(Y^T-w^TX^T)(Y-Xw)\\ &=Y^TY-w^TX^TY-Y^TXw+w^TX^TXw(w^TX^TY和Y^TXw是秩一矩阵,相等)\\ &=Y^TY-2w^TX^TY+w^TX^TXw\end{aligned}
L(w)=(y1−wTx1y2−wTx2…yN−wTxN)⎝⎜⎜⎜⎛y1−wTx1y2−wTx2⋮yN−wTxN⎠⎟⎟⎟⎞=(YT−wTXT)(Y−Xw)=YTY−wTXTY−YTXw+wTXTXw(wTXTY和YTXw是秩一矩阵,相等)=YTY−2wTXTY+wTXTXw
所以,
∂
L
(
w
)
∂
w
=
2
X
T
X
w
−
2
X
T
Y
=
0
\begin{aligned}\frac{\partial L(w)}{\partial w} &=2X^TXw-2X^TY=0 \end{aligned}
∂w∂L(w)=2XTXw−2XTY=0
由此便得到
w
=
(
X
T
X
)
−
1
X
T
Y
w=(X^TX)^{-1}X^TY
w=(XTX)−1XTY,其中
(
X
T
X
)
−
1
X
T
(X^TX)^{-1}X^T
(XTX)−1XT称为
X
X
X的伪逆。
最小二乘法的几何意义
这部分内容仅供辅助理解,因为 f ( x ) = w T x = x T β f(x) = w^Tx = x^T\beta f(x)=wTx=xTβ(此时 x x x是单个样本, p ∗ 1 p*1 p∗1维的列向量),所以 Y − X β Y-X\beta Y−Xβ(这里的 X X X是数据矩阵)应该垂直于 X X X空间里的所有向量,即 X T ( Y − X β ) = 0 X^T(Y-X\beta)=0 XT(Y−Xβ)=0,所以 β = ( X T X ) − 1 X T \beta=(X^TX)^{-1}X^T β=(XTX)−1XT,得到了从代数角度出发同样的结果(ps:因为 w T x w^Tx wTx和 x T β x^T\beta xTβ是一个实数,所以 x T β = β T x x^T\beta=\beta ^T x xTβ=βTx)
最小二乘法和极大似然估计的联系
先做一个假设,假设
f
(
x
)
=
w
T
x
+
ϵ
f(x)=w^Tx+\epsilon
f(x)=wTx+ϵ,
ϵ
∼
N
(
0
,
σ
2
)
\epsilon \sim N(0, \sigma ^2)
ϵ∼N(0,σ2),所以
f
(
x
)
∼
N
(
w
T
x
,
σ
2
)
f(x) \sim N(w^Tx, \sigma ^2)
f(x)∼N(wTx,σ2)。
所以利用极大似然有
w
=
a
r
g
m
a
x
w
∏
i
=
1
p
(
y
i
∣
x
i
;
w
)
=
a
r
g
m
a
x
w
∑
i
=
1
log
(
p
(
y
i
∣
x
i
;
w
)
)
=
a
r
g
m
a
x
w
∑
i
=
1
[
−
log
2
π
σ
−
∥
y
i
−
w
T
x
i
∥
2
2
σ
2
]
=
a
r
g
m
i
n
w
∑
i
=
1
[
log
2
π
σ
+
∥
y
i
−
w
T
x
i
∥
2
2
σ
2
]
=
a
r
g
m
i
n
w
∥
y
i
−
w
T
x
i
∥
2
\begin{aligned} w &= \underset{w}{argmax}\prod_{i=1}p(y_i|x_i;w) \\ &= \underset{w}{argmax}\sum_{i=1}\log (p(y_i|x_i;w)) \\ &= \underset{w}{argmax} \sum_{i=1}[-\log \sqrt{2\pi}\sigma - \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\sum_{i=1}[\log \sqrt{2\pi}\sigma + \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\|y_i-w^Tx_i\|^2 \end{aligned}
w=wargmaxi=1∏p(yi∣xi;w)=wargmaxi=1∑log(p(yi∣xi;w))=wargmaxi=1∑[−log2πσ−2σ2∥yi−wTxi∥2]=wargmini=1∑[log2πσ+2σ2∥yi−wTxi∥2]=wargmin∥yi−wTxi∥2
这样就得到了与前面一致的结论,所以我们可以说最小二乘法是相当于用极大似然估计求噪声为高斯分布的的线性模型。