最小二乘法矩阵推导
特征变量: X = [ 1 x 1 ( 1 ) ⋯ x n ( 1 ) 1 x 4 ( 2 ) ⋯ x n ( 2 ) ⋮ ⋮ ⋮ ⋮ 1 x 1 ( m ) ⋯ x n ( m ) ] X=\left[\begin{array}{cccc}1 & x_{1}^{(1)} & \cdots & x_{n}^{(1)} \\ 1 & x_{4}^{(2)} & \cdots & x_{n}^{(2)} \\ \vdots & \vdots & \vdots & \vdots \\ 1 & x_{1}^{(m)} & \cdots & x_{n}^{(m)}\end{array}\right] X=⎣⎢⎢⎢⎢⎡11⋮1x1(1)x4(2)⋮x1(m)⋯⋯⋮⋯xn(1)xn(2)⋮xn(m)⎦⎥⎥⎥⎥⎤
预测模型参数: θ = [ θ 0 θ 1 ⋮ θ n ] \theta=\left[\begin{array}{c}\theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{n}\end{array}\right] θ=⎣⎢⎢⎢⎡θ0θ1⋮θn⎦⎥⎥⎥⎤
预测值: H θ ( x ) = X ⋅ θ = [ 1 x 1 ( 1 ) ⋯ x n ( 1 ) 1 x 4 ( 2 ) ⋯ x n ( 2 ) ⋮ ⋮ ⋮ ⋮ 1 x 1 ( m ) ⋯ x n ( m ) ] ⋅ [ θ 0 θ 1 ⋮ θ n ] H_{\theta}(x)=X \cdot \theta=\left[\begin{array}{cccc}1 & x_{1}^{(1)} & \cdots & x_{n}^{(1)} \\ 1 & x_{4}^{(2)} & \cdots & x_{n}^{(2)} \\ \vdots & \vdots & \vdots & \vdots \\ 1 & x_{1}^{(m)} & \cdots & x_{n}^{(m)}\end{array}\right] \cdot\left[\begin{array}{c}\theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{n}\end{array}\right] Hθ(x)=X⋅θ=⎣⎢⎢⎢⎢⎡11⋮1x1(1)x4(2)⋮x1(m)⋯⋯⋮⋯xn(1)xn(2)⋮xn(m)⎦⎥⎥⎥⎥⎤⋅⎣⎢⎢⎢⎡θ0θ1⋮θn⎦⎥⎥⎥⎤
实际值: Y = [ y ( 0 ) y ( 1 ) ⋮ y ( n ) ] Y=\left[\begin{array}{c}y^{(0)} \\ y^{(1)} \\ \vdots \\ y^{(n)}\end{array}\right] Y=⎣⎢⎢⎢⎡y(0)y(1)⋮y(n)⎦⎥⎥⎥⎤
我们希望自己的预测值尽可能等于观测值,所以可以令: X ⋅ θ = Y X \cdot \theta=Y X⋅θ=Y 在这个式子中, X X X是我们选取的特征变量, Y Y Y是目标值(标签),它们都属于已知量,那么 θ \theta θ 的参数就可以去求解出来,求解过程如下:
两边同时左乘
X
T
X^{\mathrm{T}}
XT 得到:
X
T
X
⋅
θ
=
X
T
Y
X^{\mathrm{T}} X \cdot \theta=X^{\mathrm{T}} Y
XTX⋅θ=XTY
这里为什么要乘
X
T
X^{\mathrm{T}}
XT ,因为要求解逆矩阵,而只有方阵才有逆矩阵,
X
T
X
X^{\mathrm{T}} X
XTX 就凑出一个方阵了。
两边同时再左乘
(
X
T
X
)
−
1
\left(X^{\mathrm{T}} X\right)^{-1}
(XTX)−1 得到:
θ
=
(
X
T
X
)
−
1
X
T
Y
\theta=\left(X^{\mathrm{T}} X\right)^{-1} X^{\mathrm{T}} Y
θ=(XTX)−1XTY (注意: 上式中逆矩阵得存在)
所以:
θ
=
(
X
T
X
)
−
1
X
T
Y
\theta=\left(X^{\mathrm{T}} X\right)^{-1} X^{\mathrm{T}} Y
θ=(XTX)−1XTY