l = ∣ ∣ X w − y ∣ ∣ 2 l=||X\boldsymbol{w}-\boldsymbol{y}||^2 l=∣∣Xw−y∣∣2,求 w \boldsymbol{w} w的最小二乘估计,即求 ∂ l w \frac{\partial l}{\boldsymbol{w}} w∂l的零点。其中 y \boldsymbol{y} y是 m × 1 m\times1 m×1列向量, X X X是 m × n m \times n m×n矩阵, w \boldsymbol{w} w是 n × 1 n \times 1 n×1列向量, l l l是标量。用标量对矩阵的求导的微分法求解。
解: 这是求标量对向量的导数。首先解决这个向量模的平方的问题:
l
=
∣
∣
X
w
−
y
∣
∣
2
=
(
X
w
−
y
)
T
(
X
w
−
y
)
l=||X\boldsymbol{w}-\boldsymbol{y}||^2=(X\boldsymbol{w}-\boldsymbol{y})^T(X\boldsymbol{w}-\boldsymbol{y})
l=∣∣Xw−y∣∣2=(Xw−y)T(Xw−y)
根据上面的算法:
1.先使用矩阵乘法法则求微分
d
l
dl
dl:
d
l
=
(
X
d
w
)
T
(
X
w
−
y
)
+
(
X
w
−
y
)
T
(
X
d
w
)
dl=(X\boldsymbol{dw})^T(X\boldsymbol{w}-\boldsymbol{y})+(X\boldsymbol{w}-\boldsymbol{y})^T(X\boldsymbol{dw})
dl=(Xdw)T(Xw−y)+(Xw−y)T(Xdw)
2.给
d
l
dl
dl套上迹
t
r
tr
tr:
d
l
=
t
r
(
X
d
w
)
T
(
X
w
−
y
)
+
(
X
w
−
y
)
T
(
X
d
w
)
=
t
r
[
2
(
X
w
−
y
)
T
(
X
d
w
)
]
dl=tr(X\boldsymbol{dw})^T(X\boldsymbol{w}-\boldsymbol{y})+(X\boldsymbol{w}-\boldsymbol{y})^T(X\boldsymbol{dw})=tr[2(X\boldsymbol{w}-\boldsymbol{y})^T(X\boldsymbol{dw})]
dl=tr(Xdw)T(Xw−y)+(Xw−y)T(Xdw)=tr[2(Xw−y)T(Xdw)]
根据导数与微分的联系
d
l
=
t
r
(
∂
l
∂
w
T
d
w
)
dl=tr(\frac{\partial l}{\partial \boldsymbol{w}}^Td\boldsymbol{w})
dl=tr(∂w∂lTdw)有:
∂
f
∂
w
=
2
X
T
(
X
w
−
y
)
\frac{\partial f}{\partial \boldsymbol{w}}=2X^T(X\boldsymbol{w}-\boldsymbol{y})
∂w∂f=2XT(Xw−y)
令
∂
l
∂
w
=
0
\frac{\partial l}{\partial \boldsymbol{w}}=0
∂w∂l=0,有:
X T X w = X T y X^TX\boldsymbol{w}=X^T\boldsymbol{y} XTXw=XTy,得到 w \boldsymbol{w} w的最小二乘估计为 w = ( X T X ) − 1 X T y \boldsymbol{w}=(X^TX)^{-1}X^T\boldsymbol{y} w=(XTX)−1XTy