最小二乘法 ——白板推导系列(第三节)

最小二乘法及其几何意义

最小二乘法介绍

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。
最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
假设有N个样本点 X = ( x 1 , x 2 , … , x N ) T X=(x_1, x_2, \dots, x_N)^T X=(x1,x2,,xN)T, x i x_i xi p p p维向量, 相应的观测数据 Y = ( y 1 , y 2 , … , y N ) T Y=(y_1, y_2, \dots, y_N)^T Y=(y1,y2,,yN)T,则我们需要通过这N个样本点来拟合出一个线性函数 y = w T x y=w^Tx y=wTx,构建损失函数 L ( w ) = ∑ i = 1 N ∣ ∣ y i − w T x i ∣ ∣ 2 L(w)=\sum_{i=1}^N||y_i-w^Tx_i||^2 L(w)=i=1NyiwTxi2,也就是要拟合出权重参数 w w w使得损失函数 L ( w ) L(w) L(w)达到最小。
简化
L ( w ) = ( y 1 − w T x 1 y 2 − w T x 2 … y N − w T x N ) ( y 1 − w T x 1 y 2 − w T x 2 ⋮ y N − w T x N ) = ( Y T − w T X T ) ( Y − X w ) = Y T Y − w T X T Y − Y T X w + w T X T X w ( w T X T Y 和 Y T X w 是 秩 一 矩 阵 , 相 等 ) = Y T Y − 2 w T X T Y + w T X T X w \begin{aligned}L(w)&=\begin{pmatrix}y_1-w^Tx_1 & y_2-w^Tx_2 & \dots & y_N-w^Tx_N\end{pmatrix}\begin{pmatrix}y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \vdots \\ y_N-w^Tx_N\end{pmatrix}\\ &=(Y^T-w^TX^T)(Y-Xw)\\ &=Y^TY-w^TX^TY-Y^TXw+w^TX^TXw(w^TX^TY和Y^TXw是秩一矩阵,相等)\\ &=Y^TY-2w^TX^TY+w^TX^TXw\end{aligned} L(w)=(y1wTx1y2wTx2yNwTxN)y1wTx1y2wTx2yNwTxN=(YTwTXT)(YXw)=YTYwTXTYYTXw+wTXTXw(wTXTYYTXw)=YTY2wTXTY+wTXTXw
所以,
∂ L ( w ) ∂ w = 2 X T X w − 2 X T Y = 0 \begin{aligned}\frac{\partial L(w)}{\partial w} &=2X^TXw-2X^TY=0 \end{aligned} wL(w)=2XTXw2XTY=0
由此便得到 w = ( X T X ) − 1 X T Y w=(X^TX)^{-1}X^TY w=(XTX)1XTY,其中 ( X T X ) − 1 X T (X^TX)^{-1}X^T (XTX)1XT称为 X X X的伪逆。

最小二乘法的几何意义

  这部分内容仅供辅助理解,因为 f ( x ) = w T x = x T β f(x) = w^Tx = x^T\beta f(x)=wTx=xTβ(此时 x x x是单个样本, p ∗ 1 p*1 p1维的列向量),所以 Y − X β Y-X\beta YXβ(这里的 X X X是数据矩阵)应该垂直于 X X X空间里的所有向量,即 X T ( Y − X β ) = 0 X^T(Y-X\beta)=0 XT(YXβ)=0,所以 β = ( X T X ) − 1 X T \beta=(X^TX)^{-1}X^T β=(XTX)1XT,得到了从代数角度出发同样的结果(ps:因为 w T x w^Tx wTx x T β x^T\beta xTβ是一个实数,所以 x T β = β T x x^T\beta=\beta ^T x xTβ=βTx

最小二乘法和极大似然估计的联系

先做一个假设,假设 f ( x ) = w T x + ϵ f(x)=w^Tx+\epsilon f(x)=wTx+ϵ, ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim N(0, \sigma ^2) ϵN(0,σ2),所以 f ( x ) ∼ N ( w T x , σ 2 ) f(x) \sim N(w^Tx, \sigma ^2) f(x)N(wTx,σ2)
所以利用极大似然有
w = a r g m a x w ∏ i = 1 p ( y i ∣ x i ; w ) = a r g m a x w ∑ i = 1 log ⁡ ( p ( y i ∣ x i ; w ) ) = a r g m a x w ∑ i = 1 [ − log ⁡ 2 π σ − ∥ y i − w T x i ∥ 2 2 σ 2 ] = a r g m i n w ∑ i = 1 [ log ⁡ 2 π σ + ∥ y i − w T x i ∥ 2 2 σ 2 ] = a r g m i n w ∥ y i − w T x i ∥ 2 \begin{aligned} w &= \underset{w}{argmax}\prod_{i=1}p(y_i|x_i;w) \\ &= \underset{w}{argmax}\sum_{i=1}\log (p(y_i|x_i;w)) \\ &= \underset{w}{argmax} \sum_{i=1}[-\log \sqrt{2\pi}\sigma - \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\sum_{i=1}[\log \sqrt{2\pi}\sigma + \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\|y_i-w^Tx_i\|^2 \end{aligned} w=wargmaxi=1p(yixi;w)=wargmaxi=1log(p(yixi;w))=wargmaxi=1[log2π σ2σ2yiwTxi2]=wargmini=1[log2π σ+2σ2yiwTxi2]=wargminyiwTxi2
这样就得到了与前面一致的结论,所以我们可以说最小二乘法是相当于用极大似然估计求噪声为高斯分布的的线性模型。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值