最小二乘法 ——白板推导系列（第三节）

最新推荐文章于 2024-07-08 19:35:47 发布

回想sy

最新推荐文章于 2024-07-08 19:35:47 发布

阅读量175

点赞数

分类专栏：机器学习文章标签：概率论线性代数机器学习

本文链接：https://blog.csdn.net/weixin_49708196/article/details/120034186

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

最小二乘法及其几何意义

最小二乘法介绍

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。
最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
假设有N个样本点 $X=(x_1, x_2, \dots, x_N)^T$ , $x_i$ 是 $p$ 维向量, 相应的观测数据 $Y=(y_1, y_2, \dots, y_N)^T$ ，则我们需要通过这N个样本点来拟合出一个线性函数 $y=w^Tx$ ,构建损失函数 $L(w)=\sum_{i=1}^N||y_i-w^Tx_i||^2$ ，也就是要拟合出权重参数 $w$ 使得损失函数 $L (w)$ 达到最小。
简化
$\begin{aligned}L(w)&=\begin{pmatrix}y_1-w^Tx_1 & y_2-w^Tx_2 & \dots & y_N-w^Tx_N\end{pmatrix}\begin{pmatrix}y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \vdots \\ y_N-w^Tx_N\end{pmatrix}\\ &=(Y^T-w^TX^T)(Y-Xw)\\ &=Y^TY-w^TX^TY-Y^TXw+w^TX^TXw(w^TX^TY和Y^TXw是秩一矩阵，相等)\\ &=Y^TY-2w^TX^TY+w^TX^TXw\end{aligned}$
所以，
$\begin{aligned}\frac{\partial L(w)}{\partial w} &=2X^TXw-2X^TY=0 \end{aligned}$
由此便得到 $w=(X^TX)^{-1}X^TY$ ,其中 $X^TX)^{-1}X^T$ 称为 $X$ 的伪逆。

最小二乘法的几何意义

这部分内容仅供辅助理解，因为 $w^Tx = x^T\beta$ (此时 $x$ 是单个样本， $p * 1$ 维的列向量)，所以 $Y-X\beta$ （这里的 $X$ 是数据矩阵）应该垂直于 $X$ 空间里的所有向量,即 $X^T(Y-X\beta)=0$ ，所以 $\beta=(X^TX)^{-1}X^T$ ,得到了从代数角度出发同样的结果（ps：因为 $w^Tx$ 和 $x^T\beta$ 是一个实数，所以 $x^T\beta=\beta ^T x$ ）

最小二乘法和极大似然估计的联系

先做一个假设，假设 $f(x)=w^Tx+\epsilon$ , $\epsilon \sim N(0, \sigma ^2)$ ,所以 $\sim N(w^Tx, \sigma ^2)$ 。
所以利用极大似然有
$\begin{aligned} w &= \underset{w}{argmax}\prod_{i=1}p(y_i|x_i;w) \\ &= \underset{w}{argmax}\sum_{i=1}\log (p(y_i|x_i;w)) \\ &= \underset{w}{argmax} \sum_{i=1}[-\log \sqrt{2\pi}\sigma - \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\sum_{i=1}[\log \sqrt{2\pi}\sigma + \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\|y_i-w^Tx_i\|^2 \end{aligned}$
这样就得到了与前面一致的结论，所以我们可以说最小二乘法是相当于用极大似然估计求噪声为高斯分布的的线性模型。

回想sy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最小二乘法 ——白板推导系列（第三节）

最小二乘法及其几何意义最小二乘法介绍最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。假设有N个样本点X=(x1,x2,…,xN)TX=(x_1, x_2, \dots, x_N)^TX=(x1,x2,…,xN)T, xix_ixi是ppp维向量, 相应的观测数
复制链接

扫一扫