本文首发在我的个人博客:https://jlice.top/p/7ka8s/。欢迎大家前去参观,么么哒~
代数形式
最小二乘法在中学时讲过。有一些散点有线性的趋势,用一个一次函数去拟合,使得差距最小化。
假设数据点为 \((x_1, y_1), (x_2, y_2),\dots,(x_m, y_m)\) ,使用如下一次函数去拟合:
\[ y = w_1 x + w_0 \]
对于 \(x_i\) ,采用上述函数计算出的结果记为 \(\hat{y_i}\) ,即:
\[ \hat{y_i} = w_1 x_i+w_0 \]
定义差距为:
\[ \sum_{i=1}^m (y_i - \hat{y_i})^2 \]
现需要最小化这个差距。显然,上式为关于 \(w\_0\) 和 \(w\_1\) 的函数(损失函数)。为了方便,将 \(\sum\limits\_{i=1}^m\) 简记为 \(\sum\) ,记:
\[ \begin{split} f(w_0, w_1) &= \sum (y_i - \hat{y_i})^2 \\ &= \sum (y_i - (w_1 x_i + w_0))^2 \\ &= \sum (y_i^2 - 2y_ix_iw_1 - 2y_iw_0 + x_i^2w_1^2 + w_0^2 + 2x_iw_0w_1) \\ \end{split} \]
分别对 \(w_0, w_1\) 求偏导:
\[ \begin{split} \frac {\partial f} {\partial w_0} &= \sum (-2y_i + 2w_0 + 2x_iw_1) \\ &= -2 \sum {y_i} + 2mw_0 + 2w_1 \sum {x_i} \\ \frac {\partial f} {\partial w_1} &= \sum (-2x_iy_i + 2x_i^2w_1 + 2w_0x_i) \\ &= -2\sum{x_iy_i} + 2w_1\sum {x_i^2} + 2w_0\sum {x