最小二乘问题的二分之一哪来的_线性最小二乘法解出来参数为真实值二分之一-CSDN博客

本文链接：https://blog.csdn.net/weixin_45372071/article/details/146585276

在最小二乘问题中，将误差平方和乘以 $\frac{1}{2}$ 的做法主要出于数学优化和计算便利性的考虑，具体原因及作用如下：

1. 微分计算的简化

当对目标函数进行微分时，平方项的导数会引入系数2。例如，对于误差项 $(y_i - f(x_i, \beta))^2$ ，其导数为 $2(y_i - f(x_i, \beta))$ 。若目标函数中包含 $\frac{1}{2}$ ，则求导后系数2与 $\frac{1}{2}$ 相乘结果为1，避免了额外的系数干扰。这使得最终的导数和方程组形式更简洁，例如：
$\frac{\partial E}{\partial \beta_j} = \sum_{i=1}^n (y_i - f(x_i, \beta)) \cdot \frac{\partial f}{\partial \beta_j}$
而非：
$\frac{\partial E}{\partial \beta_j} = 2 \sum_{i=1}^n (y_i - f(x_i, \beta)) \cdot \frac{\partial f}{\partial \beta_j}$

2. 与概率模型的自然衔接

在统计学中，若假设误差服从高斯分布（正态分布），最大似然估计的目标函数形式为指数函数：
$p(\epsilon) \propto \exp\left(-\frac{\epsilon^2}{2\sigma^2}\right)$
此时最小化 $\frac{1}{2}\sum \epsilon_i^2$ 等价于最大化似然函数， $\frac{1}{2}$ 的系数与高斯分布的参数形式一致，便于理论推导。

3. 优化结果的等价性

误差平方和乘以 $\frac{1}{2}$ 并不改变极值点的位置。因为缩放目标函数的系数仅影响函数值的绝对值，不影响极值点的参数解。因此，这种缩放仅出于形式上的便利，而非数学本质的调整。

4. 梯度下降等算法的兼容性

在数值优化方法（如梯度下降）中， $\frac{1}{2}$ 的系数可以使梯度的表达式更简洁，便于设置学习率 $\eta$ 。例如，参数更新公式：
$\beta_j := \beta_j - \eta \sum_{i=1}^n (f(x_i, \beta) - y_i) \cdot \frac{\partial f}{\partial \beta_j}$
避免了因系数2导致的步长调整复杂性。