在最小二乘问题中,将误差平方和乘以 1 2 \frac{1}{2} 21的做法主要出于数学优化和计算便利性的考虑,具体原因及作用如下:
1. 微分计算的简化
当对目标函数进行微分时,平方项的导数会引入系数2。例如,对于误差项
(
y
i
−
f
(
x
i
,
β
)
)
2
(y_i - f(x_i, \beta))^2
(yi−f(xi,β))2,其导数为
2
(
y
i
−
f
(
x
i
,
β
)
)
2(y_i - f(x_i, \beta))
2(yi−f(xi,β))。若目标函数中包含
1
2
\frac{1}{2}
21,则求导后系数2与
1
2
\frac{1}{2}
21相乘结果为1,避免了额外的系数干扰。这使得最终的导数和方程组形式更简洁,例如:
∂
E
∂
β
j
=
∑
i
=
1
n
(
y
i
−
f
(
x
i
,
β
)
)
⋅
∂
f
∂
β
j
\frac{\partial E}{\partial \beta_j} = \sum_{i=1}^n (y_i - f(x_i, \beta)) \cdot \frac{\partial f}{\partial \beta_j}
∂βj∂E=i=1∑n(yi−f(xi,β))⋅∂βj∂f
而非:
∂
E
∂
β
j
=
2
∑
i
=
1
n
(
y
i
−
f
(
x
i
,
β
)
)
⋅
∂
f
∂
β
j
\frac{\partial E}{\partial \beta_j} = 2 \sum_{i=1}^n (y_i - f(x_i, \beta)) \cdot \frac{\partial f}{\partial \beta_j}
∂βj∂E=2i=1∑n(yi−f(xi,β))⋅∂βj∂f
2. 与概率模型的自然衔接
在统计学中,若假设误差服从高斯分布(正态分布),最大似然估计的目标函数形式为指数函数:
p
(
ϵ
)
∝
exp
(
−
ϵ
2
2
σ
2
)
p(\epsilon) \propto \exp\left(-\frac{\epsilon^2}{2\sigma^2}\right)
p(ϵ)∝exp(−2σ2ϵ2)
此时最小化
1
2
∑
ϵ
i
2
\frac{1}{2}\sum \epsilon_i^2
21∑ϵi2等价于最大化似然函数,
1
2
\frac{1}{2}
21的系数与高斯分布的参数形式一致,便于理论推导。
3. 优化结果的等价性
误差平方和乘以 1 2 \frac{1}{2} 21并不改变极值点的位置。因为缩放目标函数的系数仅影响函数值的绝对值,不影响极值点的参数解。因此,这种缩放仅出于形式上的便利,而非数学本质的调整。
4. 梯度下降等算法的兼容性
在数值优化方法(如梯度下降)中,
1
2
\frac{1}{2}
21的系数可以使梯度的表达式更简洁,便于设置学习率
η
\eta
η。例如,参数更新公式:
β
j
:
=
β
j
−
η
∑
i
=
1
n
(
f
(
x
i
,
β
)
−
y
i
)
⋅
∂
f
∂
β
j
\beta_j := \beta_j - \eta \sum_{i=1}^n (f(x_i, \beta) - y_i) \cdot \frac{\partial f}{\partial \beta_j}
βj:=βj−ηi=1∑n(f(xi,β)−yi)⋅∂βj∂f
避免了因系数2导致的步长调整复杂性。
总结
加入 1 2 \frac{1}{2} 21的核心目的是通过数学形式的优化,简化微分、概率模型推导和数值计算过程,同时不改变最小二乘问题的本质解。这一做法是数学工具与实际问题结合的典型优化策略。