一个潜在疑问是:如何判断应该使用均方误差还是总平方误差(或绝对误差)?
总平方误差是指每个点的误差之和,方程式为:
M
=
∑
i
=
1
m
1
2
(
y
−
y
^
)
2
M = \sum_{i=1}^m\frac{1}{2}(y-\hat{y})^2
M=∑i=1m21(y−y^)2
均方误差是指这些误差的平均值,方程式为:
T
=
∑
i
=
1
m
1
2
m
(
y
−
y
^
)
2
T = \sum_{i=1}^m\frac{1}{2m}(y-\hat{y})^2
T=∑i=1m2m1(y−y^)2
其中 m是数据点的数量,
好消息是,选择哪个并不重要。可以看出,总平方误差是多个均方误差相加的结果,因为
M = m T M=mT M=mT
因此,既然导数是线性方程, T的梯度也是 m乘以 M的梯度。
但是,梯度下降步骤包括减去误差的梯度乘以学习速率 α \alpha α。因此,选择均方误差还是总平方误差只是选择不同的学习速率。
在现实中,我们可以借助算法判断什么样的学习速率比较合适。因此,如果我们使用均方误差或总平方误差,算法将只是选择不同的学习速率。