李宏毅机器学习P5-8
P5 误差从哪来
误差的期望值=噪声的方差+模型预测值的方差+预测值相对真实值的偏差的平方
E
(
(
y
−
f
^
(
x
)
)
2
)
=
σ
2
+
V
a
r
[
f
^
(
x
)
]
+
(
B
i
a
s
[
f
^
(
x
)
]
)
2
E((y- \hat {f}(x))^2)=\sigma^2+Var[\hat{f}(x)]+(Bias[\hat{f}(x)])^2
E((y−f^(x))2)=σ2+Var[f^(x)]+(Bias[f^(x)])2
偏差-方差的选择
理想中,我们希望得到一个偏差和方差都很小的模型(下图左上),但实际上往往很困难。
选择相对较好的模型的顺序:方差小,偏差小 > 方差小,偏差大 > 方差大,偏差小 > 方差大,偏差大。
方差小,偏差大之所以在实际中排位相对靠前,是因为它比较稳定。很多时候实际中无法获得非常全面的数据集,那么,如果一个模型在可获得的样本上有较小的方差,说明它对不同数据集的敏感度不高,可以期望它对新数据集的预测效果比较稳定。
Underfitting–Large Bias, Small Variance 偏差大,欠拟合
Overfitting–Small Bias, Large Variance 方差大,过拟合
Cross Validation
N-fold Cross Validation
P6 梯度下降
自适应学习率
举一个简单的思想:随着次数的增加,通过一些因子来减少学习率
- 通常刚开始,初始点会距离最低点比较远,所以使用大一点的学习率
- update好几次参数之后呢,比较靠近最低点了,此时减少学习率
- 比如
μ
t
=
μ
t
t
+
1
\mu^{t}=\frac{\mu^{t}}{\sqrt{t+1}}
μt=t+1μt是次数。随着次数的增加,\mu^{t}减小
学习率不能是一个值通用所有特征,不同的参数需要不同的学习率