Task03 LeeML P5-8

P5 误差从哪来

误差的期望值=噪声的方差+模型预测值的方差+预测值相对真实值的偏差的平方

E ( ( y − f ^ ( x ) ) 2 ) = σ 2 + V a r [ f ^ ( x ) ] + ( B i a s [ f ^ ( x ) ] ) 2 E((y- \hat {f}(x))^2)=\sigma^2+Var[\hat{f}(x)]+(Bias[\hat{f}(x)])^2 E((yf^(x))2)=σ2+Var[f^(x)]+(Bias[f^(x)])2
在这里插入图片描述

偏差-方差的选择

理想中,我们希望得到一个偏差和方差都很小的模型(下图左上),但实际上往往很困难。在这里插入图片描述
选择相对较好的模型的顺序:方差小,偏差小 > 方差小,偏差大 > 方差大,偏差小 > 方差大,偏差大。
方差小,偏差大之所以在实际中排位相对靠前,是因为它比较稳定。很多时候实际中无法获得非常全面的数据集,那么,如果一个模型在可获得的样本上有较小的方差,说明它对不同数据集的敏感度不高,可以期望它对新数据集的预测效果比较稳定。

Underfitting–Large Bias, Small Variance 偏差大,欠拟合

Overfitting–Small Bias, Large Variance 方差大,过拟合

在这里插入图片描述

Cross Validation

N-fold Cross Validation

在这里插入图片描述

P6 梯度下降

自适应学习率

举一个简单的思想:随着次数的增加,通过一些因子来减少学习率

  • 通常刚开始,初始点会距离最低点比较远,所以使用大一点的学习率
  • update好几次参数之后呢,比较靠近最低点了,此时减少学习率
  • 比如 μ t = μ t t + 1 \mu^{t}=\frac{\mu^{t}}{\sqrt{t+1}} μt=t+1 μt是次数。随着次数的增加,\mu^{t}减小
    学习率不能是一个值通用所有特征,不同的参数需要不同的学习率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值