李宏毅机器学习2022.07.15--误差

1.误差

误差的来源一般来自于偏值与方差
f^ 为真实的模型,f为理想模型。f是f^ 的一个预估。而二者之间的差距是由偏值和方差所产生的。

1.2 偏差的评估

假设 x的平均值是μ,方差为 σ^2 。
在计算M组N个样本点的平均值后,对于M的期望值等于其μ,也称为无偏值估计,如下式:
在这里插入图片描述
当N越小时,则越离散。分布距离取决于
在这里插入图片描述
而σ^2取决于样本的数量。

1.3 方差的评估

先预测M后,再计算S^2估测样本的σ ^2。如下
在这里插入图片描述
而S^2的期望值普遍比σ ^2小的多,如果N增大,则分布距离会变小。
在这里插入图片描述

1.4 不同的模型的偏差和方差

1.4.1 不同模型的方差

一次模型分布方差较小,分布也比较集中。而对于多次模型方差较大,分布也比较分散。

1.4.2 不同模型的偏差

简单的模型有较大的偏差,分布也比较紧密,而对于复杂的模型偏差较小,分布也比较广。复杂模型在分布区域可能更为接近目标真实函数。

1.5 过拟合和欠拟合

过拟合:即训练样本效果较好,而测试样本效果却比较差。方差过大容易导致过拟合现象。
欠拟合:模型训练训练样本效果差,即偏差太大。

1.5.1 过拟合的解决办法

1.增加数据,或根据问题的理解去制造更多的数据
2.调整数据集。一般来说参数越小越好,曲线越平滑越好。

1.5.2 欠拟合的解决办法

总体来说需要重新设计模型,
1.增加更多的输入特征
2.考虑更复杂模型

1.6 模型的选择

不要根据模型的测试样本效果就想当然的选择模型。可能会导致实际的测试样本效果偏差大于之前的测试样本值。

1.6.1交叉验证

模型的选择需要较差验证。将训练集分为训练集和测试集,用训练集来训练模型,用测试集来验证。确定好最佳的模型后。再使用全部的训练集去训练最佳模型,在使用测试集进行训练查看效果。
如果担心拆分训练集之后影响到效果,可以考虑N-交叉验证

1.6.2 N-交叉验证

将训练集差分成N份,N-1份训练集,1份验证集。对于不同的模型的误差求各模型的平均值来判断最佳模型。再使用训练集来训练最佳模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值