机器学习中“模型误差”的总结

        在机器学习中,模型误差 = 偏差(Bias)+ 方差(Variance)+ 数据本身的误差。


数据本身的误差噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。

噪声是怎么产生的呢?

        可能由于记录过程中的一些不确定性因素等导致,或者抽样的时候会出现一些搞错的信息,是无法避免的!能做的只有不断优化模型参数来权衡偏差和方差,使得模型误差尽可能降到最低。因此说噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界。

        如:对测试样本 x x x y D y_D yD x x x 在数据集中的标记 , y y y x x x 的真实标记 则噪声为:
在这里插入图片描述
        可以看到噪声表示了所有样本真实标签与标记标签的差值方期望,(有多少样本标记错误)


那什么是偏差和方差呢?他们又表示了什么?

        算法在不同训练集上学得的结果很可能不同,即便这些训练集是来自同一个分布。对测试样本 x x x y D y_D yD x x x 在数据集中的标记 , y y y x x x 的真实标记 , f ( x ; D ) f(x; D) f(x;D) 为训练集 D 上学得模型 f f f x x x 上的预测输出。
        以回归任务为例,学习算法的期望预测为:
在这里插入图片描述
什么是方差?

        使用样本数相同的不同训练集产生的方差为:
在这里插入图片描述
        可见方差(预测值与期望预测值差方的期望)度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。

产生方差的原因!

        产生高方差的原因通常是由于模型过于复杂,即模型过拟合时,会出现较大的方差。(可以这样想,当模型对一个样本集拟合非常好时,即过拟合时,会导致对其他类似样本集的预测值差别很大)


什么是偏差?

        期望输出与真实标记的差别称为偏差 (bias) :
在这里插入图片描述
        偏差****度量了学习算法的期望预测与真实结果的偏离程度即刻画了学习算法本身的拟合能力

产生偏差的原因!

        导致偏差的原因有多种,其中一个就是针对非线性问题使用线性方法求解,当模型欠拟合时,就会出现较大的偏差。(欠拟合时,模型预测值和真实标签有着较大的差距)


        一般来说偏差与方差是有冲突的,这称为偏差一方差窘境
在这里插入图片描述

        给定学习任务,假定我们能控制学习算法的训练程度,则在:

  • 训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以便学习器产生显著变化,此时偏差主导了泛化错误率。
  • 着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率。
  • 在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合。

        因此希望找到一组最优的参数,这些参数能权衡模型的偏差和方差,使得模型性能达到最优。

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狂奔的菜鸡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值