偏差-方差分解

偏差-方差分解试图对学习算法的期望泛华错误率进行拆解,我们知道,算法在不同的训练集上学习到的结果可能不同。对于测试样本 x ,令 yD x 在数据集中的标记,y x 的真实标记,f(x;D) 为训练集D上学得模型 f x 上的预测输出,以回归任务为例,学习算法的期望预测

f¯(x)=ED[f(x;D)]

使用样本相同的不同训练集产生的方差为
var(x)=ED[(f(x;D)f¯(x))2],

噪声为
ε2=ED[(yDy)2]

期望输出与真实标记的差别称为偏差
bias2(x)=(f¯(x)y)2

假定噪声期望为0,即 ED[yDy]=0 .

E(f;D)=ED[(f(x;D)yD)2]=ED[(f(x;D)f¯(x)+f¯(x)yD)2]=ED[(f(x;D)f¯(x))2]+ED[(f¯(x)yD)2]+ED[2(f(x;D)f¯(x))(f¯(x)yD)]=ED[(f(x;D)f¯(x))2]+ED[(f¯(x)yD)2]=ED[(f(x;D)f¯(x))2]+ED[(f¯(x)y+yyD)2]=ED[(f(x;D)f¯(x))2]+ED[(f¯(x)y)2]+ED[(yyD)2]+2ED[(f¯(x)y)(yyD)]=ED[(f(x;D)f¯(x))2]+ED[(f¯(x)y)2]+ED[(yyD)2]=variance+bias+noise

结论

  • the bias term measures the average amount by which the predictions of the estimator differ from the predictions of the best possible estimator for the problem(偏差度量了学习算法的预期期望与真实结果/最优学习算法的偏离程度,即刻画了算法本身的拟合能力)
  • The variance term measures the variability of the predictions of the estimator when fit over different instances LS of the problem.(方差度量了同样大小训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响)
  • the noise measures the irreducible part of the error which is due the variability in the data(噪声表达了在当前任务上任何学习算法所能达到的期望泛华误差的下界)

参考 《机器学习》-周志华

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值