一、基本理论
1.概念理解
在机器学习中,我们通过数据样本去训练模型的过程中,通常是定义一个误差函数,利用梯度下降法不断地使误差函数达到最小值,来提高模型的收敛速度。但是只有这单一的指标不能完全的衡量模型的性能。所以,我们还会考虑所学习到的模型的期望风险来反映了学习方法的泛化能力。即泛化误差(generalization error)。 如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么就可以说明方法就是有效。
偏差(bias):偏差衡量了模型的预测值与真实值之间的偏离关系。 换句话说就是偏离正确结果的差值。通常,在模型训练中,偏差反映了我们每次训练迭代的新模型的预测结果与真实值的距离,真实值即为训练过程中的标签 (label)。如果在训练中准确度达到98%,说明所有的预测值基本都靠近真实值,偏差较小。反之,准确度为65%,偏差较大,需要适当调整参数,降低偏差。
方差(variance): 方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况。简单来说是预测值之间的离散程度,预测值之间的距离越大,数据越散,方差越大。反之,距离越近,数据越集中,方差越小。通常在模型训练初始阶段时,模型复杂度较低,方差较小,但随着训练的迭代增加,模型变得越来越复杂,拟合度越高,方差也逐渐变大。
噪声(Noise):噪声表明的是样本中有问题的信息,噪声一般归结为两种:
(1)输入错误:输入的样本标记错误。 在收集数据源时会出现随机性错误,比如用户在填信息的时候不符合要求,出现误填。
(2)输出错误:不同的评判标准,导致噪声的产生。比如评定奖学金,两个用户的属性基本相同,评定一个获得奖学金,一个没有。
通常偏差(Biase)、方差(Variance)和噪声(Noise)之和可以统称为泛化误差。
2.公式
符 号 含 义 x 测 试 样 本 D 数 据 集 y D x 在 数 据 集 中 的 标 记 y x 的 真 实 标 记 f 训 练 集 D 学 到 的 模 型 f ( x ; D ) 由 训 练 集 D 学 到 的 模 型 f 对 x 的 预 测 输 出 f ‾ ( x ) 模 型 f 对 x 的 期 望 预 测 输 出 \begin{array}{c|c} \hline 符号 & 含义\\ \hline x & 测试样本\\ \hline D & 数据集\\ \hline y_D &x在数据集中的标记\\ \hline y & x的真实标记\\ \hline f & 训练集D学到的模型\\ \hline f(x;D)&由训练集D学到的模型f对x的预测输出\\ \hline \overline{f}(x) &模型f对x的期望预测输出\\ \hline \end{array} 符号xDyDyff(x;D)f(x)含义测试样本数据集x在数据集中的标记x的真实标记训练集D学到的模型由训练集D学到的模型f对x的预测输出模型f对x的期望预测输出
1.偏差定义
期望输出与真实标记的差别:
b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x)=(\overline{f}(x)-y)^2 bias2(x)=(f(x)−y)2
含义:模型的期望预测与真实结果的偏离程度。
2.方差定义
样本数相同的不同训练集产生的方差为:
v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) 2 ] var(x)=E_D[ (f(x;D)-\overline{f}(x))^2] var(x)=

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



