算法的误差一般是由那几个方面引起的？

zbliquan

于 2023-04-21 16:47:59 发布

阅读量474

点赞数

分类专栏：每日一面文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/weixin_49824280/article/details/130292482

版权

每日一面专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1、泛化误差来源

机器学习的泛化误差来源于三个方面：依次是偏差，方差和数据噪声。
在这里插入图片描述
偏差：度量了学习算法的期望预测与真实结果间的偏离程度，刻画了算法本身的拟合能力；
方差：度量了同样大小的训练集变动时，该模型学习性能的变化，刻画了数据扰动影响；
数据噪声：表达了当前模型所能达到的误差下界，一定程度代表了该问题本身的学习难度。
总结来说，一个算法所能达到的泛化性能，由算法本身学习能力（偏差），数据的充分性（方差）及学习任务本身难度（偏差）共同决定。但对于一个给定的学习任务，可能数据噪声是无法改变的，因此要达到好的学习效果，及好的泛化性能，则需要使偏差较小，即能充分拟合数据，且使方差较小，即数据扰动带来的影响小。
但是，偏差和方差是互相排斥的，方差小必然会导致偏差大，而偏差小则方差就大。偏差小代表模型学习能力强，但是一旦学习能力强，则各种细节就会学习进去，导致受训练数据波动影响大。而不受数据波动影响的学习模型，则拟合能力相对来说却偏弱。

2、数据集误差

数据创造的偏差是最常见的问题，这里也包括几种情况：数据收集阶段产生的偏差、数据标记过程产生的偏差和数据预处理过程中产生的偏差。

2.1数据收集产生的偏差

数据收集误差，指在数据收集过程中，由于一些错误的认知或者忽视，导致一开始数据收集不规则。还有抽样过程产生的误差，因为抽样会导致偏差，导致应用结果受影响。

2.2、数据标记产生的偏差

收集完数据之后，大多数的应用需要对数据进行标注。尤其是在分类预测的任务中，需要对数据进行正确的划分，才能有效地训练模型。在这个过程也是很容易出错的。数据标记可能的偏差原因：
标签的差异（例如男性和男人，其实是一种标签，但是给了两种单词）
标注者思想的差异：包括标注者自身的文化、认知、信仰等导致的差异
标注者记忆的差异：这种情况主要发生在一些需要标注者记忆的情况中，例如一些问卷或者是认知识别的标注，可能标注者会出现前后不一致的情况

2.3、数据预处理产生的偏差

数据预处理过程产生的偏差有一点类似数据抽样选择过程。很多时候，数据预处理包括空值处理、异常值处理等步骤。在这些步骤中，对于一些错误或者偏差较大的数据，很多人习惯选择用均值填补甚至是删除的操作来对待错误和异常数据，但这是很容易出现偏差的地方。

3、总结

总的来说，在模型确定的情况下，模型和数据的误差关系有以下两个方面：
1)因模型无法表示基本数据的复杂度而造成的偏差(bias).—欠拟合
2)因模型过度拟合训练集数据而造成的方差(variance).—过拟合

zbliquan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法的误差一般是由那几个方面引起的？

总的来说，在模型确定的情况下，模型和数据的误差关系有以下两个方面：1)因模型无法表示基本数据的复杂度而造成的偏差(bias).—欠拟合2)因模型过度拟合训练集数据而造成的方差(variance).—过拟合。
复制链接

扫一扫