西瓜书学习第一天------模型评估与选择

最新推荐文章于 2024-04-30 17:49:40 发布

故梦UNIVERSE

最新推荐文章于 2024-04-30 17:49:40 发布

阅读量142

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44809488/article/details/118365858

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

经验误差与过拟合

错误率：分类错误的样本数占总样本数的比例
精度 = 1-错误率
误差：学习器的实际预测输出与样本的真实输出之间的差异
训练误差（经验误差）：学习器在训练集上的误差
泛化误差：在新样本上的误差
我们希望得到泛化误差小的学习器，然而，我们事先并不知道新样本是什么样，实际能做的是努力使经验误差最小化。当学习器把训练样本学的太好了的时候，很可能已经把训练样本自身的一些特点当做了所有潜在样本的都会具有的一般性质，这样会导致泛化性能下降。这种现象在机器学习中称为：“过拟合”相反欠拟合是指对训练样本的一般性质尚未学好。
导致过拟合最常见的情况就是由于学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合通常是由于学习能力低下而造成的。

评估方法

留出法：直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试T，在S上训练出模型后，用T来评估其测试误差，作为范化误差的估计。
交叉验证法：先将数据集划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性。每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。k常用的取值是10，此时称为10折交叉验证；其他常用的k值有5、20等。
性能度量
前面提到的错误率和精度
查准率
查全率
以查准率为纵轴、查全率为横轴作图。就得到了查准率-查全率曲线，简称“P-R曲线”

故梦UNIVERSE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
西瓜书学习第一天------模型评估与选择

经验误差与过拟合错误率：分类错误的样本数占总样本数的比例精度 = 1-错误率误差：学习器的实际预测输出与样本的真实输出之间的差异训练误差（经验误差）：学习器在训练集上的误差泛化误差：在新样本上的误差我们希望得到泛化误差小的学习器，然而，我们事先并不知道新样本是什么样，实际能做的是努力使经验误差最小化。当学习器把训练样本学的太好了的时候，很可能已经把训练样本自身的一些特点当做了所有潜在样本的都会具有的一般性质，这样会导致泛化性能下降。这种现象在机器学习中称为：“过拟合”相反欠拟合是指对训练样本的一
复制链接

扫一扫