小吴的《机器学习周志华》学习笔记第二章模型评估与选择

最新推荐文章于 2024-08-19 23:29:38 发布

zdhbdz

最新推荐文章于 2024-08-19 23:29:38 发布

阅读量524

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/zdhbdz/article/details/88905712

版权

小吴的《机器学习周志华》学习笔记第二章模型评估与选择

上一周我们介绍了第一章的基础概念，这一次将带来第二章的前三节。后面的2.4 比较检验与2.5 偏差与方差，涉及概率论与数理统计概念较多，公式没有全部推完，等我推完、弄明白后下周再发?。（另每章习题描述太多，需另开板块撰写。）

2.1 经验误差与过拟合

错误率（error rate）：分类错误的样本数占样本总数的比例；如果在m个样本中有a个样本分类错误，则错误率E=a/m；
精度（accuracy）：1-a/m；
更一般地，
误差（error）：学习器的实际预测输出与样本的真实输出之间的差异；
训练误差（training error）/经验误差（empirical error）：学习器在训练集上的误差；
泛化误差（generalization error）：在新样本上的误差。

有些学习器在训练集上表现很好，甚至对于所有训练样本都正确的分类了，做到了分类精度100%。但是这样的大多情况都不是我们想要的学习器，我们实际希望的是在新样本上表现好的学习器。
有一些学习器把训练样本学习的“太好了”把训练样本的自身的一些特点都当作了所以潜在样本都会存在的特性，导致泛化能力下降，这种现象叫“过拟合”。

与过拟合相对的是欠拟合，这种现象的发生一般都是由于学习能力低下造成的，这个问题比较容易克服，利于在neural network中我们可以增加训练的轮数等。但是过拟合这种现象确实一种很难克服的问题。
这里我们先提出一些总所周知的NP-hard问题：非确定性多项式问题，可用一定数量的运算去解决多项式时间内可解决的问题。
机器学习面临的问题通常是NP难或者更难，而有效的学习算法必然实在多项式时间内完成的，若可以彻底避免过拟合问题，这就意味着我们构造了“P=NP”；所以你要是相信NP和P不想等，过拟合就不可能避免。
在这里插入图片描述

2.2 评估方法

我们需要对学习器的泛化误差进行评估并进而做出选择，在这里测试集尽可能的与训练集互斥。若我们只有一个包含m个样例的数据集D={(x₁, y₁),(x₂, y₂), …,(x_m, y<

最低0.47元/天解锁文章

zdhbdz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
小吴的《机器学习周志华》学习笔记第二章模型评估与选择

小吴的《机器学习周志华》学习笔记第二章模型评估与选择上一周我们介绍了第一章的基础概念，这一次将带来第二章的前三节。后面的2.4 比较检验与2.5 偏差与方差，涉及概率论与数理统计概念较多，公式没有全部推完，等我推完、弄明白后下周再发
复制链接

扫一扫