机器学习（周志华）知识点总结——第2章模型评估与选择（后期上传word/PDF）

最新推荐文章于 2022-06-08 11:27:23 发布

。画地为牢。

最新推荐文章于 2022-06-08 11:27:23 发布

阅读量7.4k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45837461/article/details/106720684

版权

第2章模型评估与选择

2.1 经验误差与过拟合

“错误率”：分类错误的样本数占样本总数的比例称为"错误率" (error rate)。即如果在m个样本中有a个样本分类错误，则错误率 E=a/m。
“精度”：1-a/m 称为“精度”，即“精度=1-错误率”。
学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差” (training error)或“经验误差”(empirical error)，在新样本上的误差称为“泛化误差” (generalization error)。
我们希望得到泛化误差小的学习器。实际能做的是努力使经验误差最小化，实际希望的是在新样本上能表现得很好的学习器。为达到这一目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”，这样才能在遇到新样本时做出正确的判别。
“过拟合”：当学习器把训练样本学得“太好了”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为“过拟合”(overfitting)。与之相对的是**“欠拟合”**(underfitting)，这是指对训练样本的一般性质尚未学好。
“过拟合”：由于学习能力过于强大，不可避免，只能缓解。
“欠拟合”：由于学习能力低下，比较容易克服，加大学习，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等。
现实中，往往有多种学习算法可供选择，甚至同一算法不同参数配置时，也会产生不同模型。如何选择，即“模型选择”。
理想解决方案是对候选模型泛化误差进行评估，然后选择泛化误差最小的模型。

2.2 评估方法

通过“测试集”(testing set)来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为“泛化误差”的近似。
测试样本：1. 从样本真实分布中独立同分布采样
2. 测试集与训练集尽可能互斥（未在训练集中出现，未使用过）
原因举例：老师出10道题目供学生练习，考试时不能把这10道题作为试题，因为是想体现学生“举一反三”的能力。
但是我们只有一个包含m个样例的数据集，数据集如下图所示：

在这里插入图片描述
怎么做到既要训练，又要测试？
答案是：对数据集D进行适当处理，产生训练集S和测试集T。

2.2.1 留出法

“留出法”直接将数据集D划分为两个互斥集合，一个训练集S，一个测试集T。即：
在这里插入图片描述
举例：D=1000个，训练集S=700个，测试T=300个。用S进行训练后，在T上进行测试中有90个出错，错误率为90/300 * 100%=30% ，精度为1-30%=70%。
注意：训练/测试集划分要尽可能的与数据分布一致，避免因数据划分引入额外偏差对结果产生影响。
从采样(sampling)的角度看待数据集的划分，保留类别比例的采样方式称为“分层采样”。
如：若D=1000个=500正+500反
则S=700个=350正+350反，T=300个=150正+150反
另一个需要注意的是：即便给定训练测试/训练集的样本比例，仍存在多种划分方式对初始数据集D进行划分。
如：在上面例子中，可以先将D中样本排序，然后把前350个正例放在S中，也可以把最后350个正例放在S中……,这些不同的划分将导致不同的S/T，相应的模型评估也会影响。
因此，单次使用留出法得到的估计结果不够稳定可靠，使用留出法时，一般采用若干次随机划分、重复实验评估后取平均值。
如：进行100次随机划分，每次产生一个S/T用于实验评估，100次后就得到100个结果，留出法返回的就是这100个结果的平均。
留出法会导致一个窘境：若S包含绝大多数样本，则训练出的模型可能更接近于用D训练出的模型，但是由于T较小，导致评估结果不够稳定准确；若T多包含一些样本，则S与D差别变大，用S训练出的模型与用D训练出的模型可能有较大的差别，降低评估结果的保真性(fidelity)。
该问题没有完美解决方案，常见做法：2/3~4/5的样本用于训练，剩余用于测试。

2.2.2 交叉验证法

“交叉验证法”将D划分为k个大小相似的互斥子集，每个子集都尽可能与数据分布保持一致，即“分层采样”。即：
在这里插入图片描述
过程：每次用k-1个子集的并集作为训练集，余下子集为测试集，最终返回k个测试结果的均值。
显然，交叉验证法评估结果的稳定性和保真性很大程度上取决于k的取值，所以又称“k折交叉验证”(k-fold cross validation)，k通常取10，称为10折交叉验证，示意图如下：

最低0.47元/天解锁文章

。画地为牢。

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
机器学习（周志华）知识点总结——第2章模型评估与选择（后期上传word/PDF）

第2章模型评估与选择2.1 经验误差与过拟合“错误率”：分类错误的样本数占样本总数的比例称为"错误率" (error rate)。即如果在个样本中有个样本分类错误，则错误率 ;“精度”：称为“精度”，即“精度=1-错误率”。学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差” (training error)或“经验误差”(empirical error)，在新样本上的误差称为“泛化误差” (generalization error
复制链接

扫一扫