[机器学习]模型评估与选择

最新推荐文章于 2024-09-12 21:05:39 发布

九土master

最新推荐文章于 2024-09-12 21:05:39 发布

阅读量277

点赞数 1

分类专栏：机器学习文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/weixin_50858070/article/details/117002372

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一.经验误差与过拟合

1.1基本概念

概念	公式	说明
错误率	$E=\frac{a}{m}$	m个样本中有a个样本分类错误
精度	$1-\frac{a}{m}$ 或 $(1-\frac{a}{m})\times100\%$	即“正确率”
误差		学习器的实际输出与样本的真实输出之间的差异，即与“正确答案”差了多少
训练误差/经验误差		学习器在训练集上的误差，即通过训练集训练后，再对该训练集进行分类的误差
泛化误差		学习器通过训练集训练好了后，再在新样本上进行分类得到的误差

注：“误差”均指误差期望
显然，通过在训练集上进行训练，我们希望得到的是在学习器没有接触到过的新样本上泛化误差小的学习器。

概念	说明
欠拟合	学习器的学习能力低下，无法抽象出分类依据以至于分类标准与实际偏差太大
过拟合	学习器的学习能力过于强大，除了抽象出了分类依据外，还将训练集的某些与分类无关的“特性”也当作分类标准而与实际有偏差

1.2导引

在现实任务中，我们往往有多种学习算计可供选择，甚至对同一个学习算法当使用的参数配置不同时，结果也会有差异。

所以如何定性甚至定量评价不同模型之间的好坏呢？

	Q：直接再拿学习集没遇见过的样本进行测试得到泛化误差进行比较不就好了吗？

当然可以！前提是我们可以找到这样子的样本当作测试集。
任务开始，我们的手头会有确定数量的样本(秉着越多越好的原则，就当这些样本是我们能得到的最多数量了)。
那么对于这个有限的资源，显然样本集越大越好，但是留出来用来测试的测试集也不能太少。
所以如何确定样本集与测试集便是模型的评估方法所要讨论的内容之一了。