人工智能基础 | 机器学习模型评估与选择（二）

最新推荐文章于 2024-11-04 10:51:20 发布

「已注销」

最新推荐文章于 2024-11-04 10:51:20 发布

阅读量714

点赞数 1

分类专栏：机器学习文章标签：人工智能算法

本文链接：https://blog.csdn.net/weixin_48518621/article/details/127660422

版权

机器学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

本文介绍了机器学习模型的评估与选择，包括样本错误率和精度的概念，以及留出法、交叉验证法和自助法等数据集划分方法。还探讨了性能度量如均方误差（MSE）、平均绝对误差（MAE）等在模型评估中的作用。

摘要由CSDN通过智能技术生成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AKaW7zbS-1667398996145)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/公众号横幅-1.png)]

前言

以下内容是在学习过程中的一些笔记，难免会有错误和纰漏的地方。如果造成任何困扰，很抱歉。

对于模型的评估与选择过程中，通常我们会根据样本的错误率与输出误差判断模型的好坏，以做出决策，首先我们从相应的名词解释看背后的问题：

样本错误率E = 分类错误的样本数a / 样本总数m = E=a/m
样本精度 = 1 - 分类错误的样本数 / 样本总数
误差：学习器实际输出与样本的真实输出之间的差异

但是实际上，我们并不需要完全100%正确的模型，一个非常优秀的模型它的错误率一定是无限接近100%但是又不会成为100%，这一现象可以叫过拟合，与之相反的叫做欠拟合，在西瓜书中有一页图中非常形象。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sUDd2aWg-1667398996146)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-过拟合与欠拟合-1.png)]

在实际开发中，往往有许多模型与算法供我们选择，通过对候选模型的泛化评估是我们选择模型的标准之一，下面看看如何选择合适的模型与评估。

测试集与训练集的划分方法

评估模型的优劣性时，我们可以通过数据集对模型进行测试误差进行评估，从而做出选择，我们需要对数据集进行划分。

留出法

将数据集直接划分为两个互斥的集合，一个作为训练集，一个作为测试集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KlVxYvua-1667398996146)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-留出法-1.png)]

测试集与训练集的划分要尽可能的保持数据分布的一致性，避免因为数据划分过程引入额外的偏差导致对结果产生影响，例如在分类任务过程中，至少要保持样本的类别的相似性。

交叉验证法

先将数据集划分为K个大小相似的互斥子集，每个子集尽可能保证数据分布的一致性，每次使用 k-1 个子集的并集作为训练集，剩下的子集作为测试集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MdRjt0nJ-1667398996147)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-K折交叉训练法图解-1.png)]

k最常用的取值是10，上述成为10折交叉验证。

自助法

给定包含m个样本的数据集A，对它重新采样产生一个新的数据集B，每次随机从A中拿样本复制到B中，再把这个样本放回到最开始的数据集A里，反复执行N次后，就得到了m个样本的新的数据集，对于数据集比较小，难以有效划分训练集/测试集的时候较为有效。

性能度量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QwWb78or-1667398996147)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-第二章-一个性能评估的表情图-1.png)]

对学习器的泛化性能进行评估，不仅需要有效可行的方法，还需要有衡量模型泛化能力的评判标准，这就是性能度量。

预测任务里，给定样例集 D = { ( x1 , y1) , ( x2 , y2) … ( xm , ym) , }

x是样本输入，y是真实输出结果，通过模型训练结果f与真是输出y做对比得出性能，在回归任务中，常用的性能度量（损失函数）是“均方误差”，均方误差（mean-square error, MSE）是反映估计量与被估计量之间差异程度的一种度量，用人话描述：模型预测值 f(x) 与样本真实值 y 之间距离平方的平均值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ac0xFiva-1667398996147)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/均方误差公式-1.png)]

对于数据分布D和概率密度函数P(`)，均方误差描述为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V3ERx1Gb-1667398996148)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/均方误差公式-2.png)]

其中同系列的损失函数还包括