人工智能基础 | 机器学习模型评估与选择(二)

本文介绍了机器学习模型的评估与选择,包括样本错误率和精度的概念,以及留出法、交叉验证法和自助法等数据集划分方法。还探讨了性能度量如均方误差(MSE)、平均绝对误差(MAE)等在模型评估中的作用。
摘要由CSDN通过智能技术生成


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AKaW7zbS-1667398996145)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/公众号横幅-1.png)]

前言

以下内容是在学习过程中的一些笔记,难免会有错误和纰漏的地方。如果造成任何困扰,很抱歉。

对于模型的评估与选择过程中,通常我们会根据样本的错误率与输出误差判断模型的好坏,以做出决策,首先我们从相应的名词解释看背后的问题:

  • 样本错误率E = 分类错误的样本数a / 样本总数m = E=a/m

  • 样本精度 = 1 - 分类错误的样本数 / 样本总数

  • 误差:学习器实际输出与样本的真实输出之间的差异

但是实际上,我们并不需要完全100%正确的模型,一个非常优秀的模型它的错误率一定是无限接近100%但是又不会成为100%,这一现象可以叫过拟合,与之相反的叫做欠拟合,在西瓜书中有一页图中非常形象。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sUDd2aWg-1667398996146)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-过拟合与欠拟合-1.png)]

在实际开发中,往往有许多模型与算法供我们选择,通过对候选模型的泛化评估是我们选择模型的标准之一,下面看看如何选择合适的模型与评估。

测试集与训练集的划分方法

评估模型的优劣性时,我们可以通过数据集对模型进行测试误差进行评估,从而做出选择,我们需要对数据集进行划分。

留出法

将数据集直接划分为两个互斥的集合,一个作为训练集,一个作为测试集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KlVxYvua-1667398996146)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-留出法-1.png)]

测试集与训练集的划分要尽可能的保持数据分布的一致性,避免因为数据划分过程引入额外的偏差导致对结果产生影响,例如在分类任务过程中,至少要保持样本的类别的相似性。

交叉验证法

先将数据集划分为K个大小相似的互斥子集,每个子集尽可能保证数据分布的一致性,每次使用 k-1 个子集的并集作为训练集,剩下的子集作为测试集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MdRjt0nJ-1667398996147)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-K折交叉训练法图解-1.png)]

k最常用的取值是10,上述成为10折交叉验证。

自助法

给定包含m个样本的数据集A,对它重新采样产生一个新的数据集B,每次随机从A中拿样本复制到B中,再把这个样本放回到最开始的数据集A里,反复执行N次后,就得到了m个样本的新的数据集,对于数据集比较小,难以有效划分训练集/测试集的时候较为有效。

性能度量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QwWb78or-1667398996147)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/西瓜书-第二章-一个性能评估的表情图-1.png)]

对学习器的泛化性能进行评估,不仅需要有效可行的方法,还需要有衡量模型泛化能力的评判标准,这就是性能度量。

预测任务里,给定样例集 D = { ( x1 , y1) , ( x2 , y2) … ( xm , ym) , }

x是样本输入,y是真实输出结果,通过模型训练结果f与真是输出y做对比得出性能,在回归任务中,常用的性能度量(损失函数)是“均方误差”,均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量,用人话描述:模型预测值 f(x) 与样本真实值 y 之间距离平方的平均值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ac0xFiva-1667398996147)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/均方误差公式-1.png)]

对于数据分布D和概率密度函数P(`),均方误差描述为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V3ERx1Gb-1667398996148)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/均方误差公式-2.png)]

其中同系列的损失函数还包括

  • 均方误差(Mean Square Error,MSE)
  • 平均绝对误差(Mean Absolute Error,MAE)
  • 均方根误差(Root Mean Square Error,RMSE)
  • 均方对数误差(Mean Squared Log Error)
  • 平均相对误差(Mean Relative Error,MAE)

下一章节将对线性模型进行学习。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y9B2Otqm-1667398996148)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/小星球-1.png)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值