吃瓜Task01

最新推荐文章于 2023-12-12 23:39:58 发布

202danding

最新推荐文章于 2023-12-12 23:39:58 发布

阅读量77

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51459486/article/details/118707756

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

机器学习

目录

模型评估与选择

绪论

含义：研究关于‘学习算法’的学问（通过计算的手段，利用经验（数据）来改善系统自身的性能）。

基本术语：

数据集：

（色泽=浅白，根蒂=蜷缩，敲声=浑浊），（色泽=乌黑，根蒂=蜷缩，敲声=浑浊）........

示例/样本：每条记录（色泽=浅白，根蒂=蜷缩，敲声=浑浊）

属性/特征：色泽，根蒂，敲声

属性值：浅白，乌黑

训练/学习：从数据中学得模型/学习器的过程。训练数据，训练样本，训练集，假设，真相/真实

样例：（（色泽=浅白，根蒂=蜷缩，敲声=浑浊），好瓜）有了标记的示例，称为样例。

预测任务：希望通过对训练集进行学习，建立一个从输入空间到输出空间的映射f:x->y。

学习任务分类：分类（离散值），回归（连续值），二分类（类，负类），聚类（将训练集分成若干组）。

训练集是否有标记信息，可分为两大类：监督学习（分类，回归），无监督学习（聚类）。

模型评估与选择

错误率：分类错误的样本数占样本总数的比例，E=a/m

精度：1-错误率

误差：模型的实际预测输出与样本的真实输出之间的差异

训练误差/经验误差：模型在训练集上的误差

泛化误差：模型在新样本上的误差

过拟合：学习器将训练样本学的太好了，可能将训练样本自身的一些特点当作了所有潜在样本都具有的一般性质，使泛化性能下降。-----过配

欠拟合：对训练样本的一般性质尚未学好----欠配

评估方法

对一个包含m个样例的数据集D={（x1,y1),（x2,y2）,....,(xn,yn)},从中产生训练集S和测试集T。

留出法

常见做法：2/3~4/5的样本训练，剩下的样本测试

交叉验证法

数据集D划分为k个子集，k折交叉验证p次，也就是最终的评估结果是p次的k折交叉验证结果的均值。
常见的：10次10折交叉验证法

交叉验证法特例：
留一法：数据集D，包含m个样本，k=m。
缺陷：训练m个模型开销叫大。

自助法

给定包含m个样本的数据集D，采样产生D’，每次随机从D中挑选一个样本，拷贝放入D’，然后在将该样本放入D，重复m次，所以我们就得到了包含m个样本的数据集D’，显然，D中有一部分会在D’中多次出现。
样本在m次采样中不被采到的概率是（ 1 − 1 / m ）^m

也就是说，D中的数据有36.8%的概率出现在D’中。
优点：在数据量较小的情况下有用，而且从初始数据集中产生了多个不同的训练集，对集成学习有很大的好处。
缺点：自助法产生的数据集会改变初始数据集的分布，引入估计偏差。

调参与最终模型

参数配置不同，学得模型的性能会有显著的差别。学习算法的很多参数在实数范围内取值，可能不行，所以要对每个参数选定范围和变化步长，但是这样的参数往往不是最佳值，但是是权衡计算开销和性能折中的结果。

例子:如果有3个参数，每个参数5个候选值，每一组训练/测试集有 5 ^3 = 125 个模型考查。

性能度量：衡量模型泛化能力的评价标准

错误率与精度
查准率，查全率与F1

学习笔记出处：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜Task01

机器学习目录机器学习绪论模型评估与选择绪论含义：研究关于‘学习算法’的学问（通过计算的手段，利用经验（数据）来改善系统自身的性能）。基本术语：数据集：（色泽=浅白，根蒂=蜷缩，敲声=浑浊），（色泽=乌黑，根蒂=蜷缩，敲声=浑浊）........示例/样本：每条记录（色泽=浅白，根蒂=蜷缩，敲声=浑浊）属性/特征：色泽，根蒂，敲声属性值：浅白，乌黑训练/学习：从数据中学得模型/学习器的过程。训练数据，训练样本，训练集，假设，真相/真实样例：（（色泽
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。