机器学习（二）

钟钟终

于 2021-12-02 01:40:24 发布

阅读量2.8k

点赞数 4

分类专栏：机器学习文章标签： c++ 图论开发语言

本文链接：https://blog.csdn.net/weixin_51934288/article/details/121585669

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

模型的评估与选择

1.经验误差与过拟合
过拟合：表示训练集中提取的规律当成所有样本的潜在性质，导致泛化能力的下降。
欠拟合：表示在训练集中提取的规律片面，造成错误判断。
m样本数量：10000张手写字体的图片
Y样本正确的结果：第一张图片为1，第二张为7
使用模型进行预测，结果为Y0
error rate: E=a/m (错的个数除以总数) ------称作训练误差或经验误差
accuracy:1-E
error 误差: 绝对值(Y-Y0)

2.评估方法（训练集、验证集、测试集）
training set训练集
training set训练集的保留方法：
留出法(简单37分，28分） ：
要注意训练集和测试集同分布，或者多次随机划分，训练出多个模型，最后取平均值。
交叉验证法:
在这里插入图片描述

k折交叉验证，但当数据量较大时，对算力要求较高。
自助法：
当数据集较小时，难以划分的时候采用。
缺点时改变初始数据集的分布，会引入估计差值。
*def：
1.给定m个样本数据集D，对它进行采样产生数据集D0；
2.每次随机有放回的挑选一个样本，将其拷贝放入D0中；
3.重复m次，得到包含m个样本的数据集D0，这就是自主采样的结果。
4.D中一部分样本会出现在D0中，一部分样本不出现。样本在m次采样中始终不被采到的概率为 (1-1/m) ^m
取得极限为
在这里插入图片描述