机器学习(二)

模型的评估与选择

1.经验误差与过拟合
过拟合:表示训练集中提取的规律当成所有样本的潜在性质,导致泛化能力的下降。
欠拟合:表示在训练集中提取的规律片面,造成错误判断。
m样本数量:10000张手写字体的图片
Y样本正确的结果:第一张图片为1,第二张为7
使用模型进行预测,结果为Y0
error rate: E=a/m (错的个数除以总数) ------称作训练误差或经验误差
accuracy:1-E
error 误差: 绝对值(Y-Y0)

2.评估方法(训练集、验证集、测试集)
training set训练集
training set训练集的保留方法:
留出法(简单37分,28分)
要注意训练集和测试集同分布,或者多次随机划分,训练出多个模型,最后取平均值。
交叉验证法:
在这里插入图片描述

k折交叉验证,但当数据量较大时,对算力要求较高。
自助法:
当数据集较小时,难以划分的时候采用。
缺点时改变初始数据集的分布,会引入估计差值。
*def:
1.给定m个样本 数据集D,对它进行采样产生数据集D0;
2.每次随机有放回的挑选一个样本,将其拷贝放入D0中;
3.重复m次,得到包含m个样本的数据集D0,这就是自主采样的结果。
4.D中一部分样本会出现在D0中,一部分样本不出现。样本在m次采样中始终不被采到的概率为 (1-1/m) ^m
取得极限为
在这里插入图片描述

即通过自助采样,初始数据集中D中约有36.8%的样本未出现在数据集D0中中。
我们可将D0作为训练集,D\D0用作测试集(结果为未出现的元素)。

validation set验证集: 调参很难,很多人都是人为规定的
eg.三个参数,每个参数有5个候选值,那么对于一个训练集/测试集就有5^3(125)个模型要考察。

因为泛化能力,就需要有训练集和测试集,因为要调参加入验证集。
性能度量
均方误差、错误率、精度
在这里插入图片描述

在这里插入图片描述
混淆矩阵、P-R反向变动关系原理、阈值、最优阈值的确定(三种方法)
在这里插入图片描述
多分类问题,分解为多个2分类问题、ROC曲线
在这里插入图片描述
AUC(ROC曲线的面积) 和 loss-rank(排序损失)
在这里插入图片描述

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值