数据分离和混淆矩阵的学习

1.明确意义

通过训练集建立模型的意义是对新的数据进行准确的预测(测试集的准度高才代表good fit);

2.评估流程

在这里插入图片描述

3.单单利用准确率accuracy进行模型评估的局限性

模型一:一共1000个数据(分别为900个1和100个0),850个1和50个0预测准确(一共两类),所以准确率为(850+50)/1000=90%,而对于每一类:1的类为850/900的准确率;而对于0的类:50/100的准确率;
模型二:一共1000条数据,预测为900个1正确,准确率为900/1000=90%。而对于值为1的类:900/900=1,所以以后的每条数据预测都会为1,这样就会出现空准确率的情况;
在这里插入图片描述
总结:需要考虑每一类本身的分布比例(比如1:0=9:1)
在这里插入图片描述

4.解决方案(混淆矩阵)

前一个为T:代表预测正确;
后一个为Postives:代表模型预测正确;
在这里插入图片描述

1.如何利用TP,TN,FP,FN进行模型的评估

在这里插入图片描述

在这里插入图片描述
计算指标:
在这里插入图片描述

2.混淆矩阵的特点:

在这里插入图片描述

5.模型优化

1.用什么模型:
在这里插入图片描述
2.具体算法的核心结构以及参数如何选择?
比如逻辑回归的函数g(x)如何选择,线性还是多项式等等
Knn的邻居参数
在这里插入图片描述
3.如何提高模型表现?

数据质量决定模型表现的上限
判断是否有异常数据:我们可以用异常检测法检测有没有异常数据,然后将其排除或者保留(保留的主要目的是考虑了数据的适用性)。
数据的意义:是否为无关数据。
对于数据的标签结果:统一管理
尝试更多的模型
在这里插入图片描述
在这里插入图片描述

4.举个例子:利用高斯分布概率统计异常检测
1.数据分布统计——>2.高斯分布概率统计分析异常——>3.优化:PCA分析维度是否可以减少——>4.尝试不同的模型进行优化
在这里插入图片描述
在这里插入图片描述

5.确定一个模型后,如何让模型的表现更好

在这里插入图片描述
模型的参数的选择:
比如出现欠拟合的情况,模型不能很好的预测样本,我们可以降低KNN的参数n_neighbors值,越降低,模型复杂度越高。
模型复杂度越高说明训练集的准确率越高,但不代表测试集的准确率会很高,需要进行调整。
在这里插入图片描述在这里插入图片描述

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fairy要carry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值