数据分离和混淆矩阵的学习

最新推荐文章于 2024-06-02 12:03:44 发布

Fairy要carry

最新推荐文章于 2024-06-02 12:03:44 发布

阅读量484

点赞数 8

分类专栏：科研学习生涯文章标签：矩阵学习线性代数

本文链接：https://blog.csdn.net/weixin_57128596/article/details/138789653

版权

科研学习生涯专栏收录该内容

54 篇文章 0 订阅

订阅专栏

1.明确意义

通过训练集建立模型的意义是对新的数据进行准确的预测（测试集的准度高才代表good fit）；

2.评估流程

在这里插入图片描述

3.单单利用准确率accuracy进行模型评估的局限性

模型一：一共1000个数据（分别为900个1和100个0），850个1和50个0预测准确（一共两类），所以准确率为（850+50）/1000=90%，而对于每一类：1的类为850/900的准确率；而对于0的类：50/100的准确率；
模型二：一共1000条数据，预测为900个1正确，准确率为900/1000=90%。而对于值为1的类：900/900=1，所以以后的每条数据预测都会为1，这样就会出现空准确率的情况；
在这里插入图片描述
总结：需要考虑每一类本身的分布比例（比如1:0=9：1）

4.解决方案（混淆矩阵）

前一个为T：代表预测正确；
后一个为Postives：代表模型预测正确；
在这里插入图片描述

1.如何利用TP，TN，FP，FN进行模型的评估

在这里插入图片描述

在这里插入图片描述
计算指标：

2.混淆矩阵的特点：

在这里插入图片描述

5.模型优化

1.用什么模型：
在这里插入图片描述
2.具体算法的核心结构以及参数如何选择？
比如逻辑回归的函数g(x)如何选择，线性还是多项式等等
Knn的邻居参数

3.如何提高模型表现？

数据质量决定模型表现的上限
判断是否有异常数据：我们可以用异常检测法检测有没有异常数据，然后将其排除或者保留（保留的主要目的是考虑了数据的适用性）。
数据的意义：是否为无关数据。
对于数据的标签结果：统一管理
尝试更多的模型
在这里插入图片描述

4.举个例子：利用高斯分布概率统计异常检测
1.数据分布统计——>2.高斯分布概率统计分析异常——>3.优化：PCA分析维度是否可以减少——>4.尝试不同的模型进行优化
在这里插入图片描述

5.确定一个模型后，如何让模型的表现更好

在这里插入图片描述
模型的参数的选择：
比如出现欠拟合的情况，模型不能很好的预测样本，我们可以降低KNN的参数n_neighbors值，越降低，模型复杂度越高。
模型复杂度越高说明训练集的准确率越高，但不代表测试集的准确率会很高，需要进行调整。
在这里插入图片描述

Fairy要carry

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据分离和混淆矩阵的学习

模型一：一共1000个数据（分别为900个1和100个0），850个1和50个0预测准确（一共两类），所以准确率为（850+50）/1000=90%，而对于每一类：1的类为850/900的准确率；而对于值为1的类：900/900=1，所以以后的每条数据预测都会为1，这样就会出现空准确率的情况；比如出现欠拟合的情况，模型不能很好的预测样本，我们可以降低KNN的参数n_neighbors值，越降低，模型复杂度越高。通过训练集建立模型的意义是对新的数据进行准确的预测（测试集的准度高才代表good fit）；
复制链接

扫一扫