用于二分类的机器学习模型评价

最新推荐文章于 2024-01-28 23:56:48 发布

不擅长纵横的捭阖家

最新推荐文章于 2024-01-28 23:56:48 发布

阅读量282

点赞数 1

分类专栏：机器学习文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_45534297/article/details/115163711

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

	0	1
0	预测negative正确 TN	预测positive错误 FP
1	预测negative错误 FN	预测positive正确 TP

其中行代表真实值，列代表预测值
举个列子，在下面表格中0代表健康人，1代表患有癌症的人。

预测\真实	0	1
0	9978	12
1	2	8

这里面就可以看出有12个人没有患癌症，但是我们算法却错误的预测了他患了癌症。

精准率
$\tfrac{TP}{TP+FP}$
精准率是指预测positive准确的值。即预测为1的事件中，预测正确的值。

召回率
$\tfrac{TP}{TP+FN}$
关注的事件真实发了，但是我们又成功预测的准确率。
用以下的图来看
在这里插入图片描述

# 在sklearn中混淆举证的调用
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test,y_predict)
# 精准率
from sklearn.metrics import precision_score
precision_score(y_test,y_predict)
from sklearn.metrics import recall_score
recall_score(y_test,y_predict)

3、precision-recall的平衡

在这里插入图片描述
从上图可以看出，精准率和召回率是互相牵制的一组数据。

4、ROC曲线

TPR是召回率
FPR是预测为1，占真实值是0的预测正确或者预测错误的概率。说白了就是预测错误。
$\tfrac{FP}{TN+FP}$

from sklearn.metrics import roc_curve
fprs,tprs,thresholds = roc_curve(y_test,y_predict)
plt.plot(fprs,tprs)
plt.show()

图片中的积分面积要越大越好，也就是TPR被抬得越高越好。

from sklearn.metrics import roc_auc_score
roc_auc_score(y_test,y_predict)

最后值为0.9188311688311689
用于比较模型的优劣。

4、多分类的混淆矩阵

from sklearn.metrics import confusion_matrix
confusion_matrix(y_test,y_predicts)
cfm = confusion_matrix(y_test,y_predicts)
plt.matshow(cfm,cmap = plt.cm.Purples)