一文理清楚，准确率，精度，召回率，真正率，假正率，ROC/AUC

最新推荐文章于 2025-04-07 17:56:22 发布

dastu

最新推荐文章于 2025-04-07 17:56:22 发布

阅读量2.5k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44467105/article/details/104312834

版权

数据挖掘专栏收录该内容

25 篇文章

订阅专栏

本文深入解析了混淆矩阵的概念，包括真正、真负、假正、假负等概念，并详细阐述了各种评估指标，如准确率、精度、召回率、F1度量以及ROC/AUC曲线的含义和计算方式，帮助读者全面理解模型评估的关键。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.混淆矩阵

在这里插入图片描述
如上图为一个混淆矩阵，
True Positive （真正, TP）被模型预测为正的正样本；

True Negative（真负 , TN）被模型预测为负的负样本；

False Positive （假正, FP）被模型预测为正的负样本；

False Negative（假负 , FN）被模型预测为负的正样本；

相对应的，

True Positive Rate（真正率 , TPR）或灵敏度（sensitivity）
TPR = TP /（TP + FN）
正样本预测结果数 / 正样本实际数

True Negative Rate（真负率 , TNR）或特指度（specificity）
TNR = TN /（TN + FP）
负样本预测结果数 / 负样本实际数

False Positive Rate （假正率, FPR）
FPR = FP /（FP + TN）
被预测为正的负样本结果数 /负样本实际数

False Negative Rate（假负率 , FNR）
FNR = FN /（TP + FN）
被预测为负的正样本结果数 / 正样本实际数

二.其它的定义：

准确率：
预测对的样本占样本总数的比例

准确率 = 预测情况与真实情况一致的样本个数 / 样本总数

Accurancy = ( TP + TN ) / ( TP + TN + FP +FN )

精度p：
预测为正样本的里面有多少是真正的正样本

精度 = 预测为正的正样本个数 / 预测为正的样本个数 =TP/(TP+FP)

召回率r：
召回率 = 被预测为正的样本个数 /正样本个数=TP/(TP+FN)

召回率的值等于真正率

F1度量：
对于精度和召回率之间的平衡，我们取两者的调和平均作为F1度量，可以有效的同时考虑到精度和召回率两者。
F1=2/(1/r+1/p）
F1趋向于接近r和p中的较小数，因此一个高的F1度量值确保精度和召回率都比较高。

三.ROC/AUC

ROC中文名为接收者操作特征曲线，显示的是分类器真正率和假正率之间折中的一种图形化方法。在ROC曲线中，Y轴代表着真正率，X轴代表着假正率。在这里插入图片描述

一个好的分类器应该更靠近图的左上角，而一个随机的分类器其曲线为点（0，0）和（0，1）的连线。

ROC曲线下方的面积AUC提供了评价模型平均性能的另一种方法，如果模型是完美的，则AUC=1，即曲线下方面积为1。如果模型是随机猜测的，则AUC=0.5.模型越好，其曲线下方面积应该越大。

产生ROC曲线：
如果大家对二值分类模型熟悉的话，都会知道其输出一般都是预测样本为正例的概率，而事实上，ROC曲线正是通过不断移动分类器的“阈值”来生成曲线上的一组关键点的。
一般输出样本为正例的概率，即输出值为0~1，我们把阈值从0-1之间调整，阈值每调整一次，每次取一个输出的概率，则可以得到一次对应的真正率和假正率，当所有的概率都取过之后，则得到完整的ROC曲线。

另外AUC是不受正负样本不均衡影响的。比如负样本数翻10倍，通过公式可以看出TPR是不变的,而FPR上下是成比例增加的，也基本不变，所以AUC曲线基本不变。

参考书籍：
《数据挖掘导论》由人民邮电出版社出版，[美]作者Pang-Ning Tan，Michael Steinbach，Vipin Kumar 合著

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。