Python实现分类器性能度量(混淆矩阵,正确率,准确率,召回率,ROC,AUC)

原创 2018年04月16日 23:00:54

1.混淆矩阵

对于二分类问题,可将样例根据其真实类别与分类器预测类别的组合划分为:

真正例(true positive):将一个正例正确判断为正例

假正例(false positive):将一个反例错误判断为正例

真反例(true negative):将一个反例正确判断为反例

假反例(false negative):将一个正例错误判断为反例

令TP、FP、TN、FN分别表示对应的样例数,这四个指标构成了分类结果的混淆矩阵:

分类结果混淆矩阵
 正例(预测结果)反例预测结果
正例(真实情况)TP(真正例)FN假反例
反例(真实情况)FP假正例TN真反例

样例总数 = TP + FP + TN + FN

2.正确率(accuracy)

即分类正确的样本数占样本总数的比例:

accuracy = (TP + TN) / (TP + FP + TN + FN)

3.准确率(precision)

即预测为正例的样本中真正为正例的比例:

precision = TP / (TP + FP)

4.召回率(recall)

也称检出率,即真正为正例的样本中正确预测为正例的比例:

recall = TP / (TP + FN)

5.ROC

ROC全称“受试者工作特征”曲线。我们根据机器学习的预测评分结果对样例进行排序,按此顺序逐个把样本的分值作为检查为正例的阈值进行预测,计算得到两个重要的指标:真正例率(True Positive Rate, TPR)、假正例率(False Positive Rate, FPR)。以TPR为纵轴,FPR为横轴做图,就得到了“ROC”曲线。

TPR = TP / (TP + FN)

FPR = FP / (TN + FP)

6.AUC

AUC即为ROC曲线下的面积

7.Python实现

import numpy as np
import matplotlib.pyplot as plt


class Performance:
    """
    定义一个类,用来分类器的性能度量
    """
    def __init__(self, labels, scores, threshold=0.5):
        """
        :param labels:数组类型,真实的标签
        :param scores:数组类型,分类器的得分
        :param threshold:检测阈值
        """
        self.labels = labels
        self.scores = scores
        self.threshold = threshold
        self.db = self.get_db()
        self.TP, self.FP, self.FN, self.TN = self.get_confusion_matrix()

    def accuracy(self):
        """
        :return: 正确率
        """
        return (self.TP + self.TN) / (self.TP + self.FN + self.FP + self.TN)

    def presision(self):
        """
        :return: 准确率
        """
        return self.TP / (self.TP + self.FP)

    def recall(self):
        """
        :return: 召回率
        """
        return self.TP / (self.TP + self.FN)

    def auc(self):
        """
        :return: auc值
        """
        auc = 0.
        prev_x = 0
        xy_arr = self.roc_coord()
        for x, y in xy_arr:
            if x != prev_x:
                auc += (x - prev_x) * y
                prev_x = x
        return auc

    def roc_coord(self):
        """
        :return: roc坐标
        """
        xy_arr = []
        tp, fp = 0., 0.
        neg = self.TN + self.FP
        pos = self.TP + self.FN
        for i in range(len(self.db)):
            tp += self.db[i][0]
            fp += 1 - self.db[i][0]
            xy_arr.append([fp / neg, tp / pos])
        return xy_arr

    def roc_plot(self):
        """
        画roc曲线
        :return:
        """
        auc = self.auc()
        xy_arr = self.roc_coord()
        x = [_v[0] for _v in xy_arr]
        y = [_v[1] for _v in xy_arr]
        plt.title("ROC curve (AUC = %.4f)" % auc)
        plt.ylabel("True Positive Rate")
        plt.xlabel("False Positive Rate")
        plt.plot(x, y)
        plt.show()

    def get_db(self):
        db = []
        for i in range(len(self.labels)):
            db.append([self.labels[i], self.scores[i]])
        db = sorted(db, key=lambda x: x[1], reverse=True)
        return db

    def get_confusion_matrix(self):
        """
        计算混淆矩阵
        :return:
        """
        tp, fp, fn, tn = 0., 0., 0., 0.
        for i in range(len(self.labels)):
            if self.labels[i] == 1 and self.scores[i] >= self.threshold:
                tp += 1
            elif self.labels[i] == 0 and self.scores[i] >= self.threshold:
                fp += 1
            elif self.labels[i] == 1 and self.scores[i] < self.threshold:
                fn += 1
            else:
                tn += 1
        return [tp, fp, fn, tn]

测试一下:

if __name__ == '__main__':
    labels = np.array([0, 1, 0, 1, 0, 1, 1])
    scores = np.array([0.1, 0.4, 0.6, 0.8, 0.9, 0.7, 0.5])
    p = Performance(labels, scores)
    acc = p.accuracy()
    pre = p.presision()
    rec = p.recall()
    print('accuracy: %.2f' % acc)
    print('precision: %.2f' % pre)
    print('recall: %.2f' % rec)
    p.roc_plot()

结果为:

accuracy: 0.57
precision: 0.60
recall: 0.75


版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zryowen123/article/details/79967474

ROC和AUC在python中metrics上的实现

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http:/...
  • u010159842
  • u010159842
  • 2016-10-25 17:25:24
  • 7984

机器学习笔记十五:分类问题的性能度量(混淆矩阵,正确率,召回率,ROC,AUC)

分类问题的性能度量
  • xierhacker
  • xierhacker
  • 2017-04-28 20:34:21
  • 4155

R语言︱分类器的性能表现评价(混淆矩阵,准确率,召回率,F1,mAP、ROC曲线)

笔者寄语:分类器算法最后都会有一个预测精度,而预测精度都会写一个混淆矩阵,所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即True Positive+True Nagetiv...
  • sinat_26917383
  • sinat_26917383
  • 2016-04-10 18:38:13
  • 10512

准确率,召回率,F值,ROC,AUC

度量表 1.准确率  (presion) p=TPTP+FP 2.召回率       (recall)r=TPTP+FN       3. F值为p和r的调和平均值             ...
  • justdoithai
  • justdoithai
  • 2016-04-21 22:15:03
  • 29042

分类器性能指标错误率、正确率、召回率

前言在使用机器学习的方法解决分类问题时,我们通常需要一个指标来衡量我们模型的性能,以下介绍一些常用的分类性能指标,在实际应用中可以依照应用需求采用相应的指标。错误率错误率是使用最普遍、最简单同时又是最...
  • jmh1996
  • jmh1996
  • 2017-10-08 16:12:07
  • 928

【scikit-learn】评估分类器性能的度量,像混淆矩阵、ROC、AUC等

 内容概要¶ 模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵(confusion matrix)是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分...
  • JasonDing1354
  • JasonDing1354
  • 2016-01-22 15:57:39
  • 16748

真假正负例、混淆矩阵、ROC曲线、召回率、准确率、F值、AP

一、假正例和假负例 假正例(False Positive):预测为1,实际为0的样本 假负例(False Negative):预测为0,实际为1的样本 实际预测中,那些真正例(True...
  • yimingsilence
  • yimingsilence
  • 2016-12-20 22:09:07
  • 5104

正确率、召回率及ROC曲线

如果将一个正例判断为正例,称为真正例(TP),类似的,将一个反例判断为反例,称为真反例(TN),将一个正例判断为反例,称为伪反例(FN),将一个反例判断为正例,即伪正例(FP);      1、正确...
  • u011551096
  • u011551096
  • 2016-04-11 13:12:28
  • 2648

准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC、AUC

下面简单列举几种常用的推荐系统评测指标: 1、准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。...
  • xwd18280820053
  • xwd18280820053
  • 2017-04-25 10:02:43
  • 2857

机器学习性能评估指标(精确率、召回率、ROC、AUC)

转自:http://charlesx.top/2016/03/Model-Performance/ 实际上非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为...
  • u012089317
  • u012089317
  • 2016-08-08 22:32:58
  • 16169
收藏助手
不良信息举报
您举报文章:Python实现分类器性能度量(混淆矩阵,正确率,准确率,召回率,ROC,AUC)
举报原因:
原因补充:

(最多只允许输入30个字)