AUC曲线计算方法及代码实现

_zhj

已于 2022-07-03 11:36:56 修改

阅读量5.7k

点赞数 4

分类专栏：机器学习文章标签：机器学习 python 人工智能

于 2019-08-09 20:33:47 首次发布

本文链接：https://blog.csdn.net/zhj_fly/article/details/98987082

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

参考：AUC计算方法总结 - 白开水加糖 - 博客园

AUC计算

1. 根据定义Aera Under Curve，计算面积。样本有限，所以得到的AUC曲线一般是个阶梯状，所以计算这些阶梯的面积即可。先按score排个序，然后从头遍历一遍，把每个score作为划分阈值，可以得到对应的TPR和FPR，计算出底下的面积。更直观的计算方法，参考《百面机器学习》：

这种直接计算面积的方法比较麻烦，一般使用下面的等价方法进行计算。

2. AUC等价于：测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。所以可以计算这个概率。具体来说就是统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数（即n=M+N）
3. 第三种方法实际上和上述第二种方法是一样的，但是复杂度减小了。它也是首先对score从大到小排序，然后令最大score对应的sample 的rank为n，第二大score对应sample的rank为n-1，以此类推。然后把所有的正类样本的rank相加，再减去M-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即

公式解释：

1、为了求的组合中正样本的score值大于负样本，如果所有的正样本score值都是大于负样本的，那么第一位与任意的进行组合score值都要大，我们取它的rank值为n，但是n-1中有M-1是正样例和正样例的组合这种是不在统计范围内的（为计算方便我们取n组，相应的不符合的有M个），所以要减掉，那么同理排在第二位的n-1，会有M-1个是不满足的，依次类推，故得到后面的公式M*(M+1)/2，我们可以验证在正样本score都大于负样本的假设下，AUC的值为1

2、根据上面的解释，不难得出，rank的值代表的是能够产生score前大后小的这样的组合数，但是这里包含了（正，正）的情况，所以要减去这样的组（即排在它后面正例的个数），即可得到上面的公式

另外，特别需要注意的是，再存在score相等的情况时，对相等score的样本，需要赋予相同的rank(无论这个相等的score是出现在同类样本还是不同类的样本之间，都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。（以下代码中未对rank求平均，但结果与sklearn中的auc计算基本一致）

import numpy as np
from sklearn.metrics import roc_auc_score


def calc_auc(y_labels, y_scores):
    f = list(zip(y_scores, y_labels))
    rank = [values2 for values1, values2 in sorted(f, key=lambda x:x[0])]
    rankList = [i+1 for i in range(len(rank)) if rank[i] == 1]
    pos_cnt = np.sum(y_labels == 1)
    neg_cnt = np.sum(y_labels == 0)
    auc = (np.sum(rankList) - pos_cnt*(pos_cnt+1)/2) / (pos_cnt*neg_cnt)
    print(auc)


def get_score():
    # 随机生成100组label和score
    y_labels = np.zeros(100)
    y_scores = np.zeros(100)
    for i in range(100):
        y_labels[i] = np.random.choice([0, 1])
        y_scores[i] = np.random.random()
    return y_labels, y_scores


if __name__ == '__main__':
    y_labels, y_scores = get_score()
    # 调用sklearn中的方法计算AUC，与后面自己写的方法作对比
    print('sklearn AUC:', roc_auc_score(y_labels, y_scores))
    calc_auc(y_labels, y_scores)

note：以上代码，没有考虑正负样本score相等的情况，相等时应该按0.5计算

一种解决方案：在计算时，先将[score, label]按[升序，升序]排序，计算auc1；再按[升序, 降序]排序，计算auc2。最终auc = (auc1 + auc2) / 2

_zhj

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
AUC曲线计算方法及代码实现

参考：https://www.cnblogs.com/peizhe123/p/5081559.htmlAUC计算1. 根据定义Aera Under Curve，计算面积。样本有限，所以得到的AUC曲线一般是个阶梯状，所以计算这些阶梯的面积即可。先按score排个序，然后从头遍历一遍，把每个score作为划分阈值，可以得到对应的TPR和FPR，计算出底下的面积。更直观的计算方法，参考《百......
复制链接

扫一扫