AUC的计算方法总结

转载:http://taoo.iteye.com/blog/760589

 


前面的一个帖子中谈到了在决策树模型下计算AUC的问题,主要是讨论如何用决策树得到test samples的更为合理的rank。但是,关于怎么计算AUC却没有详细说明。本文试图总结和理清楚AUC计算这个问题,这么做,除了因为AUC本身比较常用和重要以外,还有以下两个方面的原因: 

a. 有些做machine learning的同行,没有仔细的搞清楚AUC到底是怎么回事。就写文章(竟然发表在KDD上……)告诉读者他们是多么麻烦的计算AUC! 

b. 我们实验室在研究过程中,也实际的需要计算AUC。一开始的时候,我在这个问题的认识上也经历了一段模糊期。所以,我想写这篇帖子还是会有些价值的。 

让我们从头说起,首先AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在 machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的recall和precision,等等。其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同时期流行的度量则反映了人们认识事物的深度的变 化。近年来,随着machine learning的相关技术从实验室走向实际应用,一些实际的问题对度量标准提出了新的需求。特别的,现实中样本在不同类别上的不均衡分布(class distribution imbalance problem)。使得accuracy这样的传统的度量标准不能恰当的反应分类器的performance。举个例子:测试样本中有A类样本90个,B 类样本10个。分类器C1把所有的测试样本都分成了A类,分类器C2把A类的90个样本分对了70个,B类的10个样本分对了5个。则C1的分类精度为 90%,C2的分类精度为75%。但是,显然C2更有用些。另外,在一些分类问题中犯不同的错误代价是不同的(cost sensitive learning)。这样,默认0.5为分类阈值的传统做法也显得不恰当了。 

为了解决上述问题,人们从医疗分析领域引入了一种新的分类模型performance评判方法——ROC分析。ROC分析本身就是一个很丰富的内容,有兴趣的读者可以自行Google。由于我自己对ROC分析的内容了解还不深刻,所以这里只做些简单的概念性的介绍。 

ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。 平面的横坐标是false positive rate(FPR)虚惊概率,纵坐标是true positive rate(TPR)集中概率。 对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样,此分类器就可以映射成ROC平面上的一个 点。调整这个分类器分类时候使用的阈值,我们就可以得到一个经过(0, 0),(1, 1)的曲线,这就是此分类器的ROC曲线。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实际上代表的是一个随机分类器。如果很不幸,你得到一个位于此直线下方的分类器的话,一个直观的补救办法就是把所有的预测结果反 向,即:分类器输出结果为正类,则最终分类的结果为负类,反之,则为正类。虽然,用ROC curve来表示分类器的performance很直观好用。可是,人们总是希望能有一个数值来标志分类器的好坏。于是Area Under roc Curve(AUC)就出现了。顾名思义,AUC的值就是处于ROC curve下方的那部分面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的performance。好了,到此为止,所有的 前续介绍部分结束,下面进入本篇帖子的主题:AUC的计算方法总结。 

   1. 最直观的,根据AUC这个名称,我们知道,计算出ROC曲线下面的面积,就是AUC的值。事实上,这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此,计算的AUC也就是这些阶梯 下面的面积之和。这样,我们先把score排序(假设score越大,此样本属于正类的概率越大),然后一边扫描就可以得到我们想要的AUC。但是,这么 做有个缺点,就是当多个测试样本的score相等的时候,我们调整一下阈值,得到的不是曲线一个阶梯往上或者往右的延展,而是斜着向上形成一个梯形。此 时,我们就需要计算这个梯形的面积。由此,我们可以看到,用这种方法计算AUC实际上是比较麻烦的。 
   2. 一个关于AUC的很有趣的性质是,它和Wilcoxon-Mann-Witney Test是等价的。这个等价关系的证明留在下篇帖子中给出。而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score。有了这个定义,我们就得到了另外一中计 算AUC的办法:得到这个概率。我们知道,在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这 和上面的方法中,样本数越多,计算的AUC越准确类似,也和计算积分的时候,小区间划分的越细,计算的越准确是同样的道理。具体来说就是统计一下所有的 M×N(M为正类样本的数目,N为负类样本的数目)个正负样本对中,有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候,按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数(即n=M+N) 
   3. 
      第三种方法实际上和上述第二种方法是一样的,但是复杂度减小了。它也是首先对score从大到小排序,然后令最大score对应的sample 的rank为n,第二大score对应sample的rank为n-1,以此类推。然后把所有的正类样本的rank相加,再减去正类样本的score为最 小的那M个值的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即 


 


      另外,特别需要注意的是,再存在score相等的情况时,对相等score的样本,需要 赋予相同的rank(无论这个相等的score是出现在同类样本还是不同类的样本之间,都需要这样处理)。具体操作就是再把所有这些score相等的样本 的rank取平均。然后再使用上述公式。 

------------------------------------------------------------------------ 
ROC(Receiver Operating Characteristic)曲线,用于二分类判别效果的分析与评价.一般自变量为连续变量,因变量为二分类变量. 
基 本原理是:通过判断点(cutoff point/cutoff value)的移动,获得多对灵敏度(sensitivity)和误判率(1-Specificity(特异度)),以灵敏度为纵轴,以误判率为横轴,连 接各点绘制曲线,然后计算曲线下的面积,面积越大,判断价值越高. 
灵敏度:就是把实际为真值的判断为真值的概率. 
特异度:就是把实际为假值的判断为假值的概率. 
将绘成的曲线与斜45度的直线对比,若差不多重合,说明自变量对因变量的判断价值很差,若越远离斜45度的直线即曲线下的面积越大,说明自变量对因变量的判断价值越好,即根据自变量可以较为正确的判断因变量. 
使用SPSS的操作过程如下: 
Graphs/ROC Curve:Test variable选自变量(连续型变量),state varibale选因变量(二分类变量)display的选项一般全选. 
运行结果:1.ROC曲线,可直观地看到曲线形状. 
2.Area under the curve:曲线下方的面积,包括面积值,显著性分析,置信区间. 
3.Coordinates of the curve:ROC曲线各点对应的灵敏度和误判率.
<think>好的,我现在需要回答用户关于AUC(Area Under the Curve)计算公式的问题,特别是在机器学习中的相关应用。首先,我要确保自己正确理解AUC的概念以及它的计算方法。 用户提到了参考引用中的内容,其中提到了一个Python函数用于计算二分类问题的AUC。我需要结合这个引用,但可能还需要补充更多的背景知识,让回答更完整。AUC通常与ROC曲线(Receiver Operating Characteristic curve)相关联,ROC曲线是以真阳性率(TPR)和假阳性率(FPR)为坐标的曲线,而AUC则是ROC曲线下的面积,用来衡量分类模型的性能。 接下来,我需要回忆AUC的具体计算方法。通常有两种方法:一种是通过梯形法则积分ROC曲线下的面积,另一种是通过计算正负样本对的排序情况,即统计有多少正样本的预测概率高于负样本的预测概率。这种方法对应于AUC的另一个定义,即AUC等于分类器将随机选取的正例排在负例前面的概率。 公式方面,梯形积分法可能需要将ROC曲线的点按FPR排序,然后计算每个梯形的面积之和。而另一种方法可以用Wilcoxon-Mann-Whitney统计量,公式大概是: $$ \text{AUC} = \frac{\sum_{i=1}^{m} \sum_{j=1}^{n} I(P_i > N_j)}{m \times n} $$ 其中,$P_i$是正样本的预测得分,$N_j$是负样本的预测得分,$I$是指示函数,当$P_i > N_j$时为1,否则为0。$m$和$n$分别是正负样本的数量。 不过,用户提供的引用中提到的Python函数可能用的是梯形积分法,或者直接调用库函数,比如sklearn中的roc_auc_score。需要确认常见的实现方式。 另外,需要注意AUC的一些性质,比如当AUC为0.5时,模型没有区分能力,相当于随机猜测;当AUC接近1时,模型表现好。 在回答中,应该先介绍AUC的定义,再给出计算公式,并解释其含义。可能还需要提到如何用Python计算,例如使用sklearn的metrics.auc或者roc_auc_score函数,同时注意样本排序的方法。 现在需要验证公式的正确性。例如,Wilcoxon-Mann-Whitney的公式是否正确,是否考虑了相等的情况,这时候通常会有不同的处理方式,比如当$P_i = N_j$时,指示函数可能计为0.5。这时候公式可能需要调整: $$ \text{AUC} = \frac{\sum_{i=1}^{m} \sum_{j=1}^{n} \left[ I(P_i > N_j) + 0.5 \times I(P_i = N_j) \right]}{m \times n} $$ 这样处理更准确,但可能在实际情况中,如果预测分数是连续的,相等的情况较少,所以有时可能忽略这部分。 然后,结合引用中的Python函数,如果那个函数具体如何实现的呢?例如,用户提供的引用中提到的函数可能计算的是梯形积分或者基于排序的方法。如果用户给出的引用是计算AUC误差指标,那么可能需要具体看函数实现,但用户没有给出具体的代码,所以可能需要一般性的解释。 因此,在回答中需要涵盖两种主要的计算方法,并指出它们的适用场景。同时,提醒用户在实际应用中使用现有的库函数以确保准确性,例如sklearn中的实现。 总结回答的结构: 1. 定义AUC及其在机器学习中的重要性。 2. 解释ROC曲线和AUC的关系。 3. 详细说明AUC的两种计算方法,并给出公式。 4. 提供Python中计算AUC的示例代码(可能需要引用sklearn)。 5. 补充注意事项或常见问题。 最后,生成相关问题,如AUC的优缺点、如何解释AUC值、与其他指标的区别等。 在引用方面,用户提供的引用[^1]可能涉及到具体的函数,因此需要在回答中适当引用,例如在提到计算实现时。</think>### AUC 计算公式(机器学习) AUC(Area Under the ROC Curve)是评估二分类模型性能的重要指标,反映模型对正负样本的区分能力。其核心是通过ROC曲线下的面积量化分类效果,值域为$[0,1]$,越接近1模型性能越好。 #### 1. ROC曲线与AUC的关系 ROC曲线以**真阳性率(TPR)**和**假阳性率(FPR)**为横纵坐标: - $TPR = \frac{TP}{TP + FN}$ - $FPR = \frac{FP}{TN + FP}$ AUC是ROC曲线下的面积,表示“随机选一个正样本和一个负样本,模型对正样本的预测概率高于负样本的概率”。 --- #### 2. AUC计算公式 AUC可通过以下两种方法计算: **方法一:积分法(梯形法则)** 将ROC曲线的点按阈值排序,计算相邻点构成的梯形面积之和: $$ \text{AUC} = \sum_{i=1}^{k-1} \frac{(TPR_{i+1} + TPR_i) \cdot (FPR_{i+1} - FPR_i)}{2} $$ **方法二:排序法(Wilcoxon-Mann-Whitney统计量)** 统计正样本预测值大于负样本预测值的概率: $$ \text{AUC} = \frac{\sum_{i=1}^m \sum_{j=1}^n \left[ I(P_i > N_j) + 0.5 \cdot I(P_i = N_j) \right]}{m \cdot n} $$ 其中: - $m$:正样本数,$n$:负样本数 - $P_i$:正样本预测值,$N_j$:负样本预测值 - $I(\cdot)$:指示函数(条件满足时为1,否则为0) --- #### 3. Python实现示例 使用`sklearn`库直接计算AUC: ```python from sklearn.metrics import roc_auc_score # 真实标签(0或1)和模型预测概率 y_true = [0, 1, 0, 1] y_score = [0.3, 0.6, 0.2, 0.8] auc = roc_auc_score(y_true, y_score) print("AUC:", auc) # 输出:0.875 ``` --- #### 4. 注意事项 - **AUC=0.5**:模型无区分能力(等价于随机猜测)。 - **AUC<0.5**:可能模型标签定义颠倒,需检查数据。 - **样本不平衡**:AUC对类别分布不敏感,适合评估不平衡数据[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值