模型评估标准-AUC

图中表格里面的数据的看法是:P和N分别加上单元格内的T(true)或者F(false)


举例:

    假设我们有60个正样本,40个负样本,我们要找出所有的正样本。系统预测出50个,其中只有40个是真正的正样本,计算上述各指标:

                                            

                TP:将正类预测为正类数  40     

                FP:将负类预测为正类数  (60-40)=20  

                FN:将负类预测为正类数 (50-40)=10

                TN:将负类预测为负类数(40-10)=30

                准确类:(accuracy)=预测对的/所有=(TP+TN)/P+N=(40+30)/(60+40)=70%

                精准率:(precision)=TP/(TP+FN)=40/(40+10)=80%

                召回率:(recall)=TP/(TP+FP)=40/(40+20)=2/3

精准率====样本中预测的的正例数占总预测正例数的比例(精准率是针对我们预测结果而言的)

召回率====样本中预测的正例数占总样本中正例数的比例(召回率是针对我们原来的样本而言的)

左图中的表: inst#索引号表示该图中一共有20个样本  class 测试样本本属于的类别号 (p-正类,N-负类) score通过模型预测的为正类的概率。

右图中(对左边表的图形表示):x坐标表示:fp.rate.(FP/N)纵坐标y表示:tp.rate(TP/P)

针对第一条数据:预测为正类得到概率为0.9所以,预测为正类属于p,预测对了。所以在y轴上走。

        第二条:预测为正类得到概率为0.8所以,预测为正类属于p,预测对了。所以在y轴上走。

        第三条:预测为正类得到概率为0.7所以,预测为正类属于p,预测错了。所以在x轴上走即水平走。

        。。。。

所以最后左图表就可以转换成右图,将其中的点连接。可以化成一个曲线 ,该曲线就叫做AUC曲线  

                               

                    如下图所示:

                            

当曲线在黄色的线之上时,表示预测正确率大于50%(例如红色的线),在黄色线之下的时候表示预测率小于50%(例如水红色的线)。但是机器不可能知道曲线是在黄色的线上面还是下面,所以这个时候可以求面积。如果曲线下面的面试小于0.5,则表示该预测的概率大于0.5。其中曲线称为AUC曲线。曲线下的面试称为ROC面试

计算曲线下的面积的公式:

                

M:样本中的正类数,N样本中的负类数。

:表示将表格里面的值按照score升序排序,拿正类样本所对应的样本的索引号累加起来得值。






















  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值