金融风控-Task1学习笔记

一、学习知识点概要

本文章是针对AI训练营金融风控中讲述的关于赛题的理解,通过查阅资料,做笔记来帮助自己更好的理解以及记录自己学习历程。

主要分为:

何为ROC曲线?

何为AUC评价指标?

计算AUC的方法

如何绘制ROC曲线?

其他评价指标

二、学习内容

何为ROC曲线?

ROC(receiver operating characteristic curve)接收者操作特征曲线,是由二战中的电子工程师和雷达工程师发明用来侦测战场上敌军载具(飞机、船舰)的指标,属于信号检测理论。曲线上每个点反映着对同一信号刺激的感受性。

ROC曲线的横坐标是伪阳性率(也叫假正类率),纵坐标是真阳性率(真正类率),相应的还有真阴性率(真负类率)和伪阴性率(假负类率)。这四类的计算方法如下

伪阳性率(FPR):在所有实际为阴性的样本中,被错误地判断为阳性的比率。

真阳性率(TPR):在所有实际为阳性的样本中,被正确地判断为阳性的比率。

伪阴性率(FNR):在所有实际为阳性的样本中,被错误的预测为阴性的比率。

真阴性率(TNR):在所有实际为阴性的样本中,被正确的预测为阴性的比率。

何为AUC评价指标?

AUC(Area under the Curve of ROC)是ROC曲线下方的面积,是判断二分类预测模型优劣的标准。

AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

以下是三种AUC的值:随着FPR的上升,ROC曲线从原点(0, 0)出发,最终都会落到(1, 1)点。AUC便是其右下方的曲线面积

 

计算AUC的方法:

1. 绘制ROC曲线x轴与y轴的值域都是[0, 1],随着判定正例的阈值不断增加,我们可以得到一组(x, y)的点,相连便作出了ROC曲线

2. 假设总共有(m+n)个样本,其中正样本m个,负样本n个,总共有m*n个样本对,计数,正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1,累加计数,然后除以(m*n)就是AUC的值。

如何绘制ROC曲线?

假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。

 

接下来从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:

 

其他评价指标

精确率(Precision

又称查准率,正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。

 

准确率(Accuracy

准确率是常用的一个评价指标,但是不适合样本不均衡的情况。

 

召回率Recall

又称为查全率,正确预测为正样本(TP)占正样本(TP+FN)的百分比

F1 Score

精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾二者,就需要精确率、召回率的结合F1 Score。

 

三、学习问题与解答

如何更快掌握好不同的评价指标?

四、学习思考与总结

不同情况下可能用到的评价指标不一样,我们除了要掌握多种评价指标的用法,还要掌握不同的评价指标该在什么情况下使用。知识要不断积累,以及要多学习不同方面的知识,才能让自己更好理解。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值