广工大数协 阿里云天池 金融风控训练营 · Task 1 赛题理解与评分规则

金融风控数据挖掘 · Task 1 赛题理解与评分规则

一、赛题理解1

比赛地址:https://tianchi.aliyun.com/s/88d2efb10daf79a9aa69f9a79db4107d

  • 这一次新人赛的题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过贷款。

  • 这本质上是一个多分类问题,最简单的方法就是直接用单线性模型,因为之前的一些比赛经历,线性模型在多分类问题上有着不错的效果。进行优劣比较后,再利用集成学习,对一些比较好的模型进行融合。

  • 预测指标:

    1. C o n f u s e Confuse Confuse M a t r i x Matrix Matrix 混淆矩阵

      ​ 对于一个二分类问题而言,混淆矩阵是一个 2 × 2 2\times 2 2×2的矩阵,分别由真正例 T P TP TP、真反例 T N TN TN、假正例 F T FT FT和假反例 F N FN FN构成.

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RPRYXP1W-1600183288628)(C:\Users\melon\AppData\Roaming\Typora\typora-user-images\image-20200915224819025.png)]

      而对于一个多分类模型,混淆矩阵更多反映的是真实的类别,被预测为其他类别的个数形成的矩阵。对于一个 m m m分类问题,它的混淆矩阵是一个 m m m ( m × m ) (m\times m) (m×m)方阵.

    在这里插入图片描述

    由此,我们可以在混淆矩阵的基础上,得到一些常见的模型评估指标:

    1. 准确率 A c c Acc Acc: A c c u r a c y Accuracy Accuracy

      准确率反映了所有预测准确的样本,占所有样本的比例。但是这个指标不适合样本不均衡的样本,因为万一一个训练集的所有正例就是 98 % 98\% 98%,而一个模型我们将其定义为,所有样本都分为正例,那么显然这个模型是一个偷懒模型,他是没有工作的。

      A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN

    2. 查准率 P r e c i s i o n Precision Precision:

      查准率反映了这个模型,对于所有预测为正例中多少是对的,所以我们把它定义为

      P = T P T P + T N P = \frac{TP}{TP+TN} P=TP+TNTP

    3. 查全率 R e c a l l Recall Recall

      查全率反映了一个模型,对所有预测为正例的样本中,占所有预测准确的样本的比例,所以

      R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

    4. F 1 − S c o r e F1-Score F1Score

      由于查全率与查准率之间是互相制约的,所以要想查准率高,就势必会牺牲查全率,反之亦然,所以我们提出将两者合并的一个指标,权衡一个模型这两方面的性能:

      F 1 = 2 1 P + 1 R F1=\frac{2}{\frac{1}{P}+\frac{1}{R}} F1=P1+R12

    5. P − R P-R PR曲线

      在不同阈值下将模型的查全率和查准率绘制到一个二维坐标系下,并用光滑曲线将他们连起来,这种曲线称为 P − R P-R PR曲线.

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9FKr6yJW-1600183288631)(C:\Users\melon\AppData\Roaming\Typora\typora-user-images\image-20200915230034763.png)]

    6. R O C ROC ROC A U C AUC AUC

      首先我们重新构造两个评价指标,

      T P R TPR TPR:在所有实际为正例的样本中,被正确地判断为正例之比率,即

      T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP

      F P R FPR FPR:在所有实际为负例的样本中,被错误地判断为正例之比率,即

      F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP

      T P R TPR TPR F P R FPR FPR描在二维平面上,最终对不同阈值进行连接,该曲线为 R O C ROC ROC曲线,越贴近左上角,说明该模型效果越好。

      R O C ROC ROC曲线的右下方的面积成为 A U C AUC AUC,显然这个面积的数值不会大于1。又由于 R O C ROC ROC曲线一般都处于 y = x y=x y=x这条直线的上方,所以 A U C AUC AUC的取值范围在0.5和1之间。 A U C AUC AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

    • 金融风控环境下的预测指标—— K S KS KS曲线

      K − S K-S KS曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当.

      K − S = m a x ( T P R − F P R ) K-S=max(TPR-FPR) KS=max(TPRFPR)

      • K S KS KS不同代表的不同情况,一般情况 K S KS KS值越大,模型区分能力越强,但是也不是越大模型效果就越好,如果 K S KS KS过大,模型可能存在异常,所以当 K S KS KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况但此对应不是唯一的,只代表大致趋势。
      • K S < 0.2 KS<0.2 KS<0.2,一般认为模型没有区分能力;
      • K S ∈ [ 0.2 , 0.3 ] KS\in [0.2,0.3] KS[0.2,0.3]:模型具有一定区分能力,勉强可以接受;
      • K S ∈ [ 0.3 , 0.5 ] KS\in [0.3,0.5] KS[0.3,0.5]:模型具有较强的区分能力;
      • K S > 0.75 KS>0.75 KS>0.75:往往表示模型有异常.

  1. 天池金融风控训练营 ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值