广工大数协阿里云天池金融风控训练营 · Task 1 赛题理解与评分规则

最新推荐文章于 2022-08-25 22:19:49 发布

Amihua Lau

最新推荐文章于 2022-08-25 22:19:49 发布

阅读量360

点赞数

文章标签： python 机器学习算法

本文链接：https://blog.csdn.net/weixin_43913783/article/details/108612337

版权

金融风控数据挖掘 · Task 1 赛题理解与评分规则

一、赛题理解[^1]

一、赛题理解¹

比赛地址：https://tianchi.aliyun.com/s/88d2efb10daf79a9aa69f9a79db4107d

这一次新人赛的题目以金融风控中的个人信贷为背景，给所给的47列特征中，根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过贷款。
这本质上是一个多分类问题，最简单的方法就是直接用单线性模型，因为之前的一些比赛经历，线性模型在多分类问题上有着不错的效果。进行优劣比较后，再利用集成学习，对一些比较好的模型进行融合。
预测指标：
1. $C o n f u s e$ $M a t r i x$ 混淆矩阵
  
  对于一个二分类问题而言，混淆矩阵是一个 $2\times 2$ 的矩阵，分别由真正例 $T P$ 、真反例 $T N$ 、假正例 $F T$ 和假反例 $F N$ 构成.
  
  $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RPRYXP1W-1600183288628)(C:\Users\melon\AppData\Roaming\Typora\typora-user-images\image-20200915224819025.png)]$
  
  而对于一个多分类模型，混淆矩阵更多反映的是真实的类别，被预测为其他类别的个数形成的矩阵。对于一个 $m$ 分类问题，它的混淆矩阵是一个 $m$ 阶 $(m\times m)$ 方阵.
由此，我们可以在混淆矩阵的基础上，得到一些常见的模型评估指标：
1. 准确率 $A c c$ : $A c c u r a c y$
  
  准确率反映了所有预测准确的样本，占所有样本的比例。但是这个指标不适合样本不均衡的样本，因为万一一个训练集的所有正例就是 $98\%$ ,而一个模型我们将其定义为，所有样本都分为正例，那么显然这个模型是一个偷懒模型，他是没有工作的。
  
  $Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$
2. 查准率 $P r e c i s i o n$ :
  
  查准率反映了这个模型，对于所有预测为正例中多少是对的，所以我们把它定义为
  
  $\frac{TP}{TP+TN}$
3. 查全率 $R e c a l l$
  
  查全率反映了一个模型，对所有预测为正例的样本中，占所有预测准确的样本的比例，所以
  
  $R=\frac{TP}{TP+FN}$
4. $F 1 - S c o r e$
  
  由于查全率与查准率之间是互相制约的，所以要想查准率高，就势必会牺牲查全率，反之亦然，所以我们提出将两者合并的一个指标，权衡一个模型这两方面的性能：
  
  $F1=\frac{2}{\frac{1}{P}+\frac{1}{R}}$
5. $P - R$ 曲线
  
  在不同阈值下将模型的查全率和查准率绘制到一个二维坐标系下，并用光滑曲线将他们连起来，这种曲线称为 $P - R$ 曲线.
  
  $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9FKr6yJW-1600183288631)(C:\Users\melon\AppData\Roaming\Typora\typora-user-images\image-20200915230034763.png)]$
6. $R O C$ 与 $A U C$
  
  首先我们重新构造两个评价指标，
  
  $T P R$ ：在所有实际为正例的样本中，被正确地判断为正例之比率，即
  
  $TPR=\frac{TP}{TP+FN}$
  
  $F P R$ :在所有实际为负例的样本中，被错误地判断为正例之比率,即
  
  $FPR=\frac{FP}{FP+TN}$
  
  将 $T P R$ 与 $F P R$ 描在二维平面上，最终对不同阈值进行连接，该曲线为 $R O C$ 曲线，越贴近左上角，说明该模型效果越好。
  
  而 $R O C$ 曲线的右下方的面积成为 $A U C$ ,显然这个面积的数值不会大于1。又由于 $R O C$ 曲线一般都处于 $y = x$ 这条直线的上方，所以 $A U C$ 的取值范围在0.5和1之间。 $A U C$ 越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。
- 金融风控环境下的预测指标—— $K S$ 曲线
  
  $K - S$ 曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当.
  
  $K - S = m a x (T P R - F P R)$
  - $K S$ 不同代表的不同情况，一般情况 $K S$ 值越大，模型区分能力越强，但是也不是越大模型效果就越好，如果 $K S$ 过大，模型可能存在异常，所以当 $K S$ 值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况但此对应不是唯一的，只代表大致趋势。
  - $K S < 0.2$ ,一般认为模型没有区分能力;
  - $KS\in [0.2,0.3]$ :模型具有一定区分能力，勉强可以接受;
  - $KS\in [0.3,0.5]$ :模型具有较强的区分能力;
  - $K S > 0.75$ :往往表示模型有异常.

天池金融风控训练营 ↩︎

Amihua Lau

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
广工大数协阿里云天池金融风控训练营 · Task 1 赛题理解与评分规则

金融风控数据挖掘 · Task 1 赛题理解与评分规则一、赛题理解一、赛题理解比赛地址：https://tianchi.aliyun.com/s/88d2efb10daf79a9aa69f9a79db4107d这一次新人赛的题目以金融风控中的个人信贷为背景，给所给的47列特征中，根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过贷款。这本质上是一个多分类问题，最简单的方法就是直接用单线性模型，因为之前的一些比赛经历，线性模型在多分类问题上有着不错的效果。进行优劣比较后，再
复制链接

扫一扫