金融风控-贷款违约预测-训练营 - Task1
一、 学习知识点概要
- 理解此次金融风控之贷款违约预测挑战赛的赛题,进行具体细节的理解和解读
- 熟悉比赛的具体流程,以及数据挖掘的具体过程
二、学习内容
2.1 理解此次金融风控之贷款违约预测挑战赛的赛题,进行具体细节的理解和解读
赛题解读:
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。
-
分类模型:机器通过学习与训练已有的数据,从而预测新数据的类别。即找到一个函数,把观测值匹配到相关的类和标签上。
-
基本指标:
- 混淆矩阵
(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative ) - 分类准确率(Accuracy)
即所有分类中被正确分类的比例,也称识别率,不适合样本不均衡的情况。
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN<
- 混淆矩阵