赛题理解
1. 赛题与数据概括
赛题旨在预测用户是否贷款违约,同时对敏感数据进行脱敏,数据中包括匿名变量。这次大赛要求选手根据训练集的47的特征与标签训练模型,预测testA.csv中用户的违约情况。
运行环境为天池提供的Data Science Workshop
数据包含80万条训练集,20万条测试集A。
理解数据中的各个特征的含义会让我们在数据探索(异常值)和特征工程(构建交叉特征以及业务理解特征)方面更加得心应手。以下给出此次赛题中各个特征的含义:
2. 预测指标
赛题采用AUC值为指标。
实际上就是在图中做出以(FPR,TPR)为坐标的曲线,与x,y正半轴围成的面积即AUC值(0<=AUC<=1)
在适用AUC为指标的报告中,经常配合KS值一起适用。
分类问题中除了AUC值外,还有Accuracy,F1 Score,Precision(等于TPR),recall等。
信用评分卡
用于刻画用户的信用评分,实际上对于此次赛题就是WOE编码