赛题以预测用户贷款是否违约为任务,根据借款人的数据信息预测其违约概率,提交结果为每个测试样本是1的概率。评价方法为AUC评估模型效果(越大越好)。
赛题链接:https://tianchi.aliyun.com/competition/entrance/531830/information
1、数据概况
数据包含47列变量信息,其中15列为匿名变量,总数据量超过120w,为了保证比赛的公平性,将从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
针对现有的借款人未匿名数据信息,初步理解主要包括以下几个方面的信息:现有贷款基本信息、信贷额度相关信息、个人基本信息、个人资产负债信息、外部征信数据等。我们将利用这些数据来衡量借款人的偿还能力和还款意愿,预测违约概率。
2、评价标准——AUC
针对二分类问题,
TP:代表实际是正样本,预测成正样本的样本数。
FN:代表实际是正样本,预测成负样本的样本数。
TN:代表实际是负样本,预测成负样本的样本数。
FP:代表实际是负样本,预测成正样本的样本数。
设定X轴为假正率(FPR),即FP/(FP+TN),表示负样本中预测错了(预测成了