文章目录
背景
目标:
根据用户的数据信息预测其是否有违约的可能,以此判断是否通过用户的贷款。
题目来源:https://tianchi.aliyun.com/competition/entrance/531830/information
参考
- https://www.heywhale.com/mw/project/607543dbd143c800173b2069
数据集
数据来源
本文使用的数据来源于阿里云平台天池大数据竞赛,该数据来自某信贷平台内部的贷款记录,平台从数据集中抽取80万条作为训练数据集,20万条作为测试数据集A。训练集包含47列变量信息,测试集包含46列变量信息,其中 n0-n14总共15列为匿名变量,这些匿名变量是对借款人行为计数特征的处理,同时原始数据集中还对employmentTitle(就业职称)、purpose(借款人在贷款申请时的贷款用途类别)、postCode(借款人在贷款申请中提供的邮政编码的前3位数字)和 title(借款人提供的贷款名称)等字段信息进行了脱敏处理。
数据描述
数据:
t