一:课题分析
二:数据获取
三:数据探索
3.1主要特征含义理解
3.2特征分布
3.2.1目标特征分布
3.2.2分类变量的分布
3.2.3连续数值特征分布
3.2.4时序特征分布
3.2.5文字特征分布
3.2.6两两特征的协方差
四:数据预处理
4.1数据集划分
4.2特征缺失值识别与处理
4.2.1严重缺失值的处理
4.2.2缺失值填充
4.3同值性特征识别与处理
4.4特征格式变换
4.5文本特征处理
4.5.1工作机构分类
4.5.2借款人州地址分类
4.5.2.1 k-means聚类分析
4.5.2.2 等频分箱
4.6时序特征处理
4.7特征编码
4.8归一化处理
4.9警惕数据泄露
4.9.1警惕不恰当特征
4.9.2错误的交叉验证策略
五:特征工程
5.1特征衍生
5.2筛选变量
特征筛选的目的
5.2.1依据共线性筛选变量
5.2.2依据IV筛选变量
5.3特征分箱
5.3.1对无缺省值的连续型数值变量分箱
5.3.2对含有缺省值的连续型数值变量分箱
六:建模
6.1建立评分卡
6.2建立随机森林模型
七:总结
一:课题分析
课题:
研究小微企业主贷款的风险特征,提出可应用性强的风险评估模型构建方案。
课题分析:
小微企业贷款信用评估与小微企业主个人信用情况关系密切,本文将以lendingclub信贷平台上的公开数据作为小微企业主信贷数据模拟样本,构造一个简单明了的传统信贷申请评分卡(A卡),和一个解释性较差的黑箱预测模型,用于辅助决策。
二:数据获取
根据巴塞尔协议提供的经验,正常还款12期以上的贷款人,其还款状态会趋于稳定,因此,我选择LendingClub平台(以下简称LC)2017年Q1的数据,那么我们的样本到目前为止还款全部超过12个月,其数据更新度高,样本可以被有效利用。
由上图,样本共有42538条数据,共有145个特征变量,样本量够大,对它们的分析具有统计意义。
此样本是经过LC平台依据一些条件(比如FICO值)筛选过的美国借款人的样本,因此应用具有一定局限性。
三:数据探索
在着手处理数据之前,先了解基本的数据情况,为进一步的数据探索、数据预处理、特征工程和建模做准备。
3.1主要特征含义理解
主要特征摘录:
3.2特征分布
3.2.1目标特征分布
fully paid:完全结清 charged off:坏账注销
由上表可知,此样本集是一个不平衡数据集。在后续过程中需要考虑到这一点。
3.2.2分类变量的分布
探索典型分类变量依据好坏样本两类的分布并进行可视化展示: