贷款用户逾期问题Task2
任务2 - 特征工程(2天)
特征衍生
特征挑选:分别用IV值和随机森林等进行特征选择
……以及你能想到特征工程处理
特征衍生
特征衍生,指利用现有的特征进行某种组合生成新的特征,主要是从业务数据和纯技术生产特征方面着手。
特征挑选
通常我们在清洗数据后,需要进行分箱、计算WOE和IV值(WOE的性质)、特征筛选。
1、分箱(Binning)
对连续变量离散化(Discretization),对离散变量也可进行重新分箱、组合。
2、WOE(Weight of Evidence)
(1) 逻辑回归是线性的统计模式,因此遇到非线性趋势的变数会造成无法有效的建立预测模型,因此需要WOE
(2) WOE与风险成正比,WOE越大,风险越高,代表该层级的客户品质越差。如果WOE接近0,表示接近平均水平。(正负相关可以调节)
(3) WOE = ln(Odds) = ln(%Good/%Bad) = ln(p/(1-p))
3、IV值(Infomation Value)
IV= ∑(%Good-%Bad)*WOE = ∑(%Good-%Bad)*ln(%Good/%Bad)
4、特征选择
根据每个特征的分箱结果计算IV值,留下IV>0.1的变量。当然这个0.1的数值可以根据实际情况改变。
具体实现
……时间太紧,看完之后再整理