贷款用户逾期问题Task2

任务2 - 特征工程(2天)

特征衍生
特征挑选:分别用IV值和随机森林等进行特征选择
……以及你能想到特征工程处理

特征衍生

特征衍生,指利用现有的特征进行某种组合生成新的特征,主要是从业务数据和纯技术生产特征方面着手。

特征挑选

通常我们在清洗数据后,需要进行分箱、计算WOE和IV值(WOE的性质)、特征筛选。

1、分箱(Binning)
对连续变量离散化(Discretization),对离散变量也可进行重新分箱、组合。

2、WOE(Weight of Evidence)

(1) 逻辑回归是线性的统计模式,因此遇到非线性趋势的变数会造成无法有效的建立预测模型,因此需要WOE
(2) WOE与风险成正比,WOE越大,风险越高,代表该层级的客户品质越差。如果WOE接近0,表示接近平均水平。(正负相关可以调节)
(3) WOE = ln(Odds) = ln(%Good/%Bad) = ln(p/(1-p))

3、IV值(Infomation Value)

IV= ∑(%Good-%Bad)*WOE = ∑(%Good-%Bad)*ln(%Good/%Bad)

4、特征选择

根据每个特征的分箱结果计算IV值,留下IV>0.1的变量。当然这个0.1的数值可以根据实际情况改变。

具体实现

……时间太紧,看完之后再整理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值