- 博客(2)
- 资源 (3)
- 收藏
- 关注
原创 Kaggle信贷预测随笔二
继续特征处理环节 特征转化有分箱和挖掘交叉变量。有些特征变量和目标变量不是典型线性关系,经过分箱,这些特征变量可以提供更高的信息值。比如月收入额和授信额度等金额特征变量在分箱后与目标变量的互信息得到显著提升;为了提升预测的稳定性,当有些变量值覆盖样本数很少(不足总样本数的5%),也常常将这些变量值与信息增量相邻的变量值一起分箱; 图中的工作职位清单中,可以看到HR等职位在样本中的占比很低,如果...
2018-09-02 22:58:00 1503
原创 Kaggle信贷预测随笔
Kaggle的案例大多来源真实数据,非常适合拿来提升打怪经验值。跨国金融信贷公司捷信提供Home Credit Default Risk就很经典,笔者甚是喜欢。Home Credit Default Risk提供了贷款申请表,申请用户在本公司的历史申请表,历史还款记录,和征信机构登记的历史跟踪记录。 案例分析过程中遇到不少问题,记录下来抛砖引玉。内容包括,EDA,特征处理,模型选择和调参,分析系...
2018-09-01 00:20:23 2240 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人