Kaggle信贷预测随笔二

最新推荐文章于 2024-08-26 15:03:51 发布

__June

最新推荐文章于 2024-08-26 15:03:51 发布

阅读量1.5k

点赞数

分类专栏：数据分析文章标签： kaggle 数据分析

本文链接：https://blog.csdn.net/woodsgoing/article/details/82320522

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

继续特征处理环节

特征转化有分箱和挖掘交叉变量。有些特征变量和目标变量不是典型线性关系，经过分箱，这些特征变量可以提供更高的信息值。比如月收入额和授信额度等金额特征变量在分箱后与目标变量的互信息得到显著提升；为了提升预测的稳定性，当有些变量值覆盖样本数很少（不足总样本数的5%），也常常将这些变量值与信息增量相邻的变量值一起分箱；

图中的工作职位清单中，可以看到HR等职位在样本中的占比很低，如果直接放入模型训练，会导致预测效果的过度拟合。

除了考虑样本预测能力，分箱也需提供合理的可解释性，金融业有比较稳定的分类标准。对于行业，分为稳定型，资质型，工业型和临时型。稳定型指就业稳定且低风险的行业，包括政府，金融机构和教育机构；资质型指低风险行业，需要一定资质或高技术水平，包括IT，法律，医药和工程类；工业型指中等风险，技术水平不高，就业比较稳定，包括大部分工业，自然资源和进出口行业；临时型指高风险，就业无保障，包括体育娱乐，餐饮酒店，销售和安保建筑。这里的分类参考来自安德森的《信用评分工具》，在本案例中，应用这些标签上一定程度上降低了模型的预测能力，但真实的信贷产品需要在现实可解释性和预测能力间找到平衡。

交叉变量需要深入到场景中分析尝试，比如案例提供了多项和收入相关的特征，学历，职位，就职单位。一般来说学历高申请者有较高履约能力，稳定的就职单位可以支撑更高的履约能力，笔者尝试将学历与就职单位组合，衍生出交叉变量"单位_学历",对预测违约有更显著效果。交叉变量需要经过分析，设想，验证三个阶段，要发掘到有效的交叉变量就需要一遍遍的实验尝试。

在进入模型计算调参环节前，还需要对变量进一步处理，包括生成哑语元变量，筛除共线性变量，筛除常量变量（方差特别低的变量）以及变量归一化。

生成哑元变量在将枚举变量值或分箱后的变量值映射为独立的二元变量后，要记得手动去除一个二元变量，以避免共线性；筛除共线性变量实际是将线性相关度较高的变量去除掉，比如房产信息中，存在大量的相关信息，筛除相关性较高的变量可以有效提高预测能力。可以设置删除相关性高于0.7的相似特征变量。

变量的归一化在应用L2范式来约束参数的模型中很重要，笔者采用了行业内主流的逻辑回归信贷建模方案，高斯归一化处理相比0~1归一等其他方法有更好的预测效果。

模型选择和调参，千锤百炼

笔者选用适合信贷产品的主流逻辑回归模型，整个调参过程要针对不同的阈值和超参，反复多次的试验，观察测试集的预测结果变动。试验时按照不同特征处理阈值和超参的排列组合有序进行，同时结合人工分析，逐步探索合理结果。为避免采样导致的过拟合，可以采用交叉验证的方法。整个调参就是不停的重复，一次次的满怀期待的等训练结果。

特征自动分箱数	互信息阈值	线性相关阈值	规则化参数	训练样本占比	训练特征变量数	训练集auc	测试集auc
10	0.001	0.6	0.01	10%	35	0.7452	0.7391