提升弱变量在模型效果的思路方法,来~学习下

在金融领域的实际建模场景中,我们经常会遇到特征变量池中字段性能普遍较弱的情况,主要体现在变量的IV信息值较低,对目标的预测能力或贡献程度特别有限,从而对模型训练中的拟合效果影响较大。在这种情况下,无论采取多少入参组合对模型进行调整优化,都难以有效提高模型的最终性能,其本质原因是特征变量的区分能力表现较差。
1、场景介绍
以上情景可以通过图1的具体示例进行说明,某样本数据集现有40个特征字段,各变量的标签含义以及IV值如表所示。
在这里插入图片描述
图1 特征变量字段

从表中信息可以直观地了解到,特征变量池的信息维度包括基本信息、电商网购、信用卡消费、多头借贷、航旅出行、APP设备等方面,多维度的数据来源对于模型的构建是有利的。但是,所有变量的IV值都表现较低,使得在模型训练前的特征筛选环节没有太大的意义,其各字段本身属性对目标变量的预测能力或区分能力表现较差。图中x01、x04、x08、x10等部分字段的IV值,虽然略微高出实际业务IV效果评判标准的0.02阈值,但是表现最好的x24字段,其IV值也仅有0.037,这对于特征IV值大于0.1说明区分效果较好的业务认识还是有很大差距。而且,在表中所有变量中,多数字段的IV值都在0.01附近,这对模型训练拟合的贡献程度自然很低,最终得到的模型效果必然表现一般。

2、解决方案
基于以上实际情况,本文提出一种采用“分类子模型”的思路,解决特征弱变量导致模型不佳的问题,具体实现方案分为以下几个步骤,示意图如图2所示:
将所有特征变量进行业务归类,假设共分为n类;
对每类变量依次进行单独训练模型,得到n个子模型;
将n个子模型作为变量字段,进行模型拟合训练,并得到最终总模型。
在这里插入图片描述
图2 方案整体架构

这个流程虽然重点体现在“特征衍生”,但这和常见的特征衍生加工逻辑有较大区别,此处的提到的“子模型”,虽然本质是一种新特征变量的挖掘,但构造过程是以“模型”的角度进行衍生,而且最终以集成子模型的思路,训练得到总模型。整个实现过程不仅得到了区分性能较强的新字段,而且有效提高了模型的综合效果。这在数据建模的实际业务场景中,是非常有参考意义和适用价值的。

3、实现过程
根据原始样本数据的特征分布情况(图1),结合各变量字段的标签含义,以及对实际业务的理解,首先对变量池进行字段属性分类。以x01~x06为例,对于年龄、性别、婚姻、学历、住房、户籍,这些字段都是关于用户的基本信息,因此可以归为一类。所有特征字段的具体分类结果,具体如图3所示,共包含6个类别标签,维度名称与字段个数分别为:基本信息(6个)、电商网购(7个)、信用卡消费(7个)、多头借贷(6个)、航旅出行(7个)、APP设备(7个)。
在这里插入图片描述
图3 特征变量分类

接下来对6个特征维度分别进行子模型的开发,可以采用逻辑回归算法依次训练评分卡模型,以score01~score06表示,每个子模型score都是根据对应类别所有变量训练拟合的结果,这样可以有效的将每类字段的信息贡献度集成在一起。当得到6个评分卡模型后,我们将其看作为特征字段,按照IV计算方式首先对变量进行分箱离散处理,然后根据每个区间段的好坏样本数量占比,算出各个子模型字段的IV值,最终结果如下图所示:
在这里插入图片描述
图4 子模型IV分布

对于表中的模型字段score01~score06 ,其IV值都在0.1附近,这在实际业务场景中是非常具有可用性的。例如score01(多头借贷评分模型)的IV达到了0.187,明显高于所属类别的任何一个原始特征IV值(0.014~0.037)。这个结果是完全符合客观事实的,毕竟每个模型字段是由多个特征字段训练而成,其区分能力自然要比单个特征的性能要好。我们正是围绕这个加工逻辑,衍生出非常有应用价值的新特征字段。而且,为了让每个模型字段更具有业务含义,都是根据原始特征的属性进行归类划分,并将同类维度信息通过模型训练聚焦到一起。
此外,新加工来的子模型字段,在多数情况下,与原始变量的相关性也表现较弱,相比我们正常特征衍生的方法,如占比、求和、差分、差比等统计学方式,从本质上保证了子模型字段的信息独立性,这对数据建模流程的特征筛选,以及模型的训练拟合是非常有价值的。
最后,我们将原始特征字段x01x40,以及新子模型字段score01score06进行汇总,作为模型训练的最新变量池,接着采用逻辑回归、决策树等算法,对总模型进行训练拟合。最终得到的模型性能指标(如KS、AUC等),远比原变量池得到模型结果好很多,示例如下图所示。
在这里插入图片描述
图5 模型优化对比

以上关于模型跟量化风控更深度的内容,可兴趣的童鞋可关注-
《第五期全线条训练营》:
在这里插入图片描述
在这里插入图片描述

~原创文章

end

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值