也说建模分箱

关注 “番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。
 

分箱方法分为无监督分箱和有监督分箱。常用的无监督分箱方法有等频分箱,等距分箱和聚类分箱。有监督分箱主要有最优分箱(Gini等)和卡方分箱。

怎么定义有没有监督的学习,其实就是看有没有y值在里面做标签。这里所提到的无监督分箱里的等频分箱、等距分箱和聚类分箱,就是不用y值在里面做参考判定的。

无监督的方法
等频分箱——就是均分的思想,比如我有一堆数,平均分成几堆,每一堆的数量都是一样的;
等距分箱——每个分箱之间的距离是一样的,比如分数范围是1-100,那每一箱的距都划分为10为距离,以【1-10】、【11-20】…【91-100】,这样来划分分箱;
聚类分箱——以k-means聚类等算法为计算逻辑,划分为多个区间,然后计算初始中心,然后不断将附近的类别纳入属它最近的中心里,不断循环重新计算,直到每个聚类中心不再变化,得到最终的聚类结果。

有监督的方法
那在有监督的算法里,我们来着重讲一下卡方分箱

什么是卡方分箱
卡方是用来观察频数与期望频数差异程度的一种统计学表示方法,如果没有差异就表示两个变量相互独立不相关。

实际应用中,我们先假设原假设成立,计算出卡方的值,卡方表示观察值与理论值间的偏离程度。
卡方值的计算公式为:
在这里插入图片描述
其中A为实际频数,E为期望频数。卡方值用于衡量实际值与理论值的差异程度,这也是卡方检验的核心思想。
卡方值包含了以下两个信息:
1.实际值与理论值偏差的绝对大小。
2.差异程度与理论值的相对大小。

具体卡方分箱如何操作
这里有不少只用python的小伙伴,所以本篇文章中也介绍python的代码实例:

1、初始化阶段:首先按照属性值的大小进行排序(对于非连续特征,需要先做数值转换,然后排序),并且先进行前期的等频分箱,减少计算的复杂度。
在这里插入图片描述
发现等频分箱的处理,可以发现,计算的复杂度大大减少,也为下面的卡方分箱的计算做好准备。
2、合并阶段:
(1)对每一对相邻的组,计算卡方值。
在这里插入图片描述
(2)根据计算的卡方值,对其中最小的一对邻组合并为一组。
在这里插入图片描述
(3)不断重复(1),(2)直到计算出的卡方值都不低于事先设定的阈值,或者分组数达到一定的条件
在这里插入图片描述

写在最后
为什么需要分箱?

分箱的好处还是很多的,尤其是使用逻辑回归的评分卡建模中,分箱woe也是一种标配。

总的来说,分箱有这么几个用处:
1.异常数据不会对数据造成很大影响——比如一个特征是年龄>20是1,否则0。如果特征没有离散化,一个异常数据“年龄101岁”会给模型造成很大的干扰;
2.单变量离散化后,每个变量有单独的权重,能够提升模型表达能力,加大拟合;
3.特征离散化以后,能够简化了逻辑回归模型的作用,降低了模型过拟合的风险。
4.分箱可以将缺失作为独立的一类带入模型。

当然,分完箱也只能做完成了大部分的处理,其实还没完成最终建模。下一步我们还需要将相关的分箱进行woe相关编码,才能最终入模。关于这一部分我们后面的文章再跟各位分箱。


十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎关注 “番茄风控大数据”一起学习一起聊!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值