山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-8(7月14日)

日总结

在进行了探索性数据分析后,我们开始了数据分箱,最先采用kmeans对数据进行分箱,但如上次探索性数据分析的时候,由于个别数据与平均数差距过大。导致分箱出现严重的不均匀,第一个有近10w条数据,但最后一个只有几条数据,为了数据分布尽量均匀,我们采用了手动划分bins的边界,将超过一定阈值的数统一分箱到一个箱里面,这样就不会造成箱的冗余和数据不均,这样分箱后,再方便对数据进行WOE值的计算。

例如

# RevolvingUtilizationOfUnsecuredLines分箱
RevolvingUtilizationOfUnsecuredLines = df['RevolvingUtilizationOfUnsecuredLines']
bins = [-1, 0.2, 0.4, 0.6, 0.8, 1, 60000]

通过手动分箱设置-1左边界涵盖包括0的数据,因为有五万多的数据所以设置上限值为60000作为右边界,以此分箱保证了每个箱数据的均匀性,以免数据在分箱时出现严重的不均。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值