山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-8（7月14日）

乌鸟呜鸣

于 2021-07-16 22:04:03 发布

阅读量109

点赞数

本文链接：https://blog.csdn.net/weixin_44102442/article/details/118826424

版权

日总结

在进行了探索性数据分析后，我们开始了数据分箱，最先采用kmeans对数据进行分箱，但如上次探索性数据分析的时候，由于个别数据与平均数差距过大。导致分箱出现严重的不均匀，第一个有近10w条数据，但最后一个只有几条数据，为了数据分布尽量均匀，我们采用了手动划分bins的边界，将超过一定阈值的数统一分箱到一个箱里面，这样就不会造成箱的冗余和数据不均，这样分箱后，再方便对数据进行WOE值的计算。

例如

# RevolvingUtilizationOfUnsecuredLines分箱
RevolvingUtilizationOfUnsecuredLines = df['RevolvingUtilizationOfUnsecuredLines']
bins = [-1, 0.2, 0.4, 0.6, 0.8, 1, 60000]

通过手动分箱设置-1左边界涵盖包括0的数据，因为有五万多的数据所以设置上限值为60000作为右边界，以此分箱保证了每个箱数据的均匀性，以免数据在分箱时出现严重的不均。