日总结
在进行了探索性数据分析后,我们开始了数据分箱,最先采用kmeans对数据进行分箱,但如上次探索性数据分析的时候,由于个别数据与平均数差距过大。导致分箱出现严重的不均匀,第一个有近10w条数据,但最后一个只有几条数据,为了数据分布尽量均匀,我们采用了手动划分bins的边界,将超过一定阈值的数统一分箱到一个箱里面,这样就不会造成箱的冗余和数据不均,这样分箱后,再方便对数据进行WOE值的计算。
例如
# RevolvingUtilizationOfUnsecuredLines分箱
RevolvingUtilizationOfUnsecuredLines = df['RevolvingUtilizationOfUnsecuredLines']
bins = [-1, 0.2, 0.4, 0.6, 0.8, 1, 60000]
通过手动分箱设置-1左边界涵盖包括0的数据,因为有五万多的数据所以设置上限值为60000作为右边界,以此分箱保证了每个箱数据的均匀性,以免数据在分箱时出现严重的不均。