因为之前看到有关WOE特征编码的方式,比较好奇,就去研究下,偶然之间看到一博客文章,写的是真好,链接如下,https://blog.csdn.net/kevin7658/article/details/50780391。
这篇文章清晰表明了IV和WOE的关系,也说清楚了根据IV值的高低,去选择筛选特征,之后我们可以将筛选出来的特征去做其他方式的编码。
简单说,就是将需要的特征列算出各自的IV值,然后将其排序,IV值越高的特征列说明其预测能力越高,IV值越低的特征列说明其预测能力越低。可以根据业务情况,进行筛选特征列,过滤掉IV值低的特征列。
github有位国人写了一个关于WOE编码的包,项目地址如下:
https://github.com/boredbird/woe,里面也有关于怎么使用这个包的例子,可以查看。