特征工程是在原有数据的特征下,通过想象力以及对数据的理解和一些特征组合形成新的特征,再对特征评估,优胜劣汰,取出能利用的特征提供给模型建模。
特征工程的常用手段:
劣汰
1.通过箱型图:
文章中的数据特征比较多,特征看图就可。
通过箱型图,可以剔除某些特征,比如说,第一张图第三行的第二列,样本非常不均衡,说明该特征无意义,还要第二张图第一行第四列,该特征的数据对预测值没有参考意义,分布相同,没有区别。
相关性分析
从中,可以剔除掉相关性的绝对值小于0.1的特征。
点线图分析
如果每个点的值域(线的长度长短有较大出入),结论则为方差较大,结论不可信。比如第二行第二列,第三行第三列,第四行第一列。
概率密度图分析
通过概率密度图分析,如果特征内数据的分布情况很相近,则对预测结果没太大用,没有贡献度,比如第四行第四列,该特征就可剔除。
优胜
采用shap和eli5模块
shap:
其中SHAP的值越大越好,SHAP的值越小越好。
eil5: