特征工程的步骤与理解

特征工程是在原有数据的特征下,通过想象力以及对数据的理解和一些特征组合形成新的特征,再对特征评估,优胜劣汰,取出能利用的特征提供给模型建模。

特征工程的常用手段:

劣汰

1.通过箱型图:
文章中的数据特征比较多,特征看图就可。
在这里插入图片描述
在这里插入图片描述
通过箱型图,可以剔除某些特征,比如说,第一张图第三行的第二列,样本非常不均衡,说明该特征无意义,还要第二张图第一行第四列,该特征的数据对预测值没有参考意义,分布相同,没有区别。

相关性分析

在这里插入图片描述
从中,可以剔除掉相关性的绝对值小于0.1的特征。

点线图分析

在这里插入图片描述
如果每个点的值域(线的长度长短有较大出入),结论则为方差较大,结论不可信。比如第二行第二列,第三行第三列,第四行第一列。

概率密度图分析

在这里插入图片描述
通过概率密度图分析,如果特征内数据的分布情况很相近,则对预测结果没太大用,没有贡献度,比如第四行第四列,该特征就可剔除。

优胜

采用shap和eli5模块
shap:
在这里插入图片描述
在这里插入图片描述
其中SHAP的值越大越好,SHAP的值越小越好。

eil5:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值