特征工程

特征选择: 过滤法,嵌入法,包装法,降维算法。
方差过滤法(VarianceThreshold)
通过特征的方差来筛选特征, 优先消除方差为0的特征。默认方差为0,参数threshold 可以调节方差的阈值。

from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
x_var0 = selector.fit_transform(X)

相关性过滤(卡方过滤,F检验,互信息)
卡方: 针对离散型标签。(即分类问题。)
卡方检验类 feature_selection.chi2计算每个非负特征和标签之间的卡方统计量,并依照卡方统计量从高到底进行特征排名。再结合feature_selection.SelectKBest 这个可以输入评分标准来筛选出前k个分数最高的特征的类,就可以出去独立于标签的前 k个无关的特征。
注释:先进行方差过滤,看效果是否效果有提升,然后再进行卡方过滤(若方差过滤完的效果没有提升则用元数据进行卡方过滤)

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
X_fschi = SelectKBest(chi2,k=350).fit_transform(X_fsvar,y)# X_fsvar 是经过方差过滤后的结果。

通过观察结果发现效果降低了。也就是k值选择有问题,这时两种方法,
一种时画学习曲线,找最佳k值,(花费时间多)
另一种时查看特征与标签的相关性,当p值>0.05或者0.01就是不相关
当p值<0.05 就是特征与标签相关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值