常见特征选择方法

牧野渔樵

已于 2022-02-18 11:20:42 修改

阅读量1.9k

点赞数

分类专栏：深度学习文章标签：数据挖掘特征工程机器学习

于 2019-10-09 09:37:53 首次发布

本文链接：https://blog.csdn.net/weixin_44178880/article/details/102453556

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

特征选择就是从原始特征中选取一些最有效的特征来降低维度,，提高模型泛化能力减低过拟合的过程，主要目的是剔除掉无关特征和冗余特征，选出最优特征子集。

1．方差选择法

计算各个特征的方差，剔除小于设定的阈值的特征，剔除特征值波动较小的特征，例如一个特征的所有值都为1，那这个特征对于预测目标变量就没什么作用；方法很简单，但实际应用中只有少数变量才会存在只取某个值的情况，对特征选择作用比较小，可以当做数据预处理部分，之后再用其他方法进行特征选择。

from sklearn.feature_selection import VarianceThreshold
sel = VarianceThreshold(threshold=(100))#选择方差大于阈值的特征
X=sel.fit_transform(X)

print(X.shape) #(20640, 5)
#VarianceThreshold返回已经提出方差为0的列，通过get_support[True]定位
#剩余变量所在的列

2. 相关系数法

皮尔森相关系数衡量的是变量之间的线性相关性，取值范围在-1-+1之间，-1表示完全负相关，+1表示完全正相关，0表示线性无关；可以使用scipy的pearsonr 计算皮尔森相关系数，且它还可以同时计算出p值。皮尔森相关系数只衡量线性关系，即使两个变量之间有较强的非线性关系，皮尔森系数也有可能接近为0。

import numpy as np
from scipy.stats import pearsonr
x = np.random.normal(0,10,300)
y = x + np.random.normal(0,10,300)
n=pearsonr(x,y)
print(n) #(0.72216655438214117, 1.2694151127298612e-49)# 输出:(r, p)# r:相关系数[-1，1]之间# p:相关系数显著

相关性的强度确实是用相关系数的大小来衡量的，但相关大小的评价要以相关系数显著性的评价为前提。

因此，要先检验相关系数的显著性，如果显著，证明相关系数有统计学意义，下一步再来看相关系数大小，如果相关系数没有统计学意义，那意味着你研究求得的相关系数也许是抽样误差或者测量误差造成的，再进行一次研究结果可能就大不一样，此时讨论相关性强弱的意义就大大减弱了。【p-value在500个样本值以上有较高的可靠性】

在满足相关系数显著的条件下，相关系数越大，相关性就越强。一般来说皮尔森相关系数越大，p_value越小，线性相关性就越大。

3. 随机森林

当数据集的特征过多时，容易产生过拟合，可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集，利用这个数据集，确定一个阈值，选出来对模型训练帮助最大的一些特征，筛选出重要变量后可以再训练模型。

Mean decrease impurity 不纯度降低
最优条件的选择依据是不纯度。不纯度在分类中通常为Gini不纯度或信息增益/信息熵，对于回归问题来说是方差。

注意：
（1）基于不纯度降低的特征选择将会偏向于选择那些具有较多类别的变量（bias）。
（2）当存在相关特征时，一个特征被选择后，与其相关的其他特征的重要度则会变得很低，因为他们可以减少的不纯度已经被前面的特征移除了。

Mean decrease accuracy 准确率降低
基本思想是重新排列某一列特征值的顺序，观测降低了多少模型的准确率。对于不重要的特征，这种方法对模型准确率的影响很小，但是对于重要特征却会极大降低模型的准确率。

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(X,Y)
importance=clf.feature_importances_
indices=np.argsort(importance)
features=X.columns
for f in range(X.shape[1]):
   print(("%2d) %-*s %f" % (f + 1, 30, features[f], importance[indices[f]])))

4.递归特征消除（RFE）

首先，评估器在初始的特征集合上面训练并且每一个特征的重要程度是通过一个 coef_ 属性或者 feature_importances_ 属性来获得。然后，从当前的特征集合中移除最不重要的特征。在特征集合上不断的重复递归这个步骤，直到最终达到所需要的特征数量为止。

from sklearn.feature_selection import RFE
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import datasets
iris = datasets.load_iris()
gbdt_RFE = RFE(estimator=GradientBoostingClassifier(random_state= 123),n_features_to_select=2)
gbdt_RFE.fit(X, Y)

#特征选择输出结果
print(gbdt_RFE.support_)

5. 使用SelectFromModel 选取特征

SelectFromModel是一个 meta-transformer（元转换器），它可以用来处理任何带有 coef_ 或者 feature_importances_ 属性的训练之后的评估器。如果相关的coef_ 或者 featureimportances 属性值低于预先设置的阈值，这些特征将会被认为不重要并且移除掉。除了指定数值上的阈值之外，还可以通过给定字符串参数来使用内置的启发式方法找到一个合适的阈值。可以使用的启发式方法有 mean 、 median 以及使用浮点数乘以这些（例如，0.1*mean ）

from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel
iris = load_iris()
X, y = iris.data, iris.target
print(X.shape)
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
model = SelectFromModel(lsvc, prefit=True)
X_new = model.transform(X)
print(X_new.shape)

总结：

（1）对于理解数据、数据的结构、特点来说，单变量特征选择是个非常好的选择。尽管可以用它对特征进行排序来优化模型，但由于它不能发现冗余（例如假如一个特征子集，其中的特征之间具有很强的关联，那么从中选择最优的特征时就很难考虑到冗余的问题）。

（2）正则化的线性模型对于特征理解和特征选择来说是非常强大的工具。L1正则化能够生成稀疏的模型，对于选择特征子集来说非常有用；相比起L1正则化，L2正则化的表现更加稳定，由于有用的特征往往对应系数非零，因此L2正则化对于数据的理解来说很合适。由于响应变量和特征之间往往是非线性关系，可以采用basis expansion的方式将特征转换到一个更加合适的空间当中，在此基础上再考虑运用简单的线性模型。

（3）随机森林是一种非常流行的特征选择方法，它易于使用，一般不需要feature engineering、调参等繁琐的步骤，并且很多工具包都提供了平均不纯度下降方法。它的两个主要问题，1是重要的特征有可能得分很低（关联特征问题），2是这种方法对特征变量类别多的特征越有利（偏向问题）。尽管如此，这种方法仍然非常值得在你的应用中试一试。

（4）特征选择在很多机器学习和数据挖掘场景中都是非常有用的。在使用的时候要弄清楚自己的目标是什么，然后找到哪种方法适用于自己的任务。当选择最优特征以提升模型性能的时候，可以采用交叉验证的方法来验证某种方法是否比其他方法要好。当用特征选择的方法来理解数据的时候要留心，特征选择模型的稳定性非常重要，稳定性差的模型很容易就会导致错误的结论。对数据进行二次采样然后在子集上运行特征选择算法能够有所帮助，如果在各个子集上的结果是一致的，那就可以说在这个数据集上得出来的结论是可信的，可以用这种特征选择模型的结果来理解数据。

参考引用：