特征选择方法_ref特征慢-CSDN博客

本文链接：https://blog.csdn.net/weixin_44212633/article/details/115184925

本文介绍了机器学习中特征选择的重要性，包括Filter、Wrapper和Embedded三种方法。Filter方法如信息增益、卡方检验、判别分析等关注特征的内在属性；Wrapper方法如前向选择、后向消除等通过模型性能评估特征子集；Embedded方法如LASSO正则化和随机森林结合模型训练与特征选择。特征选择旨在提高模型泛化能力和效率，减少不必要的复杂性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特征选择

特征选择

特征选择

这里对这一篇文章进行的部分翻译和笔记，是一个向导类型，后面还要继续学习。

1.引言

当我们在现实生活中建立机器学习模型的时候，并不是数据集中的所有特征（变量）都要被用于建立模型的。增加多余的变量会降低模型的泛化能力，并且可能会降低分类器的总体精度(the overall accuracy)。此外，给模型增加越来越多的变量，还会增加模型的整体复杂度。

正如“奥卡姆剃刀“所代表的简约法则一样，对一个问题最好的解释就是该解释包含最少的可能假设（如无必要，勿增实体）。因此，特征选择成为构建机器学习模型中不可缺少的一部分。

下面这些方法基本都可以在sklearn中找到相应的API，网址如下：

sklearn的API

2.目标

机器学习中的特征选择的目标是去得到特征集，从而可以为所研究的现象构建有用的模型。

特征选择技术可以大致分为有监督和无监督两类。有监督：这一类的技术被用于被标记的数据，并且用于辨别相关的特征，以提高有监督模型（分类、回归）的表现。无监督：这类技术用于未被标记的数据。

可以细分四个部分：A. Filter methods B. Wrapper methods C. Embedded methods D. Hybird methods

A. Filter methods

Filter methods 通过单变量的测量数据选取特征的固有属性，而不是通过交叉检验的表现。这些方法更快并且计算开销比Wrapper methods更小。当处理高维数据的时候，利用Filter methods计算成本更小。下面是几种常见的

信息增益（Information Gain）

信息增益计算数据集转换过程中的信息熵的减少。可以通过评估每个变量在目标变量上下文中的信息增益，来进行特征选择。

from sklearn.feature_selection import mutual_info_classif
#信息增益方法
importance = mutual_info_classif(data_training_nonan,label_training)
feature_importance = pd.Series(importance,columns)
feature_importance.plot(kind = 'barh',color = 'teal')
plt.show()

卡方检验（Chi-square Test）

卡方检验适用于数据集中的分类特征(categorical features)。我们计算每一个特征与目标的卡方值，并且选择具有最高卡方值的特征数量。为了正确应用卡方检验数据集中各种特征与目标变量之间的关系，必须满足以下条件：变量必须是分类的，独立抽样的，值的期望频率应大于5。

注意，这里要求是特征非负。

判别分析（Discriminant Analysis）

这也有说是Fisher’s Socre的方法。

Fisher Socre

方差阈值（Variance Threshold）

Variance Threshold是一种简单且基础的特征选择方法。这种方法会移除所有不满足阈值的特征。默认移除所有零方差的特征（即在所有样本中，尤其是对于不同类的样本，该特征的值不变，那么这个特征对模型没用，就移除）。我们认为高方差的特征会有更多的信息，但是注意我们并不是在讨论特征变量之间或者特征与目标值之间的关系。最好的状态就是同一类，该特征方差小，不同类，该特征方差大。

from sklearn.feature_selection import VarianceThreshold

v_threshold = VarianceThreshold(threshold=0)#Features with a training-set variance lower than this threshold will be removed.
v_threshold.fit(data_training_nonan[0:290,:]) 
v_threshold.get_support() #返回一个布尔向量，如果特征值方差不等于零，那么就返回True