机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
sklearn.feature_selection
模块里的类能被用来在样本集上作特征选择、或者叫维数降低,改善估计量的准确性、在高维空间的表现。下面我们介绍几种常用的特征选择方法。
删除低方差特征
VarianceThreshold
是一个简单的特征选择基准方法。它删除所有方差小于某阈值的特征。默认删除所有0方差特征,即,特征在所有样本里有相同的值。举一个例子,假设我们有一个布尔特征数据集,我们想删除在超过80%的样本里值都是1或都是0的特征。布尔特征是Bernoulli型随机变量,它的方差是
V a r ( X ) = p ( 1 − p ) Var(X)=p(1-p) Var(X)=p(1</