数据降维
特征选择
特征选择的原因
冗余:部分特征的相似性高,容易消耗计算性能
噪声:部分特征对预测结果有影响
特征选择的方法
Filter-过滤式
该方法使用sklearn.feature_selection.VarianceThreshold
VarianceThreshold(threshold=0.0):删除所有低方差特征
from sklearn.feature_selection import VarianceThreshold
X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
sel.fit_transform(X)
array([[0, 1],
[1, 0],
[0, 0],
[1, 1],
[1, 0],
[1, 1]])
主成分分析
本质:一种分析,简化数据集的技术
目的:尽可能降低原数据的维度(复杂度),损失少量信息
作用:可以削减回归分析或聚类分析中特征的数量
该方法使用sklearn.decomposition