目录
1.特征选择
特征选择原因
•
冗余:部分特征的相关度高,容易消耗计算性能
•
噪声:部分特征对预测结果有负影响
特征选择主要方法:
主要方法(三大武器):Filter(过滤式):VarianceThreshold
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式)
1.1过滤式
过滤掉低方差特征
sklearn.feature_selection.VarianceThreshold
def var():
'''
特征选择 删除低方差
:return:
'''
var= VarianceThreshold(threshold=0.0)
data =var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print(data)
if __name__=='__main__':
var()
第1列第4列被删除(threshlod=0.0)删除方差为0的列
1.2主成份分析
•
sklearn.
decomposition
PCA:特征数量达到上百的时候,考虑是否需要用PCA,数量减少数据也会改变