数据降维
维度:特征的数量
为什么要降维:删除一些不必要的特征
-
特征选择
-
主成分分析
特征选择
特征选择的原因
-
冗余:部分特征相关度高,容易消耗计算性能
-
噪声:部分特征对预测结果有影响
特征选择的主要方法
-
filter 过滤式 variance threshold
-
embedded 嵌入式 正则化、决策树
-
wrapper 包裹式
过滤式特征选择
sklearn.feature_selection.VarianceThreshold
代码演示
from sklearn.feature_selection import VarianceThreshold
def var():
#特征选择
var=VarianceThreshold(threshold=1.0) #取值根据实际的需求
data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
print(data)
if __name__=="__main__":
var()
主程序分析
特征数需要达到上百个才考虑去做pca
特征之间容易相关 对于高纬度数据来说