1. 降维,降多少维度呢?降低的标准是什么:没有一个标准,这应该是一个超参数,通过pipeline和gridsearchCV进行搜索;
2.如何使用sklearn中PCA的API
a. n_components如何设置比例:n_components如何设置比例 n_components = 0.95 (表示提取95%的主成分)
n_components = 'mle' : API会根据MLE算法根据特征的方差分布情况,自己去选择一定数量的主成分特征来降维;
b. n_components即使设置比例为100%,也会对data进行处理,返回的data,维度跟原始data一样,但是每一维的主成分比例不断下降,通过pca.explained_variance_ratio_参数可以看到每一维所占的比例.
使用方法:
pca = PCA(n_components= 0.99) pca.fit(X) print(pca.explained_variance_ratio_) #降维后每一列方差占比 print(pca.explained_varia |