降维就是降低特征矩阵中特征的数量
sklearn.decomposition 降维(矩阵分解)
主成分分析 PCA
因子分析 FactorAnalysis
独立成分分析 FastICA
字典学习DictionaryLearning
高级矩阵分解 LDA LatentDirichletAllocation
其他矩阵分解 SparseCoder稀疏编码
PCA与SVD
降维 减少特征的数量 能够既减少特征点额数量,又保留大部分有效信息。
PCA使用的信息量衡量指标,就是样本方差,又称可解释性方差,方差越大特征所带的信息量越多。
方差计算公式中为什么是除以n-1? 为了得到样本方差的无偏估计
降维 sklearn.decomposition.PCA
选取第1个方差最大的特征向量,删掉没有被选中的特征
PCA使用方差作为信息量的衡量指标 SVD使用奇异值分解来找出空间V
特征选择是从已存在的特征中选取携带信息最多的,选完之后的特征依然具有可解释性。
PAC是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某些方式组合起来的新特征。新的特征矩阵生成之前我们无法知晓PCA都建立了怎样额新特征向量,新特征矩阵生成之后也不具有可读性和可解释性。
可以视为特征创造的一种。不适用于探索特征和标签之间的关系的模型,因为无法解释新特征和标签之间的关系。线性回归等模型中使用特征选择。
重要参数 n_components 是降维后需要的维度,即降维后需要保留的特征数量
实例化-fit-transform
PCA.explained_variance_ 属性 可解释方差
选择最好的n_compoents