机器学习sklearn-降维

降维是减少特征数量并保留大部分有效信息的过程。在sklearn中,PCA和因子分析等是常用的降维方法。PCA基于样本方差,而SVD更快速。PCA的n_components参数用于指定降维后的维度,explained_variance_和explained_variance_ratio_帮助选择最佳降维数。降维后的新特征不具备可解释性,不适合需要特征解释的模型。SVD提供了多种矩阵分解模式,并且降维不一定可逆。
摘要由CSDN通过智能技术生成

降维就是降低特征矩阵中特征的数量

sklearn.decomposition  降维(矩阵分解)

主成分分析 PCA

因子分析 FactorAnalysis

独立成分分析 FastICA

字典学习DictionaryLearning

高级矩阵分解 LDA LatentDirichletAllocation

其他矩阵分解 SparseCoder稀疏编码

PCA与SVD

降维 减少特征的数量  能够既减少特征点额数量,又保留大部分有效信息。

PCA使用的信息量衡量指标,就是样本方差,又称可解释性方差,方差越大特征所带的信息量越多。

方差计算公式中为什么是除以n-1? 为了得到样本方差的无偏估计

降维 sklearn.decomposition.PCA 

选取第1个方差最大的特征向量,删掉没有被选中的特征

PCA使用方差作为信息量的衡量指标  SVD使用奇异值分解来找出空间V

特征选择是从已存在的特征中选取携带信息最多的,选完之后的特征依然具有可解释性。

PAC是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某些方式组合起来的新特征。新的特征矩阵生成之前我们无法知晓PCA都建立了怎样额新特征向量,新特征矩阵生成之后也不具有可读性和可解释性。

可以视为特征创造的一种。不适用于探索特征和标签之间的关系的模型,因为无法解释新特征和标签之间的关系。线性回归等模型中使用特征选择。

重要参数 n_components 是降维后需要的维度,即降维后需要保留的特征数量

实例化-fit-transform

PCA.explained_variance_  属性 可解释方差

选择最好的n_compoents

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值