【sklearn第二十一讲】矩阵分解问题

最新推荐文章于 2022-12-21 12:22:04 发布

Goodsta

最新推荐文章于 2022-12-21 12:22:04 发布

阅读量2.1k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/wong2016/article/details/81141990

版权

本文介绍了机器学习中的矩阵分解技术，包括主成分分析（PCA）、增量PCA、随机SVD、因子分析和非负矩阵分解（NMF）。PCA用于降维并保留方差，因子分析提供了概率模型处理异方差性，NMF适用于非负数据，如图像和文本的表示。文章展示了不同方法在实际数据集上的应用效果。

摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

主成分分析

精确主成分

主成分分析(Principal component analysis, PCA)通常用来分解一个多变量数据集成为逐次正交的成分，这些成分解释原始变量的方差最大。在scikit-learn里，PCA是一个转换对象，在该对象的fit方法里学习n个成分，用于新数据投影到这些成分上，得到新的主成分数据。

设置最优参数whiten=True, 投影数据到奇异空间上，缩放每个主成分为单位方差。在支持向量机和k-means里，这样的参数设置是有利的。

增量主成分

PCA对象虽然有用，但对于大数据集却有些限制。最大的限制是，PCA只支持批量处理，这意味着所有等待处理的数据必须符合主存储器的要求。IncrementalPCA对象使用了一个不同的处理形式，它考虑几乎精确地匹配PCA结果的部分计算，而以一种最小批量的方式处理数据。IncrementalPCA只存储主成分和噪音方差的估计。

随机SVD

通过放弃较小奇异值的主成分的奇异向量，可以实现将数据投射到低维空间，而仍能保持大部分方差的目的。例如，对于 $64\times64$ 的人脸识别灰度图像，数据的维度是4096, 在这样规模的数据上训练一个RBF支持向量机是很慢的。由于人脸的所有图像看起来相似，所以数据的内在维度远小于4096. PCA算法能够用来线性地转换数据，同时降低维度和保持大部分可解释方差。
在PCA类里，当我们想放弃大部分限制计算的奇异向量时，使用参数svd_solver='randomized'是非常有用的。例如，下面显示了来自Olivetti数据集的16个样本肖像。在右边是由前16个奇异向量重新组成的肖像。该数据集的样本数是400, 特征数是4096, 而我们仅仅需要前16个奇异向量来表示，计算时间不到1秒。

这里写图片描述