因子分析（Factor Analysis）

最新推荐文章于 2025-03-22 10:47:29 发布

Duckie-duckie

最新推荐文章于 2025-03-22 10:47:29 发布

阅读量4.9k

点赞数

分类专栏：机器学习文章标签：数据数据分析数据挖掘机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zb123455445/article/details/78542755

版权

因子分析是一种数据简化的技术，通过研究变量间的内部依赖关系，寻找少数潜在因子来表示众多变量的主要信息。在因子分析中，观测数据通过EM算法估计因子和转换矩阵，实现降维并保留数据的主要结构。这种方法适用于训练样例个数远小于特征个数的情况，通过假设特征间独立或等价，减少协方差矩阵的计算。因子分析与回归分析和主成分分析不同，因子是抽象的潜在变量，而主成分分析仅是变量变换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 问题

之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n，这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小，甚至m<<n的时候，使用梯度下降法进行回归时，如果初值不同，得到的参数结果会有很大偏差（因为方程数小于参数个数）。另外，如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时，也会有问题。让我们来演算一下，看看会有什么问题：

多元高斯分布的参数估计公式如下：

分别是求mean和协方差的公式，表示样例，共有m个，每个样例n个特征，因此是n维向量，是n*n协方差矩阵。

当m<<n时，我们会发现是奇异阵（），也就是说不存在，没办法拟合出多元高斯分布了，确切的说是我们估计不出来。

如果我们仍然想用多元高斯分布来估计样本，那怎么办呢？

2 限制协方差矩阵

当没有足够的数据去估计时，那么只能对模型参数进行一定假设，之前我们想估计出完全的（矩阵中的全部元素），现在我们假设就是对角阵（各特征间相互独立），那么我们只需要计算每个特征的方差即可，最后的只有对角线上的元素不为0

回想我们之前讨论过的二维多元高斯分布的几何特性，在平面上的投影是个椭圆，中心点由决定，椭圆的形状由决定。如果变成对角阵，就意味着椭圆的两个轴都和坐标轴平行了。

如果我们想对进一步限制的话，可以假设对角线上的元素都是等值的。

其中

也就是上一步对角线上元素的均值，反映到二维高斯分布图上就是椭圆变成圆。

当我们要估计出完整的时，我们需要m>=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的任何一种假设限定条件下，只要m>=2都可以估计出限定的。

这样做的缺点也是显然易见的，我们认为特征间独立，这个假设太强。接下来，我们给出一种称为因子分析的方法，使用更多的参数来分析特征间的关系，并且不需要计算一个完整的。

3 边缘和条件高斯分布

在讨论因子分析之前，先看看多元高斯分布中，条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。

假设x是有两个随机向量组成（可以看作是将之前的分成了两部分）

其中，，那么。假设x服从多元高斯分布，其中

其中，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。