Factor Analysis （2）

最新推荐文章于 2022-10-24 13:38:48 发布

zz_1215

最新推荐文章于 2022-10-24 13:38:48 发布

阅读量1.1k

点赞数 1

5 因子分析模型

上面的过程是从隐含随机变量z经过变换和误差扰动来得到观测到的样本点。其中z被称为因子，是低维的。

我们将式子再列一遍如下：

其中误差和z是独立的。

下面使用的因子分析表示方法是矩阵表示法，在参考资料中给出了一些其他的表示方法，如果不明白矩阵表示法，可以参考其他资料。

矩阵表示法认为z和x联合符合多元高斯分布，如下

求之前需要求E[x]

我们已知E[z]=0，因此

下一步是计算，

其中

接着求

这个过程中利用了z和独立假设（）。并将看作已知变量。

接着求

然后得出联合分布的最终形式

从上式中可以看出x的边缘分布

那么对样本进行最大似然估计

然后对各个参数求偏导数不就得到各个参数的值了么？

可惜我们得不到closed-form。想想也是，如果能得到，还干嘛将z和x放在一起求联合分布呢。根据之前对参数估计的理解，在有隐含变量z时，我们可以考虑使用EM来进行估计。

6 因子分析的EM估计

我们先来明确一下各个参数，z是隐含变量，是待估参数。

回想EM两个步骤：

循环重复直到收敛 {

（E步）对于每一个i，计算

（M步）计算

我们套用一下：

（E步）：

根据第3节的条件分布讨论，

因此

那么根据多元高斯分布公式，得到

（M步）：

直接写要最大化的目标是

其中待估参数是

下面我们重点求的估计公式

首先将上式简化为：

这里表示服从分布。然后去掉与不相关的项（后两项），得

去掉不相关的前两项后，对进行导，

第一步到第二步利用了tr a = a（a是实数时）和tr AB = tr BA。最后一步利用了

tr就是求一个矩阵对角线上元素和。

最后让其值为0，并且化简得

然后得到

到这里我们发现，这个公式有点眼熟，与之前回归中的最小二乘法矩阵形式类似

这里解释一下两者的相似性，我们这里的x是z的线性函数（包含了一定的噪声）。在E步得到z的估计后，我们找寻的实际上是x和z的线性关系。而最小二乘法也是去找特征和结果直接的线性关系。

到这还没完，我们需要求得括号里面的值

根据我们之前对z|x的定义，我们知道

第一步根据z的条件分布得到，第二步根据得到

将上面的结果代入（7）中得到

至此，我们得到了，注意一点是E[z]和的不同，后者需要求z的协方差。

其他参数的迭代公式如下：

均值在迭代过程中值不变。

然后将上的对角线上元素抽取出来放到对应的中，就得到了。

7 总结

根据上面的EM的过程，要对样本X进行因子分析，只需知道要分解的因子数（z的维度）即可。通过EM，我们能够得到转换矩阵和误差协方差。

因子分析实际上是降维，在得到各个参数后，可以求得z。但是z的各个参数含义需要自己去琢磨。

下面从一个ppt中摘抄几段话来进一步解释因子分析。

因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。

例如，在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。

但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。而这三个公共因子可以表示为：

这里的就是样例x的第i个分量，就是的第i个分量，就是的第i行第j列元素，是z的第i个分量，是。

称是不可观测的潜在因子。24个变量共享这三个因子，但是每个变量又有自己的个性，不被包含的部分，称为特殊因子。

注：

因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明确的实际意义；

主成分分析分析与因子分析也有不同，主成分分析仅仅是变量变换，而因子分析需要构造因子模型。

主成分分析:原始变量的线性组合表示新的综合变量，即主成分；

因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。

PPT地址

http://www.math.zju.edu.cn/webpagenew/uploadfiles/attachfiles/2008123195228555.ppt

其他值得参考的文献

An Introduction to Probabilistic Graphical Models by Jordan Chapter 14

主成分分析和因子分析的区别http://cos.name/old/view.php?tid=10&id=82

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Factor Analysis （2）

5 因子分析模型上面的过程是从隐含随机变量z经过变换和误差扰动来得到观测到的样本点。其中z被称为因子，是低维的。我们将式子再列一遍如下：其中误差和z是独立的。下面使用的因子分析表示方法是矩阵表示法，在参考资料中给出了一些其他的表示方法，如果不明白矩阵表示法，可以参考其他资料
复制链接

扫一扫

zz_1215 CSDN认证博客专家 CSDN认证企业博客

码龄13年

300: 原创

13万+: 周排名

75万+: 总排名

49万+: 访问

: 等级

7384: 积分

216: 粉丝

98: 获赞

132: 评论

148: 收藏

私信

关注

热门文章

最新评论

QR分解求矩阵全部特征值
true____: 原因在于，用Household变换求解一个常规矩阵的QR分解需要的时间是，而上Hessenberg矩阵可以用Givens变换在的时间内做到，而任何一个实矩阵都可以正交相似与一个上Hessenberg矩阵，因而两者有相同的特征值！（因为求出一个Householder矩阵需要，而确定一个Givens矩阵只需要，同时Givens矩阵乘以一个矩阵只需要的时间！！！）
Ubuntu 16.04 远程桌面
黑绒斗篷: 你好，我也没有找到，请问你有解决方案吗
Ubuntu 16.04 远程桌面
下山买菜-: 博主，第五步骤，没找到. /etc/X11/Xsession这一行呀，是因为xdrp版本问题吗
快速数论变换（NTT）
_Cade_: 数论变换的公式里面的g是g^{(P-1)/N}吧
hdu 5037 Frog
START_GAME: 看不懂

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。