【数学建模】因子分析

二进制人工智能

已于 2024-03-01 09:58:08 修改

阅读量2.1w

点赞数 21

分类专栏：数学文章标签：数学建模

于 2020-04-05 21:38:54 首次发布

本文链接：https://blog.csdn.net/weixin_44378835/article/details/105331717

版权

数学专栏收录该内容

26 篇文章 49 订阅

订阅专栏

文章目录

1 因子分析
- <1> 因子分析的基本理论
- <2> 因子的基本步骤

学习资料：
传送门

1 因子分析

<1> 因子分析的基本理论

1 什么是因子分析？
因子分析是主成分分析的推广，也是利用降维的思想，由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发，把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。

2 因子分析的基本思想
把每个研究变量分解为几个影响因素变量，将每个原始变量分解成两部分因素，一部分是由所有变量共同具有的少数几个公共因子组成的，另一部分是每个变量独自具有的因素，即特殊因子。

3 因子分析的目的

因子分析的目的之一，简化变量维数。即要使因素结构简单化，希望以最少的共同因素（公共因子），能对总变异量作最大的解释，因而抽取得因子愈少愈好，但抽取因子的累积解释的变异量愈大愈好。
在因子分析的公共因子抽取中，应最先抽取特征值最大的公共因子，其次是次大者，最后抽取公共因子的特征值最小，通常会接近0。

4主成分分析与因子分析的联系和差异：

联系：

（1）因子分析是主成分分析的推广，是主成分分析的逆问题。
（2）二者都是以‘降维’为目的，都是从协方差矩阵或相关系数矩阵出发。

区别：

（1）主成分分析模型是原始变量的线性组合，是将原始变量加以综合、归纳，仅仅是变量变换；而因子分析是将原始变量加以分解，描述原始变量协方差矩阵结构的模型；只有当提取的公因子个数等于原始变量个数时，因子分析才对应变量变换。
（2）主成分分析中每个主成分对应的系数是唯一确定的；因子分析中每个因子的相应系数即因子载荷不是唯一的。
（3）因子分析中因子载荷的不唯一性有利于对公因子进行有效解释；而主成分分析对提取的主成分的解释能力有限。

5 因子分析模型

在这里插入图片描述

6 因子分析模型中的几个重要统计量的意义

（1）因子负荷量（或称因子载荷）----是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度
在各公共因子不相关的前提下，（载荷矩阵中第 i行，第j列的元素）是随机变量 $x_i^*$ 与公共因子 $F_j$ 的相关系数，表示 $x_i^*$ 依赖于 $F_j$ 的程度。反映了第i个原始变量在第j个公共因子上的相对重要性。因此绝对值越大，则公共因子Fj与原有变量xi的关系越强。

在这里插入图片描述

（2）共同度----又称共性方差或公因子方差（community或 common variance）就是变量与每个公共因子之负荷量的平方总和（一行中所有因素负荷量的平方和）。变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为

$h_i^2=\sum_{j=1}^ma_{ij}^2$

（3）特征值----是第j个公共因子 $F_j$ 对于 $X^*$ 的每一分量 $X_i^*$ 所提供的方差的总和。又称第j个公共因子的方差贡献。即每个变量与某一共同因素之因素负荷量的平方总和（因子载荷矩阵中某一公共因子列所有因子负荷量的平方和）。
（4）方差贡献率----指公共因子对实测变量的贡献，又称变异量方差贡献率=特征值G/实测变量数p，是衡量公共因子相对重要性的指标， $G_i$ 越大，表明公共因子 $F_j$ 对 $X^*$ 的贡献越大，该因子的重要程度越高。

例：在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。而这三个公共因子可以表示为：
$x_i=u_i+a_{i1}F_1+a_{i2}F_2+a_{i3}F_3+\epsilon_i$
$F_1,F_2,F_3$ 是不可观测的潜在因子,称为公共因子,线性组合系数 $a_{i1},a_{i2}，a_{i3}$ 称为因子载荷，它分别表示第i个商品在三个公共因子的表现； $u_i$ 是总平均， $\epsilon_i$ 是第i个指标不能被公共因子包含的部分，称为特殊因子，常常假定 $\epsilon_i$ ~ $N(0,\sigma^2_i)$ 。即24个变量共享这三个因子，但是每个变量又有自己的个性
因子分析的首要任务就是估计因子载荷 $a_{ij}$ 和方差 $\sigma_i^2$ ，然后给因子 $F_I$ 一个合理的解释，若难以进行合理解释，则需要进一步作因子旋转，希望旋转后能发现比较合理的解释。

<2> 因子的基本步骤

1 因子分析的前提条件鉴定
考察原始变量之间是否存在较强的相关关系，是否适合进行因子分析。因为： 因子分析的主要任务之一就是对原有变量中信息重叠的部分提取和综合成因子，最终实现减少变量个数的目的。所以要求原有变量之间应存在较强的相关关系。否则，如果原有变量相互独立，不存在信息重叠，也就无需进行综合和因子分析

影子分析前提条件——相关性分析：
分析方法主要有：

（1）计算相关系数矩阵(correlation coefficients matrix) 如果相关系数矩阵中的大部分相关系数值均小于0.3，即各变量间大多为弱相关，原则上这些变量不适合进行因子分析
（2）计算反映象相关矩阵（Anti-image correlation matrix)
（3）巴特利特球度检验（Bartlett test of sphericity ) 该检验以原有变量的相关系数矩阵为出发点，其零假设 $H_0$ 是：相关系数矩阵为单位矩阵，即相关系数矩阵主对角元素均为1，非主对角元素均为0。（即原始变量之间无相关关系）。
（4）KMO(Kaiser-Meyer-Olkin)检验 KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标，数学定义为： KMO值越接近1，意味着变量间的相关性越强，原有变量适合做因子分析；越接近0，意味变量间的相关性越弱，越不适合作因子分析。Kaiser给出的KMO度量标准：0.9以上非常适合；0.8表示适合；0.7表示一般；0.6表示不太适合；0.5以下表示极不适合。

2 因子提取
研究如何在样本数据的基础上提取综合因子。

因子载荷矩阵求解的方法
基于主成分模型的主成分分析法
基于因子分析模型的主轴因子法
极大似然法
最小二乘法
a因子提取法
映像分析法

3 因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解释性。

为什么要旋转因子？
建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组，更重要的要知道每个公共因子的意义，以便进行进一步的分析，如果每个公共因子的含义不清，则不便于进行实际背景的解释。由于因子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。目的是使每个变量在尽可能少的因子上有比较高的载荷，让某个变量在某个因子上的载荷趋于1，而在其他因子上的载荷趋于0。即：使载荷矩阵每列或行的元素平方值向0和1两极分化。
旋转的方法有：（1）正交旋转；（2）斜交旋转

（1）正交旋转由初始载荷矩阵A左乘一正交矩阵得到；目的是新的载荷系数尽可能的接近于0或尽可能的远离0；只是在旋转后的新的公因子仍保持独立性。主要有以下方法： varimax:方差最大旋转。简化对因子的解释 quartmax:四次最大正交旋转。简化对变量的解释 equamax:等量正交旋转
方差最大法： 方差最大法从简化因子载荷矩阵的每一列出发，使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时，对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后，使每个因子上的载荷尽量拉开距离，一部分的载荷趋于 1，另一部分趋于0。
四次方最大旋转： 四次方最大旋转是从简化载荷矩阵的行出发，通过旋转初始因子，使每个变量只在一个因子上有较高的载荷，而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷，这时的因子解释是最简单的。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。
等量最大法： 等量最大法把四次方最大法和方差最大法结合起来求行和列因子载荷平方的方差的加权平均最大。
（2）斜交旋转目的是新的载荷系数尽可能的接近于0或尽可能的远离0；只是在旋转时，放弃了因子之间彼此独立的限制，旋转后的新公因子更容易解释。主要有以下的方法：
direct oblimin:直接斜交旋转。允许因子之间具有相关性； promax:斜交旋转方法。允许因子之间具有相关性；

4 计算因子得分
通过各种方法求解各样本在各因子上的得分，为进一步分析奠定基础
因子得分的概念: 前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究，比如把得到的因子作为自变量来做回归分析，对样本进行分类或评价，这就需要我们对公共因子进行测度，即给出公共因子的值。