一、概念
1.主成分分析
- 定义:主成分分析(principal components analysis)是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法。
- 目的:①综合变量尽可能多地反映原来资料的信息;②彼此之间相互独立。
- 重要术语:主成分的贡献率及累积贡献率、成分载荷、成分公因子方差、成分唯一性、Kaiser-Harris准则、Cattell碎石检验、平行分析、主成分得分
- 了解更多:如何通俗易懂地讲解什么是 PCA 主成分分析?以及含数学公式推导的主成分分析原理
2.因子分析
- 定义:因子分析(factor analysis)是一种从多个原始指标的相关关系入手,找出支配这种相关关系的有限个不可观测的潜在变量,并用这些潜在变量来揭示原始指标之间的相关性或协方差关系的多元统计分析方法。
- 分类:探索性因子分析(exploratory factor analysis)、验证性因子分析(confirmatory factor analysis)。多用前者,是一系列用来发现一组变量的潜在结构的方法。
- 重要术语:公共因子、特殊因子、公共度、因子贡献及因子贡献率、因子载荷、主轴迭代法、极大似然法、因子旋转
- 了解更多:因子分析定义和应用以及因子分析的概念
二、PCA和EFA的比较
主成分分析 |
因子分析 |
原始变量的线性组合构成成分 |
因子的线性组合组成原始变量 |
成分彼此独立(正交),可能难以解释 |
因子的解释很重要,有时会牺牲方差或独立性假设 |
重在综合原始变量的信息 |
重在解释原始变量之间的关系 |
将原始坐标轴在空间上进行旋转 |
将原始变量的信息分块 |
不需旋转 |
按需旋转 |
联系 |
对"原始变量之间存在着较强的线性相关关系"进行假设检验 ,如KMO、Bartlett’s球状检验 |
判断主成分和公共因子个数的方法相同,如Kaiser-Harris准则、Cattell碎石检验、平行分析 |
成分(系数)和因子(载荷)的解释类似 |
系数是主成分和变量之间相关性的定量度量, 载荷是因子对原始变量的影响 |
因子分析的主成分解与主成分分析的结果完全一致 |
三、R语言实例
读取数据:
setwd('E:/R/R files')
score <- read.csv('E:/R/R files/PCAscore.csv')
head(score)
- 进行KMO检验或Bartlett’s球状检验
- KMO检验:
KMO>0.9强相关性,>0.8较强相关性,>0.7中等程度相关性;KMO<0.5则不可接受。此处KMO=0.79接近0.8,相关性较强,支持PCA和EFA。
- Bartlett’s球状检验:P<0.05则有统计学意义,各变量具有相关性,支持PCA和EFA。
- 主成分分析
2.1首先,判断主成分个数
library(psych)
fa.parallel(score,n