典型相关分析
典型相关分析(Canonical Correlation analysis)研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。
基本原理
- 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数(这一步的目的是把一组变量综合起来)
- 选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。如此继续下去,直到两组变量之间的相关性被提取完毕为止。
- 被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。
总结 :把多个变量转化成两个代表性变量,把多个与多个的相关关系转化成两两相关的关系。
思路
假设两组变量分别为 :
X
(
1
)
=
(
X
1
(
1
)
,
X
2
(
1
)
,
.
.
.
,
X
p
(
1
)
)
X^{(1)}=(X^{(1)}_1,X^{(1)}_2,...,X^{(1)}_p)
X(1)=(X1(1),X2(1),...,Xp(1))
X
(
2
)
=
(
X
1
(
2
)
,
X
2
(
2
)
,
.
.
.
,
X
p
(
2
)
)
X^{(2)}=(X^{(2)}_1,X^{(2)}_2,...,X^{(2)}_p)
X(2)=(X1(2),X2(2),...,Xp(2))
分别在两组变量中选取若干有代表性的综合变量
U
i
U_i
Ui和
V
i
V_i
Vi,使得每一个综合变量是原变量的线性组合。
1.综合变量的组数是不确定的,如果第一组就能代表原样本数据大部分的信息,那么一组就够了。
2.假设第一组反应的信息不够,那么需要寻找第二组,而且为了让第二组的信息更有效,需要保证两组信息不相关。(即 c o v ( U 1 , U 2 ) = c o v ( V 1 , V 2 ) = 0 cov(U_1 , U_2 ) = cov(V_1,V_2 ) = 0 cov(U1,U2)=cov(V1,V2)=0 )
之后,在 v a r ( U 1 ) = v a r ( V 1 ) = 1 v a r ( U_ 1 ) = v a r ( V _1 ) = 1 var(U1)=var(V1)=1 (保证相关系数与量纲无关,即 ρ = ( U 1 , V 1 ) = ( a U 1 , b V 1 ) ρ=(U_1,V_1)=(aU_1,bV_1) ρ=(U1,V1)=(aU1,bV1)且唯一) 满足的条件下,找到 a ( 1 ) a^{(1)} a(1)和 b ( 1 ) b^{(1)} b(1)两组系数,使得 ρ = ( U 1 , V 1 ) ρ=(U_1,V_1) ρ=(U1,V1)最大。此时 a ( 1 ) ′ X ( 1 ) a^{(1)'}X^{(1)} a(1)′X(1)和 b ( 1 ) ′ X ( 2 ) b^{(1)'}X^{(2)} b(1)′X(2)是 X ( 1 ) X^{(1)} X(1)、 X ( 2 ) X^{(2)} X(2)的第一对典型相关变量。可以类似的求出各对之间互不相关的第二对、第三对等典型相关变量
步骤
-
数据的分布假设
假设两组数据服从联合正态分布。 -
对两组变量的相关性进行检验(构造似然比统计量 )
如果两个随机变量 X ( 1 ) 、 X ( 2 ) X^{(1)}、X^{(2)} X(1)、X(2)互不相关,则两组变量协差阵 c o v ( X ( 1 ) , X ( 2 ) ) = 0 cov(X^{(1)},X^{(2)}) =0 cov(X(1),X(2))=0。但是有可能得到的两组变量的样本协差阵不为0。因此,在用样本数据进行典型相关分析时,应就两组变量的协差阵是否为零进行检验。
H 0 H_0 H0:两组变量的协差阵为0(两组变量无关)
H 1 H_1 H1:两组变量的协差阵不为0(两组变量有关)
根据随机向量的检验理论可知,用于检验的似然比统计量为
(这一步可以省略) -
确定典型相关变量的个数、
直接看典型相关系数对应的P值即可 -
利用标准化后的典型相关变量分析问题
为了消除量纲和数量级别的影响,必须对数据先做标准化变换处理,然后再做典型相关分析。 -
进行典型载荷分析
-
计算前 r个典型变量对样本总方差的贡献