典型相关分析_典型相关分析 csdn-CSDN博客

本文链接：https://blog.csdn.net/yxyxxxyyyy/article/details/119454905

典型相关分析是一种统计方法，用于探究两组变量间的内在联系。通过选取线性组合，最大化两组变量的相关系数，从而将多个变量转化为少数代表性变量，简化复杂的相关关系。在确保变量线性组合不相关的基础上，寻找相关性最大的典型变量对。该方法适用于两组数据的联合正态分布，并通过相关性检验来确定变量间的关系。在实际应用中，通常需要对数据进行标准化处理，以便消除量纲影响，并进行典型载荷分析和贡献率计算。

摘要由CSDN通过智能技术生成

典型相关分析

典型相关分析（Canonical Correlation analysis）研究两组变量（每组变量中都可能有多个指标）之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。

基本原理

在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数（这一步的目的是把一组变量综合起来）
选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对。如此继续下去，直到两组变量之间的相关性被提取完毕为止。
被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。

总结：把多个变量转化成两个代表性变量，把多个与多个的相关关系转化成两两相关的关系。

思路

假设两组变量分别为：
$X^{(1)}=(X^{(1)}_1,X^{(1)}_2,...,X^{(1)}_p)$
$X^{(2)}=(X^{(2)}_1,X^{(2)}_2,...,X^{(2)}_p)$
分别在两组变量中选取若干有代表性的综合变量 $U_i$ 和 $V_i$ ,使得每一个综合变量是原变量的线性组合。
在这里插入图片描述

1.综合变量的组数是不确定的，如果第一组就能代表原样本数据大部分的信息，那么一组就够了。
2.假设第一组反应的信息不够，那么需要寻找第二组，而且为了让第二组的信息更有效，需要保证两组信息不相关。（即 $cov(U_1 , U_2 ) = cov(V_1,V_2 ) = 0$ ）

之后，在 $v a r ( U_ 1 ) = v a r ( V _1 ) = 1$ (保证相关系数与量纲无关，即 $ρ=(U_1,V_1)=(aU_1,bV_1)$ 且唯一) 满足的条件下，找到 $a^{(1)}$ 和 $b^{(1)}$ 两组系数，使得 $ρ=(U_1,V_1)$ 最大。此时 $a^{(1)'}X^{(1)}$ 和 $b^{(1)'}X^{(2)}$ 是 $X^{(1)}$ 、 $X^{(2)}$ 的第一对典型相关变量。可以类似的求出各对之间互不相关的第二对、第三对等典型相关变量

步骤

数据的分布假设
假设两组数据服从联合正态分布。
对两组变量的相关性进行检验（构造似然比统计量）
如果两个随机变量 $X^{(1)}、X^{(2)}$ 互不相关，则两组变量协差阵 $cov(X^{(1)},X^{(2)}) =0$ 。但是有可能得到的两组变量的样本协差阵不为0。因此，在用样本数据进行典型相关分析时，应就两组变量的协差阵是否为零进行检验。
$H_0$ ：两组变量的协差阵为0（两组变量无关）
$H_1$ ：两组变量的协差阵不为0（两组变量有关）
根据随机向量的检验理论可知，用于检验的似然比统计量为

(这一步可以省略)
确定典型相关变量的个数、
直接看典型相关系数对应的P值即可
利用标准化后的典型相关变量分析问题
为了消除量纲和数量级别的影响，必须对数据先做标准化变换处理，然后再做典型相关分析。
进行典型载荷分析
计算前 r个典型变量对样本总方差的贡献