基于典型相关性分析的多视图学习方法——典型相关性分析(Canonical Correlation Analysis, CCA)

典型相关性分析(Canonical Correlation Analysis, CCA)是经典的挖掘视图相关 性的多视图子空间学习方法[38],主要是计算两视图特征的最大线性投影,使得在投影空间中,两视图特征的相关性最大

但 CCA 存在两个局限:

  • 第一,只适用于两视图学习;
  • 第二,只能进行线性运算,无法满足两视图特征的非线性关系运算。

基本概念

典型相关性分析(Canonical Correlation Analysis, CCA)是一种统计方法,用于量化和理解两组变量之间的线性关系

CCA旨在找到两组变量内的线性组合,使得这些组合之间的相关性最大化。这种方法特别适用于探索不同数据源或测量方式之间的潜在联系。

CCA的基本目标是在两组随机变量 X \mathbf{X} X Y \mathbf{Y} Y 之间寻找一对线性组合,使得它们之间的相关性最大化。这里, X \mathbf{X} X Y \mathbf{Y} Y 可以是任意两个数据集,例如,一个人的身高和体重数据集和这个人跑步和跳远的能力数据集。

CCA的主要公式和解释如下:

  • 给定两组随机变量向量 X \mathbf{X} X Y \mathbf{Y} Y,其中 X ∈ R p \mathbf{X}\in\mathbb{R}^{p} XRp Y ∈ R q \mathbf{Y}\in\mathbb{R}^{q} YRq

  • CCA试图找到向量 a ∈ R p \mathbf{a}\in\mathbb{R}^{p} aRp b ∈ R q \mathbf{b}\in\mathbb{R}^{q} bRq使得新的变量 U = a ′ X U=\mathbf{a}'\mathbf{X} U=aX V = b ′ Y V=\mathbf{b}'\mathbf{Y} V=bY 之间的相关性最大

  • 这里的 a ′ \mathbf{a}' a b ′ \mathbf{b}' b 分别表示向量 a \mathbf{a} a b \mathbf{b} b转置。

CCA的优化目标是:

ρ = corr ( U , V ) = Cov ( U , V ) Var ( U ) Var ( V ) \rho = \text{corr}(U, V) = \frac{\text{Cov}(U, V)}{\sqrt{\text{Var}(U)\text{Var}(V)}} ρ=corr(U,V)=Var(U)Var(V) Cov(U,V)

其中,

  • ρ \rho ρ典型相关系数,表示 U U U V V V 之间的相关性。
  • Cov ( U , V ) \text{Cov}(U, V) Cov(U,V) U U U V V V协方差。
  • Var ( U ) \text{Var}(U) Var(U) Var ( V ) \text{Var}(V) Var(V) 分别是 U U U V V V方差。

为了简化这个目标,CCA通过求解广义特征值问题来实现。具体来说,CCA试图最大化如下表达式:

max ⁡ a , b a ′ Σ X Y b a ′ Σ X X a ⋅ b ′ Σ Y Y b \max_{\mathbf{a}, \mathbf{b}} \frac{\mathbf{a}'\Sigma_{XY}\mathbf{b}}{\sqrt{\mathbf{a}'\Sigma_{XX}\mathbf{a} \cdot \mathbf{b}'\Sigma_{YY}\mathbf{b}}} a,bmaxaΣXXabΣYYb aΣXYb

其中,

  • Σ X X \Sigma_{XX} ΣXX X \mathbf{X} X协方差矩阵。
  • Σ Y Y \Sigma_{YY} ΣYY Y \mathbf{Y} Y协方差矩阵。
  • Σ X Y \Sigma_{XY} ΣXY Σ Y X \Sigma_{YX} ΣYX 分别是 X \mathbf{X} X Y \mathbf{Y} Y 之间的交叉协方差矩阵。

然而,为了简化计算,通常CCA通过求解以下广义特征值问题来实现:

Σ X Y b = λ Σ Y Y b \Sigma_{XY}\mathbf{b} = \lambda\Sigma_{YY}\mathbf{b} ΣXYb=λΣYYb
Σ Y X a = λ Σ X X a \Sigma_{YX}\mathbf{a} = \lambda\Sigma_{XX}\mathbf{a} ΣYXa=λΣXXa

其中,

  • λ \lambda λ 是特征值。
  • a \mathbf{a} a b \mathbf{b} b 分别是与最大特征值对应的特征向量,这些向量给出最优的线性组合 U U U V V V

CCA的一个关键假设是协方差矩阵 Σ Y Y \Sigma_{YY} ΣYY Σ X X \Sigma_{XX} ΣXX非奇异的。如果矩阵奇异,需要额外的技术来处理这个问题。

在多视图学习中,CCA被用来寻找多个视图之间的线性投影,使得投影后的数据在新的低维空间中保留了视图间的相关性。这种技术在跨模态检索、多视图特征融合等领域有广泛的应用。

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
典型相关分析是一种多元统计分析方法,用于研究两组变量之间的相关关系。它通过将两组变量进行线性组合,找到最大相关系数,从而得到两组变量之间的典型相关变量。 以一个典型相关分析的案例来说明。假设我们想研究体质指标与心理健康之间的关系。我们收集了100名成年人的体质指标数据(如身高、体重、腰围等)和心理健康指标数据(如抑郁倾向、幸福感等)。我们希望通过典型相关分析找到体质指标和心理健康指标之间的关联。 首先,我们将两组变量进行标准化处理,以消除单位的影响。然后,我们将体质指标和心理健康指标分别进行线性组合,得到两个典型变量。这两个典型变量分别代表了体质指标和心理健康指标的主要共同方差。 在典型相关分析中,我们计算典型相关系数来衡量两个典型变量的相关性。该系数的取值范围为-1到1,越接近1表示两个典型变量之间的相关性越强。 通过典型相关分析,我们可能发现体质指标和心理健康指标之间存在显著的正相关关系。例如,我们可能发现第一个典型变量代表了一个既高体质指标又高心理健康指标的模式,这表明身体健康和心理健康呈正相关。而第二个典型变量可能代表了一个低体质指标和低心理健康指标的模式,这表明身体健康和心理健康呈负相关。 此外,我们还可以通过典型相关分析得到两个典型变量的贡献度,以及每个变量对典型变量的权重系数。这些信息可以帮助我们理解体质指标和心理健康指标之间的相关机制,并为进一步的研究提供线索。 总之,典型相关分析是一种有效的统计方法,可以揭示出两组变量之间的相关性,并为研究者提供有关变量之间关系的有用信息。在不同领域中,典型相关分析都可以被广泛应用,以帮助我们更好地理解变量之间的关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值