基于典型相关性分析的多视图学习方法(基于数据降维的 CCA)——稀疏典型相关分析(Sparse CCA)

稀疏典型相关分析(Sparse Canonical Correlation Analysis, Sparse CCA)是典型相关分析(CCA)的一个扩展版本,其目标是在两组变量之间找到具有最大相关性的线性组合,同时使这些线性组合尽可能地简洁,即只包含少量的非零系数。这使得结果更加易于解释,同时也减少了计算负担。

典型相关分析 (CCA)

在传统的CCA中,对于两组随机变量 X ∈ R n × p \mathbf{X} \in \mathbb{R}^{n \times p} XRn×p Y ∈ R n × q \mathbf{Y} \in \mathbb{R}^{n \times q} YRn×q ,其中 n n n样本数量, p p p q q q各自的特征维度,CCA的目标是找到投影向量 w X \mathbf{w}_X wX w Y \mathbf{w}_Y wY ,使得 X w X \mathbf{X}\mathbf{w}_X XwX Y w Y \mathbf{Y}\mathbf{w}_Y YwY 之间的相关性最大化。

稀疏CCA的目标

在Sparse CCA中,除了最大化相关性之外,我们还希望投影向量 w X \mathbf{w}_X wX w Y \mathbf{w}_Y wY稀疏的这意味着它们包含很多零元素,只保留最重要的变量

这可以通过在优化问题中加入正则化项来实现,通常使用的是 ℓ 1 \ell_1 1 范数(Lasso回归),以鼓励系数向量的稀疏性。

Sparse CCA的优化问题

Sparse CCA的优化问题可以表示为:

maximize w X , w Y w X ⊤ C X Y w Y subject to w X ⊤ C X X w X = 1 , w Y ⊤ C Y Y w Y = 1 , ∣ ∣ w X ∣ ∣ 1 + ∣ ∣ w Y ∣ ∣ 1 ≤ s , \begin{aligned} & \underset{\mathbf{w}_X, \mathbf{w}_Y}{\text{maximize}} & & \mathbf{w}_X^\top \mathbf{C}_{XY} \mathbf{w}_Y \\ & \text{subject to} & & \mathbf{w}_X^\top \mathbf{C}_{XX} \mathbf{w}_X = 1, \\ &&& \mathbf{w}_Y^\top \mathbf{C}_{YY} \mathbf{w}_Y = 1, \\ &&& ||\mathbf{w}_X||_1 + ||\mathbf{w}_Y||_1 \leq s, \end{aligned} wX,wYmaximizesubject towXCXYwYwXCXXwX=1,wYCYYwY=1,∣∣wX1+∣∣wY1s,

其中,

  • C X X \mathbf{C}_{XX} CXX C Y Y \mathbf{C}_{YY} CYY 分别是 X \mathbf{X} X Y \mathbf{Y} Y协方差矩阵,
  • C X Y \mathbf{C}_{XY} CXY X \mathbf{X} X Y \mathbf{Y} Y 之间的互协方差矩阵,
  • s s s稀疏性参数,控制投影向量中非零系数的数量,
  • subject to 即s.t. ,表示约束条件。

公式解释

  • w X \mathbf{w}_X wX w Y \mathbf{w}_Y wY :投影向量,我们希望找到的。
  • C X X \mathbf{C}_{XX} CXX C Y Y \mathbf{C}_{YY} CYY C X Y \mathbf{C}_{XY} CXY :协方差和互协方差矩阵,分别表示 X \mathbf{X} X Y \mathbf{Y} Y 的内部关系以及它们之间的相互关系。
  • ∣ ∣ ⋅ ∣ ∣ 1 ||\cdot||_1 ∣∣1 :表示向量的 ℓ 1 \ell_1 1 范数,即向量中所有元素的绝对值之和,用于促进稀疏性。
  • s s s :稀疏性参数,用于限制 w X \mathbf{w}_X wX w Y \mathbf{w}_Y wY 中非零元素的总和。

解决方法

Sparse CCA的优化问题通常不是凸的,因此找到全局最优解可能很困难。实践中,通常使用迭代算法,如交替方向乘子法(ADMM)或坐标下降法,来近似求解这个问题。

总结

Sparse CCA通过在CCA的基础上添加稀疏约束实现了在保持最大相关性的同时,简化了模型并提高了可解释性。这对于处理高维数据集尤其有用,因为高维数据集中往往包含大量冗余或无关的变量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值