稀疏典型相关分析(Sparse Canonical Correlation Analysis, Sparse CCA)是典型相关分析(CCA)的一个扩展版本,其目标是在两组变量之间找到具有最大相关性的线性组合
,同时使这些线性组合尽可能地简洁
,即只包含少量的非零系数。这使得结果更加易于解释,同时也减少了计算负担。
典型相关分析 (CCA)
在传统的CCA中,对于两组随机变量
X
∈
R
n
×
p
\mathbf{X} \in \mathbb{R}^{n \times p}
X∈Rn×p 和
Y
∈
R
n
×
q
\mathbf{Y} \in \mathbb{R}^{n \times q}
Y∈Rn×q ,其中
n
n
n 是样本数量,
p
p
p 和
q
q
q 是各自的特征维度
,CCA的目标是找到投影向量
w
X
\mathbf{w}_X
wX 和
w
Y
\mathbf{w}_Y
wY ,使得
X
w
X
\mathbf{X}\mathbf{w}_X
XwX 和
Y
w
Y
\mathbf{Y}\mathbf{w}_Y
YwY 之间的相关性最大化。
稀疏CCA的目标
在Sparse CCA中,除了最大化相关性之外,我们还希望投影向量
w
X
\mathbf{w}_X
wX 和
w
Y
\mathbf{w}_Y
wY 是稀疏的
,这意味着它们包含很多零元素,只保留最重要的变量
。
这可以通过在优化问题中加入正则化项
来实现,通常使用的是
ℓ
1
\ell_1
ℓ1 范数(Lasso回归),以鼓励系数向量的稀疏性。
Sparse CCA的优化问题
Sparse CCA的优化问题可以表示为:
maximize w X , w Y w X ⊤ C X Y w Y subject to w X ⊤ C X X w X = 1 , w Y ⊤ C Y Y w Y = 1 , ∣ ∣ w X ∣ ∣ 1 + ∣ ∣ w Y ∣ ∣ 1 ≤ s , \begin{aligned} & \underset{\mathbf{w}_X, \mathbf{w}_Y}{\text{maximize}} & & \mathbf{w}_X^\top \mathbf{C}_{XY} \mathbf{w}_Y \\ & \text{subject to} & & \mathbf{w}_X^\top \mathbf{C}_{XX} \mathbf{w}_X = 1, \\ &&& \mathbf{w}_Y^\top \mathbf{C}_{YY} \mathbf{w}_Y = 1, \\ &&& ||\mathbf{w}_X||_1 + ||\mathbf{w}_Y||_1 \leq s, \end{aligned} wX,wYmaximizesubject towX⊤CXYwYwX⊤CXXwX=1,wY⊤CYYwY=1,∣∣wX∣∣1+∣∣wY∣∣1≤s,
其中,
-
C
X
X
\mathbf{C}_{XX}
CXX 和
C
Y
Y
\mathbf{C}_{YY}
CYY 分别是
X
\mathbf{X}
X 和
Y
\mathbf{Y}
Y 的
协方差矩阵,
-
C
X
Y
\mathbf{C}_{XY}
CXY 是
X
\mathbf{X}
X 和
Y
\mathbf{Y}
Y 之间的
互协方差矩阵,
-
s
s
s 是
稀疏性参数,控制投影向量中非零系数的数量,
- subject to 即s.t. ,表示约束条件。
公式解释
- w X \mathbf{w}_X wX 和 w Y \mathbf{w}_Y wY :投影向量,我们希望找到的。
- C X X \mathbf{C}_{XX} CXX 、 C Y Y \mathbf{C}_{YY} CYY 和 C X Y \mathbf{C}_{XY} CXY :协方差和互协方差矩阵,分别表示 X \mathbf{X} X 和 Y \mathbf{Y} Y 的内部关系以及它们之间的相互关系。
-
∣
∣
⋅
∣
∣
1
||\cdot||_1
∣∣⋅∣∣1 :表示向量的
ℓ
1
\ell_1
ℓ1 范数,
即向量中所有元素的绝对值之和,用于促进稀疏性。
- s s s :稀疏性参数,用于限制 w X \mathbf{w}_X wX 和 w Y \mathbf{w}_Y wY 中非零元素的总和。
解决方法
Sparse CCA的优化问题通常不是凸的
,因此找到全局最优解可能很困难。实践中,通常使用迭代算法,如交替方向乘子法(ADMM)或坐标下降法
,来近似求解这个问题。
总结
Sparse CCA通过在CCA的基础上添加稀疏约束
,实现了在保持最大相关性的同时,简化了模型并提高了可解释性
。这对于处理高维数据集尤其有用,因为高维数据集中往往包含大量冗余或无关的变量。