半配对
半监督的广义相关分析(Semi-paired and Semi-supervised Generalized Correlation Analysis, S2GCA)是一种针对多视图数据集的分析方法,尤其适用于那些只有部分视图间存在配对关系
,以及部分数据带有标签的情况
。
S2GCA结合了半配对学习和半监督学习的思想,旨在从多个数据源中学习共同的表示
,同时利用有限的配对信息和标注信息
来提高学习效果。
S2GCA的目标
S2GCA的目标是在多视图数据集中学习一组共享的潜在表示
,即使得每个
数据集的潜在表示在CCA的意义上具有最大的相关性
,同时利用已有的配对和标注信息
来指导学习过程,以提高表示学习的质量和泛化能力。
S2GCA的数学框架
假设我们有
K
K
K 个数据集
X
1
,
X
2
,
…
,
X
K
\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K
X1,X2,…,XK ,每个数据集包含
N
N
N 个样本,但可能有不同的特征维度
d
1
,
d
2
,
…
,
d
K
d_1, d_2, \ldots, d_K
d1,d2,…,dK 。
在这些数据集中,只有一部分样本是配对的
,即在所有
K
K
K 个视图中都存在的样本;另一部分则是未配对的
,即只存在于某些视图中。
此外,假设有一小部分样本带有类别标签。
S2GCA的目标是找到
K
K
K 个非线性变换
f
1
(
X
1
;
θ
1
)
,
f
2
(
X
2
;
θ
2
)
,
…
,
f
K
(
X
K
;
θ
K
)
f_1(\mathbf{X}_1; \theta_1), f_2(\mathbf{X}_2; \theta_2), \ldots, f_K(\mathbf{X}_K; \theta_K)
f1(X1;θ1),f2(X2;θ2),…,fK(XK;θK) ,其中
θ
i
\theta_i
θi 是第
i
i
i 个网络的参数
,使得变换后的数据在CCA的意义上具有最大的相关性
,同时最大化配对样本和带标签样本的一致性
和分类性能。
S2GCA的损失函数
S2GCA的损失函数通常包含三个部分:
-
CCA损失:用于最大化变换后数据集之间的
相关性
,类似于DGCCA中的CCA损失。
-
配对一致性损失:用于确保
配对
样本在变换后的表示空间中保持接近,这通常通过计算配对样本之间的距离或相似度
来实现。 -
半监督学习损失:用于利用
带标签
样本的信息来指导学习过程,这通常涉及分类损失函数
,如交叉熵损失。
具体的损失函数可以表示为:
L
S
2
G
C
A
=
L
C
C
A
+
α
L
p
a
i
r
+
β
L
s
u
p
L_{S2GCA} = L_{CCA} + \alpha L_{pair} + \beta L_{sup}
LS2GCA=LCCA+αLpair+βLsup
其中,
-
L
C
C
A
L_{CCA}
LCCA 是CCA损失,用于最大化所有变换后数据集之间的
平均相关性。
-
L
p
a
i
r
L_{pair}
Lpair 是配对一致性损失,用于
保持配对样本在表示空间中的相似度。
-
L
s
u
p
L_{sup}
Lsup 是半监督学习损失,用于
利用带标签样本来改进表示学习。
-
α
\alpha
α 和
β
\beta
β 是
超参数,用于平衡不同损失项的贡献。
公式解析
- X 1 , X 2 , … , X K \mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K X1,X2,…,XK :原始输入数据集。
- f i ( ⋅ ) f_i(\cdot) fi(⋅) :由深度神经网络实现的第 i i i 个非线性变换函数。
- C f i ( X i ) f j ( X j ) \mathbf{C}_{f_i(X_i)f_j(X_j)} Cfi(Xi)fj(Xj) :变换后的数据 f i ( X i ) f_i(\mathbf{X}_i) fi(Xi) 和 f j ( X j ) f_j(\mathbf{X}_j) fj(Xj) 之间的互协方差矩阵,用于CCA损失。
- L p a i r L_{pair} Lpair :配对一致性损失,衡量配对样本在变换后表示空间的相似度。
- L s u p L_{sup} Lsup :半监督学习损失,基于带标签样本的分类损失。
- α \alpha α 和 β \beta β :超参数,用于调节不同损失项的相对重要性。
训练过程
S2GCA的训练过程涉及使用梯度下降或其他优化算法
来最小化上述定义的损失函数。
这意味着要调整网络参数
θ
1
,
θ
2
,
…
,
θ
K
\theta_1, \theta_2, \ldots, \theta_K
θ1,θ2,…,θK ,使得所有变换后的数据在CCA空间中尽可能地相关
,同时保持配对样本的相似性和利用带标签样本的信息
来改进表示学习。
结论
S2GCA提供了一种灵活而强大的框架,用于处理复杂多视图数据集的学习任务,特别是在数据配对不完全和标注信息稀缺的情况下
。
通过结合CCA、配对一致性学习和半监督学习,S2GCA能够有效地从多源数据中学习高质量的共享表示,这对于各种实际应用场景,如多媒体分析、生物信息学和推荐系统等,都有着重要的意义。