基于典型相关性分析的多视图学习方法（基于半监督学习的 CCA）——半配对半监督的广义相关分析（S2GCA）

最新推荐文章于 2024-09-16 13:36:19 发布

不易撞的网名

最新推荐文章于 2024-09-16 13:36:19 发布

阅读量667

点赞数 21

文章标签：学习方法学习人工智能

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140249404

版权

半配对半监督的广义相关分析（Semi-paired and Semi-supervised Generalized Correlation Analysis, S2GCA）是一种针对多视图数据集的分析方法，尤其适用于那些只有部分视图间存在配对关系，以及部分数据带有标签的情况。

S2GCA结合了半配对学习和半监督学习的思想，旨在从多个数据源中学习共同的表示，同时利用有限的配对信息和标注信息来提高学习效果。

S2GCA的目标

S2GCA的目标是在多视图数据集中学习一组共享的潜在表示，即使得每个数据集的潜在表示在CCA的意义上具有最大的相关性，同时利用已有的配对和标注信息来指导学习过程，以提高表示学习的质量和泛化能力。

S2GCA的数学框架

假设我们有 $K$ 个数据集 $\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K$ ，每个数据集包含 $N$ 个样本，但可能有不同的特征维度 $d_1, d_2, \ldots, d_K$ 。

在这些数据集中，只有一部分样本是配对的，即在所有 $K$ 个视图中都存在的样本；另一部分则是未配对的，即只存在于某些视图中。

此外，假设有一小部分样本带有类别标签。

S2GCA的目标是找到 $K$ 个非线性变换 $f_1(\mathbf{X}_1; \theta_1), f_2(\mathbf{X}_2; \theta_2), \ldots, f_K(\mathbf{X}_K; \theta_K)$ ，其中 $\theta_i$ 是第 $i$ 个网络的参数，使得变换后的数据在CCA的意义上具有最大的相关性，同时最大化配对样本和带标签样本的一致性和分类性能。

S2GCA的损失函数

S2GCA的损失函数通常包含三个部分：

CCA损失：用于最大化变换后数据集之间的相关性，类似于DGCCA中的CCA损失。
配对一致性损失：用于确保配对样本在变换后的表示空间中保持接近，这通常通过计算配对样本之间的距离或相似度来实现。
半监督学习损失：用于利用带标签样本的信息来指导学习过程，这通常涉及分类损失函数，如交叉熵损失。

具体的损失函数可以表示为：

$L_{S2GCA} = L_{CCA} + \alpha L_{pair} + \beta L_{sup}$
其中，

$L_{CCA}$ 是CCA损失，用于最大化所有变换后数据集之间的平均相关性。
$L_{pair}$ 是配对一致性损失，用于保持配对样本在表示空间中的相似度。
$L_{sup}$ 是半监督学习损失，用于利用带标签样本来改进表示学习。
$\alpha$ 和 $\beta$ 是超参数，用于平衡不同损失项的贡献。

公式解析

$\mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K$ ：原始输入数据集。
$f_i(\cdot)$ ：由深度神经网络实现的第 $i$ 个非线性变换函数。
$\mathbf{C}_{f_i(X_i)f_j(X_j)}$ ：变换后的数据 $f_i(\mathbf{X}_i)$ 和 $f_j(\mathbf{X}_j)$ 之间的互协方差矩阵，用于CCA损失。
$L_{pair}$ ：配对一致性损失，衡量配对样本在变换后表示空间的相似度。
$L_{sup}$ ：半监督学习损失，基于带标签样本的分类损失。
$\alpha$ 和 $\beta$ ：超参数，用于调节不同损失项的相对重要性。