基于典型相关性分析的多视图学习方法(基于半监督学习的 CCA)——半配对半监督的广义相关分析(S2GCA)

半配对半监督的广义相关分析(Semi-paired and Semi-supervised Generalized Correlation Analysis, S2GCA)是一种针对多视图数据集的分析方法,尤其适用于那些只有部分视图间存在配对关系,以及部分数据带有标签的情况

S2GCA结合了半配对学习和半监督学习的思想,旨在从多个数据源中学习共同的表示,同时利用有限的配对信息和标注信息来提高学习效果。

S2GCA的目标

S2GCA的目标是在多视图数据集中学习一组共享的潜在表示,即使得每个数据集的潜在表示在CCA的意义上具有最大的相关性,同时利用已有的配对和标注信息来指导学习过程,以提高表示学习的质量和泛化能力。

S2GCA的数学框架

假设我们有 K K K 个数据集 X 1 , X 2 , … , X K \mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K X1,X2,,XK ,每个数据集包含 N N N 个样本,但可能有不同的特征维度 d 1 , d 2 , … , d K d_1, d_2, \ldots, d_K d1,d2,,dK

在这些数据集中,只有一部分样本是配对的,即在所有 K K K 个视图中都存在的样本;另一部分则是未配对的,即只存在于某些视图中。

此外,假设有一小部分样本带有类别标签。

S2GCA的目标是找到 K K K非线性变换 f 1 ( X 1 ; θ 1 ) , f 2 ( X 2 ; θ 2 ) , … , f K ( X K ; θ K ) f_1(\mathbf{X}_1; \theta_1), f_2(\mathbf{X}_2; \theta_2), \ldots, f_K(\mathbf{X}_K; \theta_K) f1(X1;θ1),f2(X2;θ2),,fK(XK;θK) ,其中 θ i \theta_i θi 是第 i i i网络的参数,使得变换后的数据在CCA的意义上具有最大的相关性,同时最大化配对样本和带标签样本的一致性分类性能。

S2GCA的损失函数

S2GCA的损失函数通常包含三个部分:

  1. CCA损失:用于最大化变换后数据集之间的相关性类似于DGCCA中的CCA损失。

  2. 配对一致性损失:用于确保配对样本在变换后的表示空间中保持接近,这通常通过计算配对样本之间的距离或相似度来实现。

  3. 半监督学习损失:用于利用带标签样本的信息来指导学习过程,这通常涉及分类损失函数如交叉熵损失。

具体的损失函数可以表示为:

L S 2 G C A = L C C A + α L p a i r + β L s u p L_{S2GCA} = L_{CCA} + \alpha L_{pair} + \beta L_{sup} LS2GCA=LCCA+αLpair+βLsup
其中,

  • L C C A L_{CCA} LCCA 是CCA损失,用于最大化所有变换后数据集之间的平均相关性。
  • L p a i r L_{pair} Lpair 是配对一致性损失,用于保持配对样本在表示空间中的相似度。
  • L s u p L_{sup} Lsup 是半监督学习损失,用于利用带标签样本来改进表示学习。
  • α \alpha α β \beta β超参数,用于平衡不同损失项的贡献。

公式解析

  • X 1 , X 2 , … , X K \mathbf{X}_1, \mathbf{X}_2, \ldots, \mathbf{X}_K X1,X2,,XK :原始输入数据集。
  • f i ( ⋅ ) f_i(\cdot) fi() :由深度神经网络实现的第 i i i 个非线性变换函数。
  • C f i ( X i ) f j ( X j ) \mathbf{C}_{f_i(X_i)f_j(X_j)} Cfi(Xi)fj(Xj) :变换后的数据 f i ( X i ) f_i(\mathbf{X}_i) fi(Xi) f j ( X j ) f_j(\mathbf{X}_j) fj(Xj) 之间的互协方差矩阵,用于CCA损失。
  • L p a i r L_{pair} Lpair :配对一致性损失,衡量配对样本在变换后表示空间的相似度。
  • L s u p L_{sup} Lsup :半监督学习损失,基于带标签样本的分类损失。
  • α \alpha α β \beta β :超参数,用于调节不同损失项的相对重要性。

训练过程

S2GCA的训练过程涉及使用梯度下降或其他优化算法来最小化上述定义的损失函数。

这意味着要调整网络参数 θ 1 , θ 2 , … , θ K \theta_1, \theta_2, \ldots, \theta_K θ1,θ2,,θK ,使得所有变换后的数据在CCA空间中尽可能地相关同时保持配对样本的相似性和利用带标签样本的信息来改进表示学习。

结论

S2GCA提供了一种灵活而强大的框架,用于处理复杂多视图数据集的学习任务,特别是在数据配对不完全和标注信息稀缺的情况下

通过结合CCA、配对一致性学习和半监督学习,S2GCA能够有效地从多源数据中学习高质量的共享表示,这对于各种实际应用场景,如多媒体分析、生物信息学和推荐系统等,都有着重要的意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值