基于典型相关性分析的多视图学习方法(基于半监督学习的 CCA)——泛化能力的多视图分析模型(GMA)

泛化能力的多视图分析模型(Generalized Multi-view Analysis, GMA)是由Sharma等人提出的,旨在扩展传统无监督的典型相关分析(Canonical Correlation Analysis, CCA)至有监督学习和更广泛的数据分析场景。

GMA的核心在于能够处理多源异构数据,同时考虑数据的标签信息,以提高模型的泛化能力和预测准确性。

GMA的目标

GMA的主要目标是学习一个共同的低维表示,这个表示能够最大化来自不同视图的数据之间的相关性,同时考虑到数据的类别标签信息。

这使得GMA不仅能够处理无监督的多视图数据,还能有效地利用有监督信息,从而在预测任务中获得更好的性能。

GMA的数学框架

假设我们有 V V V 个视图的数据 { X v } v = 1 V \{\mathbf{X}_v\}_{v=1}^{V} {Xv}v=1V ,其中每个 X v \mathbf{X}_v Xv 是一个 N × d v N \times d_v N×dv 的矩阵,代表 N N N 个样本在第 v v v 个视图下的 d v d_v dv 维特征

此外,假设每个样本都有一个类别标签 y \mathbf{y} y

GMA的目标是找到一组投影矩阵 { W v } v = 1 V \{\mathbf{W}_v\}_{v=1}^{V} {Wv}v=1V ,其中 W v \mathbf{W}_v Wv d v × m d_v \times m dv×m 的矩阵, m m m 是期望的共同表示的维度。

投影矩阵的作用是将每个视图的高维数据映射到一个共同的低维空间,使得在这个空间中数据的相关性被最大化。

GMA的损失函数

GMA的损失函数通常包含两部分:多视图相关性损失监督损失。

多视图相关性损失

多视图相关性损失旨在最大化所有视图在共同表示空间中的相关性,可以表示为:
L c o r r e l a t i o n = − ∑ i < j V w i T Σ i j w j w i T Σ i w i ⋅ w j T Σ j w j L_{correlation} = -\sum_{i<j}^{V} \frac{\mathbf{w}_i^T \Sigma_{ij} \mathbf{w}_j}{\sqrt{\mathbf{w}_i^T \Sigma_i \mathbf{w}_i \cdot \mathbf{w}_j^T \Sigma_j \mathbf{w}_j}} Lcorrelation=i<jVwiTΣiwiwjTΣjwj wiTΣijwj
其中,

  • w i \mathbf{w}_i wi w j \mathbf{w}_j wj 分别表示第 i i i 和第 j j j 个视图的投影向量。
  • Σ i j \Sigma_{ij} Σij 是第 i i i 和第 j j j 个视图的协方差矩阵。
  • Σ i \Sigma_i Σi Σ j \Sigma_j Σj 分别是第 i i i 和第 j j j 个视图的自协方差矩阵。
监督损失

监督损失考虑了数据的类别标签信息,可以表示为:
L s u p e r v i s e d = − ∑ v = 1 V log ⁡ p ( y ∣ X v W v ) L_{supervised} = -\sum_{v=1}^{V} \log p(\mathbf{y}|\mathbf{X}_v\mathbf{W}_v) Lsupervised=v=1Vlogp(yXvWv)
其中,

  • p ( y ∣ X v W v ) p(\mathbf{y}|\mathbf{X}_v\mathbf{W}_v) p(yXvWv) 表示给定第 v v v 个视图的投影数据 X v W v \mathbf{X}_v\mathbf{W}_v XvWv 时,类别标签 y \mathbf{y} y 的概率分布。

GMA的总损失函数

GMA的总损失函数是上述两部分损失的加权和:
L G M A = L c o r r e l a t i o n + λ L s u p e r v i s e d L_{GMA} = L_{correlation} + \lambda L_{supervised} LGMA=Lcorrelation+λLsupervised
其中,

  • λ \lambda λ 是控制多视图相关性损失和监督损失相对重要性的超参数。

GMA的训练过程

GMA的训练过程涉及使用梯度下降或其他优化算法来最小化上述定义的总损失函数 L G M A L_{GMA} LGMA

这意味着要调整投影矩阵 { W v } v = 1 V \{\mathbf{W}_v\}_{v=1}^{V} {Wv}v=1V ,以找到最优的共同表示,既保持了不同视图间的最大相关性,又充分考虑了数据的类别标签信息。

结论

泛化能力的多视图分析模型(GMA)是一种强大的多源数据融合技术,它不仅能够处理传统的无监督CCA场景,还能够有效利用有监督信息,提高模型在复杂数据集上的泛化能力。

通过优化上述损失函数,GMA能够在多种应用场景中展现出优越的性能,特别是在处理多模态、多视图数据时。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值