参考文献:基于融合表征的多视图学习方法研究_郑婷一
这项研究的核心在于理解不同视图间信息的关联性如何影响多视图学习方法的性能。
以下是对这一研究主题的进一步详细解析:
探究多视图相关程度与融合表征的分类效果的关系
针对多视图数据的特性,即数据可以从多个角度或来源获取,每个视图可能具有不同的特征表示、结构或维度,但视图间存在一定的相关性、一致性和互补性
。她提出,利用这些不同视图之间的关系,通过协同学习
可以获得融合表征,从而提高机器学习任务的完成效果,如分类和聚类。
实证研究
为了探究视图相关程度与基于融合表征的分类效果之间的关系,采取了以下步骤:
-
数据集选取:使用公开的多视图数据集进行实验,确保研究的可复现性和通用性。
-
相关性计算:采用
最大信息系数(MIC)算法
来计算两两视图之间的相关性。MIC是一种统计量,用于衡量两个变量间非线性关系的强度
,它不受尺度变化和单调变换的影响,能够捕捉变量间的潜在函数依赖关系。
-
融合表征学习:基于两种子空间学习模型
学习融合表征并进行分类预测
。子空间学习模型包括但不限于CCA(典型相关分析)和DCCA(深度CCA)等
,这些模型旨在通过投影或映射
将多视图数据转换到一个共享的子空间
中,以捕获视图间的内在联系。
-
分析与评估:基于上述计算结果,分析多视图
特征的相关性
、基于不同视图融合表征的分类差异性
以及视图相关程度
对融合效果的关联性。实验结果揭示了视图相关性与融合效果
之间的强关联,同时也指出深度学习方法在一定程度上减轻了视图相关性对融合效果的影响,而差异特征对于提升融合效果尤为重要。
涉及的公式与解释
论文中提及的公式包括最大信息系数(MIC)
的计算和子空间学习模型的优化目标
。MIC算法的核心在于通过计算互信息的最大值
来度量相关性,而子空间学习模型(如CCA)的目标是最大化
两个视图投影到同一子空间后的相关性
。
-
最大信息系数(MIC)计算:
MIC算法首先将变量的联合样本点分布在一个
二维空间中
,然后通过网格划分
来估计互信息值
。MIC值是所有网格划分方案中互信息的最大值的归一化结果
,反映了两个变量的相关性程度
。MIC值越大,表示两个视图的特征相似度越高;反之,MIC值越小,表示特征相似度越低。 -
子空间学习模型的优化目标:
CCA和DCCA等子空间学习模型通常寻求
最大化两个视图投影后的相关性。
以CCA为例,它的目标是找到两个投影向量 a a a 和 b b b,使得投影 a T X a^TX aTX 和 b T Y b^TY bTY 之间的相关性最大化
,即最大化
cov ( a T X , b T Y ) var ( a T X ) var ( b T Y ) \frac{\text{cov}(a^TX, b^TY)}{\sqrt{\text{var}(a^TX)\text{var}(b^TY)}} var(aTX)var(bTY)cov(aTX,bTY)
其中 cov \text{cov} cov 表示协方差
, var \text{var} var 表示方差
。
通过这些研究,揭示了多视图数据中视图相关性
与融合表征效果
之间的内在联系,为多视图学习方法的设计提供了理论依据和实证支持。