论文题目:基于图正则矩阵分解的不完整多视图聚类
Authors:Jie Wen, Zheng Zhang, Yong Xu, and Zuofeng Zhong
摘要
提出了一种新颖而简单的方法来解决不完整多视图聚类方法。该方法同时利用每个视图的局部信息和视图之间的互补信息来学习所有样本的公共潜在表示,从而大大提高了表示的紧凑性和可区分性。与传统的图嵌入方法相比,该方法没有引入任何额外的正则化项和相应的惩罚参数来保持数据的局部结构,因此不会增加额外参数选择的负担。通过对每个视图的基矩阵施加正交约束,使得该方法能够处理样本外数据。此外,该方法既可以处理不完整的多视图聚类和分类任务,也可以处理完整的多视图聚类和分类任务,因此可以看作是一个统一的多视图学习框架。
引入
不完整多视图聚类方法分类:
- 基于填充不完整的视图的方法:
- 例如,Trivedi等人。提出了一种基于核CCA的方法,该方法试图恢复不完整视图的核矩阵,然后分别学习两个视图的两个投影。但是,它至少需要一个完整的视图作为参考。换句话说,这并不适用于所有观点都不完整的情况。
- 为了解决上述这个问题,Gao等人。提出了一种两步法,首先用所有样本的相应平均值填充缺失的视图,然后基于谱图理论学习两个视图的共同表示。这种方法的缺点是在数据中引入了一些无用甚至有噪声的信息,对于不完全百分比较小的数据,这种方法可能是有效的,然而,对于不完全百分比较大的数据,这种方法不利于找到共同的表示,因为这些无用的信息可能会主导表示学习。
- 直接学习所有视图的公共潜在子空间或表示的方法
- 基于非负矩阵分解(NMF),PVC通过简单地将同一样本的不同视图正则化以具有相同的表示来直接学习两个视图的共同的潜在表示。
- MIC利用加权NMF算法联合学习每个视图的潜在表示和一致表示,其中丢失的视图在学习过程中被约束为小的权重甚至为0。
- IMG可以看作是PVC的扩展,它进一步将自适应学习图嵌入到潜在表示上。
现有方法缺点
虽然已经提出了一些方法来解决IMC(Incomplete Multi-view Clustering)问题,但仍然存在一些限制其性能的问题。
1. 第一个缺点是这些方法都忽略了数据的几何结构。这表明数据的固有几何结构可能会在表示空间中被破坏,从而可能导致较差的性能。
2. 第二个缺点,特别是MIC和IMG,需要设置很多惩罚参数(三个以上)。这些可调参数直接影响聚类性能,限制了其实际应用,因为如何针对不同的数据集自适应地选择最优参数仍然是一个悬而未决的问题。
3. 第三个缺点是这些方法都不能处理样本外的问题。
相关工作
-
符号说明
-
Partial multi-view clustering (PVC)
论文方法
对于多视图数据,学习所有视图的公共潜在表示是多视图聚类领域中最受欢迎的方法之一。然而,如何为不完整的多视图数据学习一种紧凑的、可区分的公共表示是一项具有挑战性的任务。在这一部分中,提出了一种新的多视图聚类框架,该框架将每个视图的局部信息和不同视图之间的互补信息联合集成在一起,如下图所示:
第一步:
引入0-1二进制值权重来规则化数据重建,可以很好地保留原始数据在每个视图中的局部性结构。
第二步:
对于不同视图的对齐样本,它们的学习到的新表示应该是一致的。为此,我们进一步增加了基于对齐信息的正则化项。最终得到的目标函数(模型):
优化
实验验证
论文和代码链接:文杰的个人网站