多视图聚类方法分类:
区分方法(基于相似性)的方法:
MVC的目的是将N个主体分成K个类别,最终我们会得到一个成员矩阵H∈(N×K),它会指示哪一个主题是在同一个簇而其他主体是在其他簇。H的每一行的元素之和应该是1,这样可以确保每一行的等可能性。
A.公共向量矩阵(多视图谱聚类)
谱聚类的关键在于图的拉普拉斯构造,得到的特征向量反映了数据的分组结构,这组MVC方法通过假设所有视图共享相同或相似的特征向量矩阵来保证得到共同的聚类结果。有两种代表性的方法:联合训练谱聚类(co-training approach for multi-view spectral clustering)和联合正则化谱聚类(“Co-regularized multi-view spectral clustering)。
1)谱聚类:利用图的拉普拉斯性质,其中图的边表示数据点之间的相似性,并解决图上归一化最小割的松弛问题。与其他广泛使用的方法(如仅适用于球形聚类的kmeans)相比,谱聚类可以应用于任意形状的聚类,并表现出良好的性能。目标函数如下:
矩阵U的行是数据点的嵌入,可以被用来当作kmeans的输入。
关于谱聚类的具体操作可以去搜其他博客,这里只做简要介绍。
2)协同训练多视图谱聚类:对于半监督学习,当标记和未标记的数据都可用时,两个视图的联合训练是一种广泛认可的想法。它假设在两个视图中构建的预测模型将很可能导致同一样本的相同标签。有两个主要假设可以保证共同训练的成功:(1)充分性:每个视图本身足以进行样本分类,(2)条件独立性:给定类标签,视图是条件独立的。在原始联合训练算法(Combining labeled and unlabeled data with co-training)中,使用标记数据在每个视图中训练两个初始预测函数F1和F2,然后重复执行以下步骤:将F1预测的最有把握的示例添加到标记集TrainF2,反之亦然,然后在放大的标记数据集上重新训练F1和F2。可以看出,经过多次迭代后,F1和F2将在标签上彼此一致。
3)共正则化多视角谱聚类:共正则化是半监督多视图学习中的一种有效技术。协同正则化的核心思想是最小化作为目标函数一部分的两个视图的预测函数之间的差异。然而,在无监督学习类聚类中不存在预测函数,那么如何在聚类问题中实现协同正则化思想呢?联合正则化多视图谱聚类(Co-regularized multi-view spectral clustering)采用了图拉普拉斯算子的特征向量,在半监督模式下扮演类似于预测函数的角色。
第一种共正则化方法:
这个方法在不完整多视图聚类中有用到,这篇论文:《 Incomplete Multiview Spectral Clustering With Adaptive Graph Learning》
第二种称为基于质心的联合正则化,通过将每个视图的特征向量矩阵正则化为一个共同一致的特征向量矩阵,从而使每个视图的特征向量相似。提出了相应的优化问题: