【多视图聚类】【ICCV 2023】基于交叉视图拓扑一致互补信息的深度多视图聚类

本文链接：https://blog.csdn.net/weixin_44184852/article/details/143138371

在这里插入图片描述

0.论文摘要

多视图聚类旨在从不同的来源或视角提取有价值的信息。多年来，深度神经网络在多视图聚类中展示了其优越的表示学习能力，并取得了令人印象深刻的性能。然而，大多数现有的深度聚类方法致力于合并和探索跨多个视图的一致潜在表示，而忽略了每个视图中丰富的互补信息。此外，在无监督设置中找到多个视图之间的相关性是一个重大挑战。为了解决这些问题，我们提出了一种新的基于交叉视图拓扑的一致和互补信息提取框架，称为CTCC。具体地，可以针对每个视图单独地从二部图学习模块获得深度嵌入。然后，CTCC基于每个视图的二部图之间的OT距离构建交叉视图拓扑图。利用上面的图，我们最大化视图之间的互信息，以学习一致的信息，并通过选择性地将分布彼此隔离来增强每个视图的互补性。在五个具有挑战性的数据集上进行的广泛实验证实，CTCC明显优于现有方法。

1.引言

随着未标记数据的激增和多样性，多视图聚类[26，21，13，44，7]已成为一种越来越流行的无监督范式。它的目标是通过利用来自多个视图的信息将具有相似特征的数据分组在一起。传统的多视图聚类[41, 19, 42, 31, 55]方法通常依赖于多视图融合后的共享信息进行聚类。由于浅层方法从数据中提取高层信息的能力有限，它们的聚类性能高度依赖于原始数据的质量。随着深度学习的快速发展[6, 25, 22]，深度多视图聚类（DMVC）方法[49, 8, 15, 29, 10, 12]利用神经网络强大的学习能力从多个视图中学习有利于聚类的高级公共表示，从而克服了传统方法的缺点。因此，DMVC取得了显著的进展，并在现实世界的应用中引起了广泛的关注。

现有的DMVC方法可以分为三种类型：基于图的方法[4, 45, 52, 20]、基于子空间的方法[37, 39, 53]和基于重建的方法[26, 51, 3, 40, 46]。这些方法通常利用自动编码器或卷积神经网络，通过探索潜在空间中的公共表示或结构来学习结构信息[49, 8, 15]。他们的根本思考围绕融合不同的视图来揭示公共表示并实现改进的聚类效果。然而，在现实世界的场景中，以不同的方式收集多视图数据，并且每个视图包含大量特定于视图的信息。仅仅关注多个视图之间的一致信息会导致大量的信息丢失。有效地利用每个视图中的视图特定信息提出了紧迫的挑战。[50]通过将视图公共信息与视图特定信息解耦，取得了显著的效果。然而，它忽略了视图之间的亲和力，平等地对待每个视图。在真实的多视图数据中，不同的视图对聚类任务的贡献不同。并非视图中的所有信息都同样重要。成对视图之间的相关性在学习聚类友好表示中起着至关重要的作用，尤其是在无监督条件下。因此，在来自不同观点的一致和互补信息之间取得平衡是一个具有挑战性的问题。

为了应对这些挑战，我们提出了一种新颖的多视图深度聚类框架，该框架利用一致性和互补性信息以及跨视图拓扑。我们使用二部图在视图之间建立拓扑图，并基于该图平衡一致和互补信息。如图1所示，我们将交叉视图拓扑图 $\mathbf{W}$ 引入框架中，以选择性地学习一致和互补的信息。具体来说，为了学习跨视图的一致表示，我们最大化视图之间以及视图和一致表示之间的互信息。由于不同视图对一致表示的贡献不同，我们基于交叉视图拓扑图生成权重来约束不同视图之间的互信息。此外，为了利用视图特定的信息，我们通过拓扑图将视图分成两组，并使用视图之间的OT距离将两组视图在潜在空间中拉得更远，从而保留更多视图特定的信息。一般来说，我们通过拓扑图将一致和互补的信息整合到同一个框架中。我们根据拓扑图定义视图之间的关系，以获得更好的聚类性能。

在这里插入图片描述图1： $\mathbf{W}$ 表示视图之间的拓扑图。我们使用交叉视图拓扑图 $\mathbf{W}$ 选择性地组合视图之间的一致和互补信息。具体来说，我们利用互信息最大化模块来获得不同视图之间的一致信息。为了有选择地进一步包含视图特定信息的视图，我们使用视图拓扑图来识别具有丰富视图特定信息的视图。我们将它们与其他视图分开，以允许 $\mathbf{Z}$ 获得更多互补信息。

贡献和新颖之处总结如下：
•在无监督学习范式中，我们提出了一种基于二部图的多视图深度聚类框架。我们采用OT距离来定义视图之间的拓扑图，并有选择地将来自多个视图的信息集成到一个深度神经网络框架中。
•通过引入视图之间的拓扑图，我们可以定义视图之间的语义级关系，平衡来自多个视图的一致和互补信息，从而提高聚类性能。
•充分的实验证明了有选择地将多视图数据的一致性和互补性信息统一到深度聚类框架中的有效性。

2.相关工作

在本节中，我们回顾并重新思考多视图数据中一致和互补信息对聚类的作用，以及深度多视图聚类在这方面的局限性。此外，我们还简要介绍了互信息在探索视图之间的共性和差异方面的最新研究进展，这与我们的工作密切相关。

2.1 MVC中一致性和互补性的再思考

与跨视图检索和跨视图转换等任务[16]不同，多视图聚类（MVC）[19,30,18,21]是一种协调来自多个视图的信息的任务。MVC旨在协调融合两个或多个视图信息[23,38]，达到信息互补的目的，最终提高模型的聚类精度和泛化能力。多视图数据中的信息可以分为视图之间的一致属性和视图特定属性[24, 48, 50, 37]，分别意味着视图之间的共性和每个视图内的个性。

传统的多视图聚类方法大多在融合一致信息的同时分析视图之间的差异，以充分利用多视图中的所有有效信息，使聚类结果更加准确。例如，CSMSC[24]明确地将所有视图的信息拆分为低秩公共表示、视图内特定表示和噪声。CDMGC[9]将测量图多样性和学习一致的聚类标签分配统一到一个框架中。当前的深度多视图聚类方法使用神经网络直接学习潜在空间中所有视图的一致表示[15, 35, 47]，而忽略了视图特定的判别信息对聚类的重要作用。例如，EAMC[57] 使用对抗性学习来对齐视图之间的潜在分布，以学习一致的表示。DCP[17]通过最大化不同视图的互信息来实现一致性学习，没有提到视图互补信息的重要作用。

据我们所知，没有深度方法显式统一视图图来平衡将一致信息和互补信息整合到一个框架中，使两者共同促进聚类性能的提高。

2.2 多视图聚类中的互信息

多年来，信息论在多视图表征学习领域得到了广泛的应用，取得了显著的成果[36,28,5,43]。其中，信息瓶颈[33]是一种基于信息论的方法，为相关工作提供了可靠的理论解释。理想情况下，信息瓶颈最大化任务信息 $I (Z, Y)$ ，同时最小化原始特征信息 $I(Z; X^{(1)}, X^{(2)})$ 以获得高质量的表示。然而，信息瓶颈理论需要标签信息[1, 34]，甚至在无监督场景中构建的伪标签也不可靠，阻碍了冗余信息的准确去除和鲁棒表示的获取。因此，在我们的工作中，我们不是利用信息瓶颈来探索多个视图之间的非线性关系，而是通过最大化互信息 $I(Z^{(1)}, Z^{(2)})$ 来直接研究跨视图表示的一致信息。

3.方法

在本节中，我们首先展示了所提出模型的框架图，如图2所示。随后，我们详细探究每个模块的学习过程。

在这里插入图片描述
图2：我们提出的CTCC的框架。整个模型由三个主要模块组成：二部图学习、信息的跨视图一致性最大化和通过视图拓扑图 $\mathbf{W}$ 最大化特定视图最优运输（OT）距离以获得视图的互补信息。二部图学习的目标是学习每个视图中的代表性信息。跨视图一致性信息最大化旨在学习跨视图一致性，而分布隔离寻求保留特定于视图的信息。

3.2 与视图无关的二部图学习

给定具有 $n$ 个样本和 $V$ 个视图的多视图数据 $\mathbf{X} = \{\mathbf{X}^{(1)},\mathbf{X}^{(2)}, · · · , \mathbf{X}^{(V)}\}$ 。 $\mathbf{G} = \{\mathbf{G}^{(1)}, \mathbf{G}^{(2)}, · · · , \mathbf{G}^{(V)}\}$ ，其中 $\mathbf{G}^{(i)}$ 是第 $i$ 个视图上的二部图。我们引入了三个空间：目标空间 $\mathcal{Y}$ 、原始数据空间 $\mathcal{X}$ 和学习的潜在空间 $\mathcal{Z}$ 。在提出的框架中，我们定义了三个映射： $\mathcal{X}→ \mathcal{Z}$ ，它将输入空间转换为潜在空间 $\mathcal{Z}→ \mathcal{X}$ ，它将潜在空间映射回输入空间 $\mathcal{Z}→ \mathcal{Y}$ ，它将潜在空间连接到目标空间。为了初始化第 $i$ 个视图的二部图 $\mathbf{G}^{(i)} ∈ \mathbb{R}^{n×m^{(i)}}$ ，我们采用聚类算法来获得每个视图中的锚点。随后，我们利用编码器-解码器架构来映射初始 $\mathbf{G}^{(i)}$ 并获得细化图：