【多视图聚类】Reconsidering Representation Alignment for Multi-view Clustering-CSDN博客

本文链接：https://blog.csdn.net/weixin_44184852/article/details/141673088

Reconsidering Representation Alignment for Multi-view Clustering
CVPR 2021
在这里插入图片描述

0.论文摘要和信息

摘要

对齐视图表示的分布是当今用于深度多视图聚类的最先进模型的核心组件。然而，我们发现了nävely对齐表示分布的几个缺点。我们证明了这些缺点既导致表示空间中可分离的聚类更少，又抑制了模型对视图进行优先排序的能力。基于这些观察，我们开发了一个简单的深度多视图聚类基线模型。我们的基线模型完全避免了表示对齐，同时表现类似于或优于当前技术水平。我们还通过添加对比学习组件来扩展我们的基线模型。这引入了选择性对齐过程，保留了模型对视图进行优先排序的能力。我们的实验表明，对比学习组件增强了基线模型，在几个数据集上比当前的技术水平有了很大的提高。

作者信息

Daniel J. Trosten Sigurd Løkse Robert Jenssen Michael Kampffmeyer

代码地址

SiMVC&CoMVC

1.引言

从不同的角度或通过使用不同传感器的集合来收集几种真实世界的数据。例如，视频包含视觉和听觉成分，而带字幕的图像包括原始图像数据和描述性文本。在这两个示例中，视图的低级内容差异很大，但它们仍然可以携带相同的高级聚类结构。多视图聚类的目标是通过同时从所有可用视图中学习来发现这种公共聚类结构。

同时从多个来源学习不是一件小事[6]。然而，深度学习的引入[33]导致了几种有前途的深度多视图聚类模型的发展[1, 36, 48, 61, 64]。这些模型通过用特定于视图的编码器网络变换每个视图来有效地从多个视图中学习。所得到的表示被融合以获得公共表示对于所有视图，然后可以由后续聚类模块对其进行聚类。

深度多视图聚类的当前技术状态使用对抗性训练来对齐来自不同视图的表示分布[36, 64]。

对齐分布导致视图不变表示，这有利于随后的视图融合和聚类模块[64]。视图不变表示保留所有视图中存在的信息，同时丢弃仅存在于视图子集中的信息。如果视图特定信息与聚类目标无关，则编码器学会去除它对于聚类模块将是有利的。此外，对齐表示分布引入了一个辅助任务，该任务正则化编码器，并有助于保持输入空间的局部几何结构。这已被证明可以改进单视图深度聚类模型[21]。

然而，尽管有这些优点，我们发现多视图聚类的分布对齐的三个重要缺点：
对齐表示可防止表示空间中的视图优先化。视图对于聚类目标不一定同样重要。因此，模型应该能够基于视图表示中包含的信息自适应地确定视图的优先级。然而，通过使这些分布尽可能相似，对齐表示分布使得模型更难确定表示空间中的视图的优先级。

只有当编码器可以在所有视图中分离所有聚类时，才能实现聚类的一对一对齐。当聚类结构仅部分地存在于各个视图中时，对齐导致聚类在表示空间中合并在一起。这使得后续聚类模块的聚类任务更加困难。

对齐表示分布会使区分聚类变得更加困难。由于对抗性对齐仅考虑表示分布，因此来自一个视图的给定聚类可能与来自另一个视图的不同聚类对齐。标签分布的这种错位已被证明对表示空间中的判别模型有负面影响[62]。

用于多模态聚类的端到端对抗性注意力网络（EAMC）[64]代表了深度多视图聚类的当前技术水平。EAMC通过优化编码器网络上的对抗目标来对齐视图表示。所得表示与加权平均值融合，权重通过将表示传递通过注意力网络而产生。根据我们上面的推理，我们假设对抗性模块完成的对齐可能会挫败注意力机制的目的。从而抑制视图优先化，并导致融合后较少的可分离聚类。我们的假设得到了EAMC[64]的经验结果的支持，其中所有数据集的融合权重接近均匀。相等的融合权重使得所有视图对融合表示的贡献相等，而不管它们的内容如何。此外，注意力网络产生的融合权重取决于当前批次内的所有样本。因此，如果不对注意力机制进行额外的修改，EAMC就不可能进行样本外推理。

在这项工作中，我们试图缓解在深度多视图聚类中对齐表示分布时可能出现的问题。为此，我们做出以下关键贡献：
•我们强调了在深度多视图聚类中对齐表示分布的陷阱，并表明这些陷阱限制了现有技术的模型。
•我们提出了简单多视图聚类（SiMVC），这是一种用于深度多视图聚类的新的简单基线模型，没有任何形式的对齐。尽管与现有方法相比它很简单，但我们的实验表明，这种基线模型的性能类似于——在某些情况下，甚至优于——当前最先进的方法。SiMVC使用学习的线性组合来组合视图的表示，这是一种简单但有效的视图优先级排序机制。我们从经验上证明了这种机制允许模型抑制无信息视图并强调对聚类目标重要的视图。
•为了利用对齐的优势——即保留局部几何结构和视图不变性——同时避免陷阱，我们将选择性对比对齐模块附加到SiMVC。对比模块在样本水平对齐表示之间的角度，避免了标签分布未对齐的问题。此外，在一对一对齐不可能的情况下，我们使模型能够忽略对比目标，保留模型对视图进行优先排序的能力。我们将这种模型称为对比多视图聚类（CoMVC）。

2.多视图聚类中分布对齐的陷阱

这里，我们考虑多视图聚类问题的理想化版本。这允许我们研究和形式化我们对多视图聚类中表示分布对齐的观察。通过假设对于每个视图，聚类中的所有样本都位于输入空间中的同一点，我们开发了以下命题：

Proposition 1

命题1。假设我们的数据集由 $V$ 个视图和 $k$ 个地面实况聚类组成，我们希望根据这个地面实况聚类来聚类数据。此外，我们作出以下假设：
1.对于每个视图，属于相同地面真实簇的所有观察位于输入空间中的同一点。
2.对于给定的视图 $v$ ， $v ∈ \{1, . . . , V \}$ ，输入空间中唯一点（即不同/可分离簇）的数量为 $k_v$ 。
3.使用特定于视图的编码器将视图映射到表示，并且随后根据具有唯一权重的线性组合进行融合。

则融合后唯一簇的最大个数为
在这里插入图片描述

如果来自不同视图的表示的分布完全对齐，并且
在这里插入图片描述
如果没有执行对齐。

命题1的含义

命题1中的 $κ^{fused}_.$ 控制聚类模块能够聚类融合表示的程度。如果 $κ^{fused}_. < k$ ，则意味着融合后部分聚类位于同一点，使得聚类模块无法区分这些聚类。在其中一个视图将所有簇分组在一起的极端情况下（即 $k_v = 1$ ），则遵循 $κ^{fused}_{aligned} = 1$ 。发生这种情况是因为所有其他视图都与无信息视图（ $k_v = 1$ ）对齐，从而使表示空间中的聚类结构折叠。因此，对齐防止了该视图的抑制，并且使得更难区分表示空间中的簇。

然而，如果我们能够区分所有视图中的所有聚类，则对于所有视图，我们有 $k_v = k$ ，导致 $κ^{fused}_{aligned} = κ^{fused}_{not \,aligned} = k$ 。在这种情况下，基于对齐的模型和基于非对齐的模型都有可能完美地对数据进行聚类，前提是聚类模块具有足够的能力。因此，基于对齐的模型可以受益于对齐的优点，同时仍然能够在融合后分离聚类。

玩具数据实验

命题1进行了简化，即对于每个视图，聚类中的所有样本都位于同一点。为了证明在不太理想化的环境中对齐表示分布的潜在负面影响，并进一步激发问题，我们创建了一个简单的双视图数据集。数据集如图2所示，在两个二维视图中包含五个椭圆簇。

在这里插入图片描述
图2：玩具数据集。视图1：类(1-3)和(4,5)重叠。视图2：类1是孤立的，类(2,4)和(3,5)重叠。

我们将SiMVC和SiMVC与对抗性对齐（SiMVC+Adv.）拟合到该数据集，以证明在受控环境中对齐分布的影响。此外，我们将CoMVC和当前最先进的EAMC相结合，以评估更先进的对齐程序。注意，对于所有这些模型，融合被实现为视图表示的加权平均，如在命题1中。关于SiMVC和CoMVC的其余细节将在下一节中提供。

图1a和1b示出了尝试用对抗性对齐来对齐分布防止SiMVC在簇1和簇4之间分离。通过将对抗性对齐添加到SiMVC，融合后可见簇的数量从5减少到4。这与命题1一致，因为对于该数据集，我们有 $κ^{fused}_{aligned} = 4$ 和 $κ^{fused}_{not \,aligned} = 5$