【多视图聚类】SMILE:Semantic Invariant Multi-view Clustering with Fully Incomplete Information-CSDN博客

本文链接：https://blog.csdn.net/weixin_44184852/article/details/139568425

在这里插入图片描述
TPAMI 2023

0.摘要

由于通常影响现实世界多视图应用的不完全对应和不完全实例等问题，具有不完全信息的鲁棒多视图学习受到了极大的关注。现有方法严重依赖配对样本来重新对齐或估算有缺陷的样本，但由于数据收集和传输的复杂性，这种先决条件在实践中并不总是得到满足。为了解决这个问题，我们提出了一个新的框架，称为语义不变性学习（SMILE），用于不完整信息的多视图聚类，不需要任何配对样本。具体来说，我们发现不同视图之间存在不变语义分布，这使得SMILE能够缓解跨视图差异，以学习共识语义，而不需要任何配对样本。由此产生的共识语义保持不受交叉视图分布偏移的影响，这使得它们可用于重新对齐/插补有缺陷的实例和形成聚类。我们通过在五个基准上与13个最先进的基线进行广泛的比较实验来证明SMILE的有效性。当对应/实例完全不完整时，我们的方法将NoisyMNIST的聚类精度从19.3%/23.2%提高到82.7%/69.0%。

1.引言

多视图聚类（MvC）[1]、[2]、[3]、[4]、[5]、[6]旨在减轻跨视图差异，同时增强不同类别之间的语义区分[7]、[8]。尽管MvC发展迅速，但大多数MvC方法的成功在很大程度上依赖于完全信息的假设[9]、[10]、[11]、[12]、[13]（图1(a)），即对应和实例是完整的。简而言之，如果所有样本在视图中都很好地对齐，则对应是完整的，如果所有样本都可以在所有视图中观察到，则实例是完整的。然而，在实践中，由于数据收集和传输的复杂性，这种假设很难满足。

为了解决上述问题，已经提出了各种方法来探索如何从（部分）不完整的信息中学习。对于不完全对应，现有方法通常旨在使用置换矩阵[14]、[15]、[16]或它们在隐藏空间[17]、[18]、[19]中的距离来重新对齐未对齐的样本。然而，这些方法的成功建立在实例完整性的假设上，这在真实场景中过于理想而无法满足。相比之下，一些方法旨在学习所有视图的共享表示，而不显式地输入未观察到的样本或表示[20]、[21]、[22]、[23]、[24]、[25]、[26]。为了捕捉高度非线性，一些方法采用深度神经网络来预测未观察到的样本，具有强大的学习和非线性建模能力[27]、[28]、[29]、[30]。尽管它们的性能很有希望，但这些方法仍然严重依赖于一些良好对齐的配对样本（即，两个样本都被观察到并且彼此正确对应），这在现实世界的应用中通常是不可用的。例如，当用几架无人机（视图）侦察大面积时，几乎不可能获得成对的样本，因为每架无人机采取单独的侦察路线，并且目标不太可能同时存在于所有视图中。因此，实现具有完全不完整信息的多视图聚类仍然是一个悬而未决的问题（图1(b)）。

在这里插入图片描述
图1。我们的动机。不失一般性，我们以两个视图为例。在图中，虚线框表示相应的变量不可用或不完整。(a)完整的信息；（b）信息完全不完整，即每个实例的对应或样本缺失；（c）我们的语义不变性定理的信息图。（d）我们的语义不变性学习框架的说明。简而言之，它的目标是最大化 $I (C; X ∣ V) = I (C; X) - I (C; V)$ （粉红色部分），以同时减轻交叉视图差异 $I (C; V)$ 并增强语义区分 $I (C; X)$ 。因此，一方面，可以通过将具有相同语义的交叉视图样本相关联来重建不完整的对应关系。另一方面，缺失的样本可以在它们的语义邻居的帮助下进行插补，这可以由现有的交叉视图对应来识别。结果，可以重新对齐/插补有缺陷的实例，并且可以在不需要任何配对样本的情况下形成交叉视图簇。

在本文中，我们提出了一个称为语义不变性学习（SMILE）的统一框架，旨在实现存在完全不完全信息的多视图聚类。具体来说，我们的SMILE旨在减轻交叉视图差异，同时增强语义辨别，即使在没有配对样本的情况下。为此，我们提出了语义不变性定理（定理1），即语义分布在不同视图之间是不变的，这揭示了多视图聚类的内在性质。这使得SMILE能够减轻交叉视图分布差异，而不需要任何配对样本，因为每个视图从其他视图的分布而不是某些交叉视图对进行监督。形式上，SMILE将交叉视图差异公式化为 $I (C; V)$ 和语义区分为 $I (C; X)$ ，如图1（d）所示。更具体地说， $I (C; V)$ 鼓励聚类分配 $C$ 独立于源视图变量 $V$ ，从而减轻跨视图差异。另一方面， $I (C; X)$ 最大化聚类分配 $C$ 和输入 $X$ 之间的互信息，从而提高语义区分度。这两个术语都不需要任何配对样本，并且可以统一为 $I (C; X ∣ V) = I (C; X) - I (C; V)$ ，如图1©所示，这使得SMILE能够学习不被交叉视图分布偏移混淆的共识语义。学习到的共识语义可以作为一个很好的阶梯来重新排列/估算有缺陷的实例并形成聚类，从而实现具有完全不完整信息的多视图聚类。最后，我们将本工作的贡献和新颖之处总结如下。

•据我们所知，我们可能是第一批探索完全不完整信息的多视图聚类的工作之一。为了解决这个问题，我们提出了一个基本定理，语义不变性，用于鲁棒多视图学习，这使我们能够从其他视图的分布中进行监督，而不需要配对样本。
•提出了一种新的跨视图语义不变性学习框架，用于不完全信息的多视图聚类。我们从理论上揭示了它不仅可以补偿不完全信息，而且可以促进MvC。（定理2-4）
•为了验证我们方法的有效性，我们在五个数据集上用13个竞争性基线进行了广泛的比较实验。除了聚类质量的比较之外，还进行了一些实验，通过重建/插补对应关系/样本来定量和可视化地研究所提出的方法。

2.相关工作

近年来，关于多视图聚类的研究层出不穷，大多数研究都或隐或显地依赖于完全信息的假设。基于这一强有力的假设，他们可以专注于以各种方式提取跨视图的异构信息之间的共享语义[7]、[9]、[10]、[11]、[12]、[13]、[31]、[32]、[33]、[34]、[35]、[36]。然而，在实践中，这一假设可能会被违反，导致信息不完全问题，信息不完全可以是双重的：不完全对应和不完全实例。

为了学习不完全对应关系，许多方法试图用置换矩阵重建交叉视图对应关系。例如，Yu等人[14]和Gong等人[15]假设跨视图的图结构应该是一致的，以便置换矩阵可以将一个视图的图结构映射到另一个视图的图结构。此外，Huang等人。[16]对比对的样本进行洗牌，然后以有监督的方式优化置换矩阵。除了排列矩阵之外，一些方法根据未对齐的样本在隐藏空间中的距离重新对齐[17], [18], [19]。然而，上述所有方法都依赖于实例完整性的假设。至于对不完整实例鲁棒的方法，它们可以大致分为两种主流。对于第一个流，他们探索通过非负矩阵分解（NMF）[20], [21], [22], [23]、具有不完全核的多核k均值（MKKMIK）[24]、对抗性学习 [25], [26]等学习所有视图的共享表示来实现多视图聚类。同时，另一个流的方法包含强大的深度神经网络，从而预测未观察到的样本的表示。比如江等人[37]通过对抗性学习学习未观察到的表征。林等人[27]以监督的方式训练投影来预测未观察到的表示。唐等人[29]和杨等人[30]用相邻横截面特征的平均值填充未观察到的表示。尽管这些研究取得了一些有希望的结果，但几乎所有这些研究仍然严重依赖配对样本来学习共享表征或估算未观察到的表征。例如，Yang等[30]引入了噪声鲁棒对比学习，该学习从配对样本中构建正/负对，导致其他实例在训练过程中被放弃。此外，江等[37]研究了完全不完全实例的学习问题，但忽略了（部分/完全）不完全对应的问题，这是不完全信息问题的关键部分。虽然现有的方法已经取得了巨大的成功，但据我们所知，这项工作可能是实现完全不完整信息多视图聚类的首批研究之一。

2.2 多视图学习中的信息论

近年来，基于信息论的多视图学习方法取得了可喜的成果。这些方法可以大致分为两类。第一个流涉及基于信息瓶颈[38]的方法，这些方法通过显式或隐式压缩学习的表示来消除噪声信息。例如，Wan等[39]和Federici等[40]通过显式最小化 $I (Z; X)$ 和 $I(Z^{(v_1)}; X^{(v_1)}|X^{(v_2)})$ 来压缩表示。此外，徐等[41]提出通过比最后一层维数更低的隐藏层隐式地压缩表示。第二类方法基于对比学习[42]，它通过各种复杂的设计最大化 $I(Z^{(v_1)}; Z^{(v_2)})$ 。例如，徐等[43]在高层特征空间和标签空间分别进行对比学习，以避免学习一致的公共语义和重建不一致的视图私有信息之间的冲突。此外，哈萨尼等[44]对多视图图执行对比学习，对比来自一阶邻居和图扩散的编码。此外，王等[45]探索通过最大化 $I (Z; X)$ 除了 $I(Z^{(v_1)}| Z^{(v_2)})$ 之外最大化捕获更多下游任务相关信息。然而，这些方法大多侧重于完全信息的多视图学习，在现实场景中很难完全满足。为此，Yang等[30]提出了一个鲁棒的对比项，用于识别具有部分不完整信息的MvC的假阴性。林等[27]、[28]诱导交叉视图投影从整体上学习数据恢复和交叉视图一致性。尽管这些方法在部分不完全信息问题上取得了有希望的结果，但它们仍然严重依赖配对样本。与前面提到的方法不同，我们的方法从变量 $V$ 中进行监督，使我们的模型完全摆脱信息完备性的假设。

3.方法

在本节中，我们首先给出了3.1节中多视图聚类（MvC）的完全不完全信息问题的形式定义。3.2节，我们详细阐述了跨视图语义不变性定理，该定理不仅可以补偿不完全信息，而且可以为MvC提供理论保证。基于3.3节中的定理，我们针对完全不完全信息的MvC提出了一个统一的语义不变性学习框架。

3.1 问题表述

在这项工作中，我们探索了如何在（完全）不完全信息的情况下实现鲁棒的多视图聚类，即部分不完全信息（PII）和完全不完全信息（FII）。我们将问题表述如下：

定义1 部分不完整信息PII

多视图数据集 $\{X^{(v)}\}^M_{v=1} = \{x^{(v)}_1 , x^{(v)}_2 , . . . ,x^{(v)}_N \}^M_{v=1}$ 由两个子集组成：i） $\{S^{(v)}\}^M_{v=1} = \{s^{(v)}_1 , s^{(v)}_2 , . . . ,s^{(v)}_{N_s} \}^M_{v=1}$ 具有完整信息，以及ii） $\{W^{(v)}\}^M_{v=1} = \{w^{(v)}_1 , w^{(v)}_2 , . . . ,w^{(v)}_{N_w} \}^M_{v=1}$