【缺失多视图聚类】Subgraph Propagation and Contrastive Calibration for Incomplete Multiview Data Cluste

在这里插入图片描述
Subgraph Propagation and Contrastive Calibration for Incomplete Multiview Data Clustering
不完全多视图数据聚类的子图传播和对比校准
TNNLS 2024

摘要

多视图原始数据挖掘的成功依赖于属性的完整性。然而,每个视图都面临各种噪声和收集失败,这导致属性仅部分可用的情况。更糟糕的是,多视图原始数据中的属性由多种形式组成,这使得数据的结构探索变得更加困难,尤其是在多视图聚类任务中。由于部分视图中存在缺失数据,不完整多视图数据上的聚类任务面临以下挑战,即:1)挖掘多视图中缺失数据的拓扑结构是亟待解决的问题;2)大多数方法没有用多视图的公共信息校准互补表示;3)我们发现从不完全视图获得的聚类分布在潜在空间中存在聚类分布不对齐问题(CDUP)。为了解决上述问题,我们提出了一种基于子图传播和对比校准(SPCC)的不完整多视图原始数据的深度聚类框架。首先,通过传播由每个视图的完整数据生成的子图来重建全局结构图。然后在全局结构图和视图间对比学习的指导下完成缺失视图的标定。在潜在空间中,我们假设不同的视图在同一维度上有一个公共的聚类表示。然而,在无监督条件下,不同视图的聚类分布不对应的事实影响了使用来自其他视图的信息的信息完成过程。最后,通过对比学习(CL)对齐不同视图的互补聚类分布,从而求解潜在空间中的CDUP。我们的方法在六个基准上实现了先进的性能,这验证了我们的SPCC的有效性和优越性。

1.引言

多视图聚类[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]通过充分挖掘视图之间的互补信息,已经成为无监督学习中的主流范式。但在实际场景中,由于数据传输的缺陷,如采集、存储等,可能导致某些视图中的属性不完整[9],这种现象越来越普遍。例如,在医学诊断中,患者可能会因为价格昂贵而放弃磁共振成像检查,而只进行廉价的血液检查。由于设备故障,视频可能只有图像或音频。因此,不完全多视图聚类(IMVC)问题[1]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]具有深刻的研究价值。近年来,深度IMVC(DIMVC)[19]、[20]、[21]、[22]、[23]、[24]因其强大的表示学习能力和神经网络的可扩展性[25]、[26]、[27],克服了传统方法表示能力弱、复杂度高等缺点而受到广泛关注。主流DIMVC方法可以大致分为基于生成对抗网络(GANs)的方法[28]、[29]、基于自动编码器的方法 [20]、[30]和基于图卷积网络(GCNs)的方法[31]。基于GAN的方法旨在通过GAN强大的生成能力,根据多个视图之间的联系生成缺失数据,进而实现聚类。基于自动编码器的方法旨在利用视图特定的编码器提取视图的潜在信息,这些方法利用视图的一致性信息来补充缺失数据,以减少缺失数据对聚类的影响。基于GCNS的方法受益于图神经网络(GNN)[32]、[33]挖掘和保存数据结构信息的能力,这些方法实现了不逊于前两种方法的聚类性能。

虽然已经提出了大规模DIMVC方法,但大多数基于自动编码器和GANs的现有方法忽略了多视图数据中包含的拓扑[34],并且它们不能在表示学习过程中保留数据的结构。例如,[35]、[36]都利用自动编码器对样本进行特征提取和降维,但它们没有考虑数据内部的结构。Wang等人的研究[37]和[38]是基于GANs的方法的经典例子,但由于GANs的不确定性和视图数量的不断增加的复杂性,训练过程很复杂。目前基于GCNs的方法仅利用视图内邻居的信息来完成缺失数据,而忽略了视图间信息一致性的功能。例如,[31]将相似实例之间的已知关系转移到每个视图中的缺失数据中,然后直接融合已完成的视图,而不考虑视图之间的一致性信息。

此外,我们观察到对应于不同视图的聚类分配矩阵 { Q ( v ) ∈ R n × k } v = 1 V \{\mathbf{Q}^{(v)} ∈ \mathbb{R}^{n×k} \}^V_{v=1} { Q(v)Rn×k}v=1V并不以逐列方式一致地对齐。我们将这个问题称为簇分布不对齐问题(CDUP)。为了说明这个问题,考虑与图1中描绘的两个视图相关联的聚类分配矩阵 Q ( 1 ) \mathbf{Q}^{(1)} Q(1) Q ( 2 ) \mathbf{Q}^{(2)} Q(2)。这些矩阵的第j列表示每个样本被分配到第j个聚类的概率。然而,在无监督学习条件下,不能保证 Q ( 1 ) \mathbf{Q}^{(1)} Q(1) Q ( 2 ) \mathbf{Q}^{(2)} Q(2)将在潜在空间内表现出列对齐。因此,它们的列之间的对应关系,即,如图1所示的每个簇在不同视图上的分布,可能是完全无序的。这种一致性的缺乏会导致信息融合不当,最终导致聚类性能下降。为了解决上述挑战并提高不完整多视图数据的聚类性能,我们引入了一种专门为不完整多视图原始数据设计的新型子图传播和对比校准深度聚类网络(表示为SPCC)。具体来说,我们对每个视图的完整原始数据采用子空间聚类来构建V相似性图,每个图表示全局结构图的一个子图。随后,基于得到的 V V V个子图进行局部子图传播,构建全局图。在第二个组件中,重建的全局拓扑引导GCN完成每个视图的缺失数据。然后,我们利用对比学习(CL)来指导完整视图校准初始填充视图的嵌入。此外,我们将聚类分配矩阵的每个视图的列视为聚类表示,并引入CL来对齐不同视图之间的聚类分布,从而解决CDUP。这项工作的主要贡献可以总结如下。

在这里插入图片描述
图1.两视图的聚类分布矩阵 Q ( 1 ) \mathbf{Q}^{(1)} Q(1) Q ( 2 ) \mathbf{Q}^{(2)} Q(2)在潜在空间中没有有序排列,这将导致后面的错误融合。

1)我们提出了一种新的深度聚类网络,称为基于子图传播的完全聚类(SPCC),专门用于解决与IMVC相关的挑战。通过为每个单独的视图构建信息缺失子图,我们采用子图传播方法来导出全面的全局图结构。

2)为了有效地利用视图之间的共享信息,我们结合了CL来细化补充的视图嵌入。此外,我们通过应用CL来对齐各种视图的聚类分配矩阵中存在的聚类分布来解决CDUP。

3)在真实世界的不完整多视图数据集上的广泛实验验证了我们的方法优于最先进的DIMVC方法。

本文的结构组织如下。在第二节中,我们概述了DIMVC算法的最新进展,讨论了它们与我们工作的相关性。随后,在第三节中,我们介绍了我们提出的SPCC深度聚类网络,详细介绍了其关键组件和方法。第四节概述了实验设置,并对所获得的结果进行了全面评估。最后,我们在第五节中得出结论并讨论潜在的未来方向。

2.相关工作

在本节中,我们建立了整篇文章中使用的符号,并简要概述了用于聚类的图表示学习、用于多视图节点嵌入的DIMVC和CL的最新发展。命名法介绍了本文中使用的主要符号。

在这里插入图片描述

A.用于聚类的图表示学习

现实世界中存在大量的图形数据,涵盖各种领域,如社交网络[39]、生物分子结构[40]和网络图形[41]等。传统的深度神经网络,如多层感知器(MLP) [42]和卷积神经网络(CNN)[43],不太适合处理图型数据。GNNs[32]、[44]通过聚合节点的邻居信息并将邻居之间的关系信息合并到节点嵌入中来解决这一问题,从而实现图型数据中的节点表示学习。

以GCN为例,图卷积层执行以下操作:

在这里插入图片描述
最后一层的输出是节点的嵌入特征矩阵。在无监督学习场景中,[45]提出了一种使用GCN作为编码器的图自动编码器。编码器为节点生成嵌入特征矩阵,解码器通过对嵌入特征矩阵进行内积和非线性激活来重构原始图结构。这种方法允许在不需要标记数据的情况下学习有意义的节点表示。[46]提出的结构深度聚类网络(SDCN)将从自动编码器获得的表示转移到相应的GCN层。它还引入了双重自监督机制,将两种不同的深度神经架构(autoencoder和GCN)统一起来,指导整个模型的更新。这种方法旨在通过利用自动编码器和GCN架构来提高学习嵌入的质量。Li等[47]提出了一种自适应图自动编码器,允许自适应调整数据的邻接矩阵。该方法不使用固定邻接矩阵,而是在训练过程中学习自适应邻接矩阵。然后,解码器基于自适应调整的邻接矩阵重构节点连接的概率。该方法使模型能够更好地捕获底层图结构,并提高学习嵌入的质量。这些方法展示了图表示学习的持续进步,每种方法都建立在以前的方法的基础上,以改善无监督设置中节点嵌入的学习。

B.深度不完全多视图聚类

随着深度神经网络在各个机器学习领域展现出强大的表征学习能力,研究人员越来越关注使用深度方法来解决IMVC任务。基于所使用的深度神经网络模型,现有的DIMVC方法可以分为三类。

1)基于自动编码器的方法:典型的方法包括[22]、[35]、[36]、[48]和[49]。这些方法利用自动编码器从完整数据中提取特征。它们利用视图之间的关联来填充缺失的数据,并学习一致的聚类友好表示。这些模型专注于即使在数据不完整的情况下,学习也能促进聚类任务的表示。

2)基于GANs的方法[37]、[38]、[50]、[51]:代表性工作有[52]和[38],这两种方法都采用GANs来探索跨视图的互补信息并生成缺失数据。这些方法利用GANs的生成能力来填充缺失的信息并提高学习表示的质量。

3)基于GCNs的方法:虽然前两类侧重于从样本本身学习数据表示,但它们在很大程度上忽略了数据的结构。为了解决这个问题,GCN用于缺失的多视图聚类任务。一种值得注意的方法是通过交叉视图关系转移(CRTC)[31]的IMVC,它将相似实例之间的已知关系转移到缺失的视图。它根据传输的关系图,通过图网络恢复丢失的数据。然而,CRTC仅使用视图内邻居信息来完成缺失数据,而忽略视图间互补信息。

C.对比学习用于多视图节点嵌入

CL[53]、[54]、[55]、[56]、[57]、[58]最大化正对的相似性和负对的距离的基本思想使其自然适用于聚类等无监督任务。目前,在多视图图聚类中,CL通常用于在潜在空间中执行节点嵌入的跨视图CL,这在多视图图聚类中非常有效。通过对比预测的IMVC(COMPLETER) [35] 将跨视图CL与视图重建相结合,从而统一了不完整多视图数据的数据恢复和一致性学习。图对比部分多视图聚类(AGCL)[59]基于关系图生成的伪标签在聚类级别构造正负对,从而实现多视图数据的聚类级比较学习,探索类内一致性。具有不完全信息的鲁棒多视图聚类(SURE) [60]提出了一种新的噪声鲁棒对比度损失,它减轻甚至消除了在对构建过程中引入的假阴性对的影响。

在本文中,我们对节点嵌入执行交叉视图CL。将同一样本点的完整视图作为正样本,其他样本点的视图作为负样本,对完整视图进行对比标定。

3.提出方法

在本节中,我们将详细解释SPCC模型,该模型由三个主要模块组成:结构图生成模块、缺失视图对比校准模块和聚类分布对齐模块。该方法的总体框架如图2所示。

在这里插入图片描述
图2.SPCC框架。如图所示,它由三个组件组成:子图传播补全、交叉视图对比校准和聚类分布对比对齐。具体地,通过传播由视图1和2的完整数据生成的子图 S 1 \mathbf{S}_1 S1 S 2 \mathbf{S}_2 S2来构建全局结构图 A \mathbf{A} A。然后在 A \mathbf{A} A和交叉视图CL的指导下完成缺失视图并校准。并通过CL对齐不同视图的聚类分布。

A.动机

在不完全多视图聚类领域,大多数现有方法忽略了挖掘缺失数据拓扑的重要性,这对于补充缺失属性信息至关重要。在这项研究中,我们采用子空间聚类来构建缺失数据的拓扑,通过利用拓扑和来自其他视图的信息来完成和纠正缺失数据。此外,在潜在空间中,跨不同视图的聚类分布中出现未对齐问题,随后影响每个视图的潜在嵌入和随后的融合过程。为了应对这些挑战,我们引入了一种新的SPCC深度聚类网络,专门为不完整的多视图原始数据设计。

B.图生成模块

为了解决使用图信息传播的数据缺失问题,我们首先检查 X ( i ) ∈ R n × d i \mathbf{X}^{(i)} ∈\mathbb{R}^{n×d_i} X(i)Rn×di 的不完备性。给定指示向量 h ( i ) ∈ R m i h^{(i)} ∈ \mathbb{R}^{m_i} h(i)Rmi ,其包括第 i i i个视图上的 m i m_i m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值