TPAMI 2023
0.摘要
由于通常影响现实世界多视图应用的不完全对应和不完全实例等问题,具有不完全信息的鲁棒多视图学习受到了极大的关注。现有方法严重依赖配对样本来重新对齐或估算有缺陷的样本,但由于数据收集和传输的复杂性,这种先决条件在实践中并不总是得到满足。为了解决这个问题,我们提出了一个新的框架,称为语义不变性学习(SMILE),用于不完整信息的多视图聚类,不需要任何配对样本。具体来说,我们发现不同视图之间存在不变语义分布,这使得SMILE能够缓解跨视图差异,以学习共识语义,而不需要任何配对样本。由此产生的共识语义保持不受交叉视图分布偏移的影响,这使得它们可用于重新对齐/插补有缺陷的实例和形成聚类。我们通过在五个基准上与13个最先进的基线进行广泛的比较实验来证明SMILE的有效性。当对应/实例完全不完整时,我们的方法将NoisyMNIST的聚类精度从19.3%/23.2%提高到82.7%/69.0%。
1.引言
多视图聚类(MvC)[1]、[2]、[3]、[4]、[5]、[6]旨在减轻跨视图差异,同时增强不同类别之间的语义区分[7]、[8]。尽管MvC发展迅速,但大多数MvC方法的成功在很大程度上依赖于完全信息的假设[9]、[10]、[11]、[12]、[13](图1(a)),即对应和实例是完整的。简而言之,如果所有样本在视图中都很好地对齐,则对应是完整的,如果所有样本都可以在所有视图中观察到,则实例是完整的。然而,在实践中,由于数据收集和传输的复杂性,这种假设很难满足。
为了解决上述问题,已经提出了各种方法来探索如何从(部分)不完整的信息中学习。对于不完全对应,现有方法通常旨在使用置换矩阵[14]、[15]、[16]或它们在隐藏空间[17]、[18]、[19]中的距离来重新对齐未对齐的样本。然而,这些方法的成功建立在实例完整性的假设上,这在真实场景中过于理想而无法满足。相比之下,一些方法旨在学习所有视图的共享表示,而不显式地输入未观察到的样本或表示[20]、[21]、[22]、[23]、[24]、[25]、[26]。为了捕捉高度非线性,一些方法采用深度神经网络来预测未观察到的样本,具有强大的学习和非线性建模能力[27]、[28]、[29]、[30]。尽管它们的性能很有希望,但这些方法仍然严重依赖于一些良好对齐的配对样本(即,两个样本都被观察到并且彼此正确对应),这在现实世界的应用中通常是不可用的。例如,当用几架无人机(视图)侦察大面积时,几乎不可能获得成对的样本,因为每架无人机采取单独的侦察路线,并且目标不太可能同时存在于所有视图中。因此,实现具有完全不完整信息的多视图聚类仍然是一个悬而未决的问题(图1(b))。
图1。我们的动机。不失一般性,我们以两个视图为例。在图中,虚线框表示相应的变量不可用或不完整。(a)完整的信息;(b)信息完全不完整,即每个实例的对应或样本缺失;(c)我们的语义不变性定理的信息图。(d)我们的语义不变性学习框架的说明。简而言之,它的目标是最大化
I
(
C
;
X
∣
V
)
=
I
(
C
;
X
)
−
I
(
C
;
V
)
I(C; X|V) = I(C; X) − I(C; V)
I(C;X∣V)=I(C;X)−I(C;V)(粉红色部分),以同时减轻交叉视图差异
I
(
C
;
V
)
I(C; V)
I(C;V)并增强语义区分
I
(
C
;
X
)
I(C; X)
I(C;X)。因此,一方面,可以通过将具有相同语义的交叉视图样本相关联来重建不完整的对应关系。另一方面,缺失的样本可以在它们的语义邻居的帮助下进行插补,这可以由现有的交叉视图对应来识别。结果,可以重新对齐/插补有缺陷的实例,并且可以在不需要任何配对样本的情况下形成交叉视图簇。
在本文中,我们提出了一个称为语义不变性学习(SMILE)的统一框架,旨在实现存在完全不完全信息的多视图聚类。具体来说,我们的SMILE旨在减轻交叉视图差异,同时增强语义辨别,即使在没有配对样本的情况下。为此,我们提出了语义不变性定理(定理1),即语义分布在不同视图之间是不变的,这揭示了多视图聚类的内在性质。这使得SMILE能够减轻交叉视图分布差异,而不需要任何配对样本,因为每个视图从其他视图的分布而不是某些交叉视图对进行监督。形式上,SMILE将交叉视图差异公式化为 I ( C ; V ) I(C; V) I(C;V)和语义区分为 I ( C ; X ) I(C; X) I(C;X),如图1(d)所示。更具体地说, I ( C ; V ) I(C; V) I(C;V)鼓励聚类分配 C C C独立于源视图变量 V V V,从而减轻跨视图差异。另一方面, I ( C ; X ) I(C; X) I(C;X)最大化聚类分配 C C C和输入 X X X之间的互信息,从而提高语义区分度。这两个术语都不需要任何配对样本,并且可以统一为 I ( C ; X ∣ V ) = I ( C ; X ) − I ( C ; V ) I(C; X|V) = I(C; X) − I(C; V) I(C;X∣V)=I(C;X)−I(C;V),如图1©所示,这使得SMILE能够学习不被交叉视图分布偏移混淆的共识语义。学习到的共识语义可以作为一个很好的阶梯来重新排列/估算有缺陷的实例并形成聚类,从而实现具有完全不完整信息的多视图聚类。最后,我们将本工作的贡献和新颖之处总结如下。
•据我们所知,我们可能是第一批探索完全不完整信息的多视图聚类的工作之一。为了解决这个问题,我们提出了一个基本定理,语义不变性,用于鲁棒多视图学习,这使我们能够从其他视图的分布中进行监督,而不需要配对样本。
•提出了一种新的跨视图语义不变性学习框架,用于不完全信息的多视图聚类。我们从理论上揭示了它不仅可以补偿不完全信息,而且可以促进MvC。(定理2-4)
•为了验证我们方法的有效性,我们在五个数据集上用13个竞争性基线进行了广泛的比较实验。除了聚类质量的比较之外,还进行了一些实验,通过重建/插补对应关系/样本来定量和可视化地研究所提出的方法。
2.相关工作
近年来,关于多视图聚类的研究层出不穷,大多数研究都或隐或显地依赖于完全信息的假设。基于这一强有力的假设,他们可以专注于以各种方式提取跨视图的异构信息之间的共享语义[7]、[9]、[10]、[11]、[12]、[13]、[31]、[32]、[33]、[34]、[35]、[36]。然而,在实践中,这一假设可能会被违反,导致信息不完全问题,信息不完全可以是双重的:不完全对应和不完全实例。
为了学习不完全对应关系,许多方法试图用置换矩阵重建交叉视图对应关系。例如,Yu等人[14]和Gong等人[15]假设跨视图的图结构应该是一致的,以便置换矩阵可以将一个视图的图结构映射到另一个视图的图结构。此外,Huang等人。[16]对比对的样本进行洗牌,然后以有监督的方式优化置换矩阵。除了排列矩阵之外,一些方法根据未对齐的样本在隐藏空间中的距离重新对齐[17], [18], [19]。然而,上述所有方法都依赖于实例完整性的假设。至于对不完整实例鲁棒的方法,它们可以大致分为两种主流。对于第一个流,他们探索通过非负矩阵分解(NMF)[20], [21], [22], [23]、具有不完全核的多核k均值(MKKMIK)[24]、对抗性学习 [25], [26]等学习所有视图的共享表示来实现多视图聚类。同时,另一个流的方法包含强大的深度神经网络,从而预测未观察到的样本的表示。比如江等人[37]通过对抗性学习学习未观察到的表征。林等人[27]以监督的方式训练投影来预测未观察到的表示。唐等人[29]和杨等人[30]用相邻横截面特征的平均值填充未观察到的表示。尽管这些研究取得了一些有希望的结果,但几乎所有这些研究仍然严重依赖配对样本来学习共享表征或估算未观察到的表征。例如,Yang等[30]引入了噪声鲁棒对比学习,该学习从配对样本中构建正/负对,导致其他实例在训练过程中被放弃。此外,江等[37]研究了完全不完全实例的学习问题,但忽略了(部分/完全)不完全对应的问题,这是不完全信息问题的关键部分。虽然现有的方法已经取得了巨大的成功,但据我们所知,这项工作可能是实现完全不完整信息多视图聚类的首批研究之一。
2.2 多视图学习中的信息论
近年来,基于信息论的多视图学习方法取得了可喜的成果。这些方法可以大致分为两类。第一个流涉及基于信息瓶颈[38]的方法,这些方法通过显式或隐式压缩学习的表示来消除噪声信息。例如,Wan等[39]和Federici等[40]通过显式最小化 I ( Z ; X ) I(Z; X) I(Z;X)和 I ( Z ( v 1 ) ; X ( v 1 ) ∣ X ( v 2 ) ) I(Z^{(v_1)}; X^{(v_1)}|X^{(v_2)}) I(Z(v1);X(v1)∣X(v2))来压缩表示。此外,徐等[41]提出通过比最后一层维数更低的隐藏层隐式地压缩表示。第二类方法基于对比学习[42],它通过各种复杂的设计最大化 I ( Z ( v 1 ) ; Z ( v 2 ) ) I(Z^{(v_1)}; Z^{(v_2)}) I(Z(v1);Z(v2))。例如,徐等[43]在高层特征空间和标签空间分别进行对比学习,以避免学习一致的公共语义和重建不一致的视图私有信息之间的冲突。此外,哈萨尼等[44]对多视图图执行对比学习,对比来自一阶邻居和图扩散的编码。此外,王等[45]探索通过最大化 I ( Z ; X ) I(Z; X) I(Z;X)除了 I ( Z ( v 1 ) ∣ Z ( v 2 ) ) I(Z^{(v_1)}| Z^{(v_2)}) I(Z(v1)∣Z(v2))之外最大化捕获更多下游任务相关信息。然而,这些方法大多侧重于完全信息的多视图学习,在现实场景中很难完全满足。为此,Yang等[30]提出了一个鲁棒的对比项,用于识别具有部分不完整信息的MvC的假阴性。林等[27]、[28]诱导交叉视图投影从整体上学习数据恢复和交叉视图一致性。尽管这些方法在部分不完全信息问题上取得了有希望的结果,但它们仍然严重依赖配对样本。与前面提到的方法不同,我们的方法从变量 V V V中进行监督,使我们的模型完全摆脱信息完备性的假设。
3.方法
在本节中,我们首先给出了3.1节中多视图聚类(MvC)的完全不完全信息问题的形式定义。3.2节,我们详细阐述了跨视图语义不变性定理,该定理不仅可以补偿不完全信息,而且可以为MvC提供理论保证。基于3.3节中的定理,我们针对完全不完全信息的MvC提出了一个统一的语义不变性学习框架。
3.1 问题表述
在这项工作中,我们探索了如何在(完全)不完全信息的情况下实现鲁棒的多视图聚类,即部分不完全信息(PII)和完全不完全信息(FII)。我们将问题表述如下:
定义1 部分不完整信息PII
多视图数据集 { X ( v ) } v = 1 M = { x 1 ( v ) , x 2 ( v ) , . . . , x N ( v ) } v = 1 M \{X^{(v)}\}^M_{v=1} = \{x^{(v)}_1 , x^{(v)}_2 , . . . ,x^{(v)}_N \}^M_{v=1} {X(v)}v=1M={x1(v),x2(v),...,xN(v)}v=1M由两个子集组成:i) { S ( v ) } v = 1 M = { s 1 ( v ) , s 2 ( v ) , . . . , s N s ( v ) } v = 1 M \{S^{(v)}\}^M_{v=1} = \{s^{(v)}_1 , s^{(v)}_2 , . . . ,s^{(v)}_{N_s} \}^M_{v=1} {S(v)}v=1M={s1(v),s2(v),...,sNs(v)}v=1M具有完整信息,以及ii) { W ( v ) } v = 1 M = { w 1 ( v ) , w 2 ( v ) , . . . , w N w ( v ) } v = 1 M \{W^{(v)}\}^M_{v=1} = \{w^{(v)}_1 , w^{(v)}_2 , . . . ,w^{(v)}_{N_w} \}^M_{v=1} {W(v)}v=1M={w1(v),w2(v),...,wNw(v)}v=1M具有不完全对应和不完整实例中的一个或两个问题,其中 N = N s + N w N = N_s + N_w N=Ns+Nw和 M M M分别表示实例和视图的数量。具体地,如果
其中 C o r ( a , b ) Cor(a, b) Cor(a,b)是评估为1的指示函数当且仅当样本a和b属于同一实例。此外,如果
式中
∣
⋅
∣
| · |
∣⋅∣指观测样本数。
定义2 完全不完整信息FII
具有完全不完整信息的多视图数据集 { X ( v ) } v = 1 M = { x 1 ( v ) , x 2 ( v ) , . . . , x N ( v ) } v = 1 M \{X^{(v)}\}^M_{v=1} = \{x^{(v)}_1 , x^{(v)}_2 , . . . ,x^{(v)}_N \}^M_{v=1} {X(v)}v=1M={x1(v),x2(v),...,xN(v)}v=1M仅由 { W ( v ) } v = 1 M = { w 1 ( v ) , w 2 ( v ) , . . . , w N w ( v ) } v = 1 M \{W^{(v)}\}^M_{v=1} = \{w^{(v)}_1 , w^{(v)}_2 , . . . ,w^{(v)}_{N_w} \}^M_{v=1} {W(v)}v=1M={w1(v),w2(v),...,wNw(v)}v=1M组成,其中 N = N w N = N_w N=Nw。换句话说,它对于配对样本是不可用的,即两个样本都被观察到并且彼此正确对应。
尽管已经提出了许多方法来解决部分不完整信息的问题,但现有的方法[16]、[17]、[24]、[27]、[28]、[29]、[30]仍然严重依赖成对样本,这将阻碍它们处理真实世界的场景。简而言之,解决完全不完整信息的问题仍然是一个悬而未决的问题。在接下来的章节中,我们将详细说明如何在完全不完整的信息下实现MvC。具体来说,我们将首先建立一个跨视图语义不变性定理,以阐明完全不完整信息的本质。基于这个定理,我们相应地提出了一个统一的语义不变性学习框架。
3.2 基于FII的MvC的跨视图语义不变性
在本节中,在3.2.1节中我们首先提出一个基本定理,跨视图语义不变性,用于鲁棒多视图学习。在3.2.2节中,基于该定理,我们从理论上揭示了该定理可以促进完全不完整信息问题的解决。最后,在3.2.3节中,我们从理论上揭示了该定理可以通过为MvC提供足够的信息来提高聚类质量,同时具有理论保证。
3.2.1 跨视图语义不变性
MvC旨在减轻跨视图差异,同时增强不同类别之间的语义区分。然而,对于信息完全不完整的MvC,缓解跨视图差异是具有挑战性的,因为我们不能求助于配对样本来弥合不同视图之间的差距。为了解决这一挑战,我们揭示了真实标签的分布独立于不同的视图,这可以在数学上表述为一个基本定理(即定理1),称为交叉视图语义不变性。
定理1 跨视图语义不变性
定理1。跨视图语义不变性。对于多视图数据(具有完整信息或部分不完整信息或完全不完整信息),样本的基本真实语义类别 T T T的分布在不同视图 V V V上是不变的,即互信息 I ( T ( X ) ; V ) = 0 I(T(X); V ) = 0 I(T(X);V)=0。
由于篇幅限制,定理的证明在附录中提供。定理1揭示了我们可以通过强制聚类赋值C独立于视图V来减轻跨视图差异,即最小化 I ( C ; V ) I(C; V) I(C;V).值得注意的是, I ( C ; V ) I(C; V) I(C;V)只是从每个视图中的语义类别的分布中进行监督,而没有任何交叉视图对,从而解耦对成对样本的依赖,以免受不完整信息的影响。另一方面,为了增强语义区分,我们通过最大化 I ( C ; X ) I(C;X) I(C;X)来补充聚类赋值C和输入数据X之间共享的统计信息。因此,我们可以将上述两项组合为 I ( C ; X ∣ V ) = I ( C ; X ) − I ( C ; V ) I(C; X|V ) = I(C; X) − I(C; V ) I(C;X∣V)=I(C;X)−I(C;V)以找到共享相同语义的样本以补偿不完整信息,即重建/插补如定理2和3中所证明的对应关系/样本。同时, I ( C ; X ∣ V ) I(C; X|V) I(C;X∣V)可以建立聚类有利的聚类来提高多视图聚类质量,这在定理4中得到了数学证明。我们称 I ( C ; X ∣ V ) I(C; X|V) I(C;X∣V)作为交叉视图语义不变性学习(SIL)。在接下来的章节中,我们进一步从理论上证明了语义不变性学习不仅可以解决完全不完全信息问题,而且可以提高聚类质量。
3.2.2 SIL解决完全不完整信息问题
在这一节中,我们从理论上证明了语义不变性学习可以同时解决不完全对应问题和不完全实例问题。我们在下面给出了这两个问题的详细证明:
1.对于不完全对应数据
我们将其解公式化为分类任务,即将 z i ( v 1 ) z_i^{(v_1)} zi(v1)分类为类别 T ( x i ( v 1 ) ) T(x_i^{(v_1)}) T(xi(v1)),其中 z i ( v 1 ) z_i^{(v_1)} zi(v1)是 x i ( v 1 ) x_i^{(v_1)} xi(v1)的隐藏表示。因为聚类的本质是一对多映射,我们可以在属于同一类别 T T T的任何样本之间建立对应关系[30]。基于该公式,我们考虑贝叶斯错误率 P e P_e Pe,这是给定表示的最低可实现误差[46]。类似于表征学习[45]中的分类错误率,我们推导出求解不完全对应的贝叶斯错误率如下:
在此基础上,我们提出了以下定理,该定理揭示了跨视图语义不变性与不完全对应之间的关系:
定理2 通过跨视图语义不变性学习重新排列对应不完整数据
基于定理1,给定对应不完全数据集的最小可实现贝叶斯错误率
P
e
P_e
Pe由语义不变性
I
(
C
;
X
∣
V
)
I(C; X|V)
I(C;X∣V)限定,即,
其中
H
(
T
,
X
∣
V
)
H(T, X|V)
H(T,X∣V)是给定数据集的常数。
该定理揭示了语义不变性学习有助于不完全对应问题的解决。
2.对于不完全样本数据
我们将其解决方案公式化为回归任务,即通过使用另一个视图 z i ( v 1 ) z_i^{(v_1)} zi(v1)的观察到的特征来预测未观察到的连续样本 x i ( v 2 ) x_i^{(v_2)} xi(v2)。基于这个公式,类似于表征学习中的回归误差[45],我们推导出求解不完全实例的最小可实现期望平方预测误差如下:
其中,为了简单起见, g v 2 g_{v_2} gv2表示视图 v 2 v_2 v2的特征和样本之间的映射函数(更多细节请参考补充中算法1的第15-16行)。在此基础上,我们提出了以下定理,该定理揭示了跨视图语义不变性与不完全实例问题之间的关系。
定理3 通过交叉视图语义不变性学习估算实例不完整数据
基于定理1,给定实例不完整数据集的最低可实现预期平方预测误差 R e R_e Re由语义不变性 I ( C ; X ∣ V ) I(C; X|V ) I(C;X∣V)有界,即,
其中
H
(
T
,
X
∣
V
)
H(T, X|V)
H(T,X∣V)是给定数据集的常数,
α
α
α也是常数。
该定理揭示了语义不变性学习有助于不完全实例问题的解决。总之,我们提供了理论证明,展示了语义不变性学习同时解决不完全对应问题和不完全实例问题的能力。
3.2.3 SIL提高聚类质量
除了解决信息不完备的问题,我们还从理论上证明了语义不变性学习通过为MvC提供充足的信息来显著提高聚类的质量。具体来说,我们考虑最低可实现的聚类错误率,表示为:
其中
C
~
k
=
{
x
i
(
v
)
∣
C
(
x
i
(
v
)
)
=
k
}
\tilde{C}_k = \{x^{(v)}_i |C(x^{(v)}_i) = k\}
C~k={xi(v)∣C(xi(v))=k}表示分配给第k个聚类的样本集
T
~
t
=
{
x
i
(
v
)
∣
T
(
x
i
(
v
)
)
=
t
}
\tilde{T}_t = \{x^{(v)}_i |T(x^{(v)}_i) = t\}
T~t={xi(v)∣T(xi(v))=t}表示属于第t个类别的样本集。在上述分析的基础上,我们提出了以下定理,该定理揭示了语义不变性学习和聚类错误率之间的关系:
定理4 基于语义不变性学习的不完全信息多视图聚类
基于定理1,最低可实现聚类错误率 C e C_e Ce由语义不变性学习 I ( C ; X ∣ V ) I(C; X|V) I(C;X∣V)限定,即,
其中
H
(
T
,
X
∣
V
)
H(T, X|V)
H(T,X∣V)是给定数据集的常数,T表示基本真实标签变量,C表示聚类分配变量(详见补充第5节)。
该定理证明了最大化语义不变性学习 I ( C ; X ∣ V ) I(C; X|V) I(C;X∣V)最小化了最低可实现的聚类错误率Ce。当 I ( C ; X ∣ V ) I(C; X|V) I(C;X∣V)最大化(即, I ( C ; X ∣ V ) = H ( X ∣ V ) I(C;X|V ) = H(X|V) I(C;X∣V)=H(X∣V))时, C C C包含的信息对于MvC变得足够(即, I ( C ; T ) = I ( X ; T ) I(C;T) = I(X;T) I(C;T)=I(X;T)),导致实现最小 C e C_e Ce。
总之,语义不变性学习不仅解决了完全不完整信息的挑战,而且同时提高了聚类质量,而不需要任何配对样本。
3.3 基于FII的语义不变MvC框架
在理论分析的基础上,我们提出了面向完全不完全信息MvC的统一语义不变性学习框架SMILE。如图2所示,SMILE集成了两个模块:差异感知重建模块(DAR)和语义不变性学习模块(SIL)。DAR从样本的表示中重建样本,以学习特定于视图的表示,从而减轻表示中跨视图差异的优势。基于特定于视图的表示,为SIL提取聚类赋值,这在增强语义区分的同时减轻了跨视图差异。总体损失函数总结如下:
图2。我们SMILE的框架。不失一般性,我们以两个视图为例。SMILE集成了两个模块:差异感知重建模块(DAR)和语义不变性学习模块(SIL)。DAR通过从样本的表示中重建样本来学习特定于视图的表示。SIL旨在减轻跨视图差异,同时增强基于视图特定表示的聚类分配的语义区分。
其中
λ
S
I
L
λ_{SIL}
λSIL是对于所有数据集固定在0.04的权衡超参数。在以下章节中,我们将详细说明每个损失项目。
3.3.1 语义不变性学习
语义不变性学习损失 L S I L \mathcal{L}_{SIL} LSIL旨在补偿不完全信息,同时促进MvC。为了实现这一点,我们引入了一个聚类分配变量 C ∈ R N × M × K C ∈ \mathbb{R}^{N×M×K} C∈RN×M×K,它模拟了将 x i ( v ) x_i^{(v)} xi(v)分配给第k个聚类的可能性。基于此,我们的语义不变性学习损失 L S I L \mathcal{L}_{SIL} LSIL可以表述如下:
第一项 I ( C ; X ) I(C; X) I(C;X)旨在增强不同类别之间的语义区分。具体来说, C ~ k = { x i ( v ) ∣ C ( x i ( v ) ) = k } \tilde{C}_k = \{x^{(v)}_i |C(x^{(v)}_i) = k\} C~k={xi(v)∣C(xi(v))=k}表示分配给第k个聚类的样本集,那么我们有
其中 P ( C ~ k ) = 1 N M ∑ i , v c i k ( v ) P(\tilde{C}_k) = \frac{1}{NM}\sum_{i,v} c^{(v)}_{ik} P(C~k)=NM1∑i,vcik(v)。直观地,最小化 H ( C ∣ X ) H(C|X) H(C∣X)鼓励簇紧凑,这意味着簇内距离应该小于簇间距离。然而,这可能导致一个琐碎的解决方案,其中所有点都被分配给同一个集群。为了避免这种解决方案,我们最大化 H ( C ) H(C) H(C)以鼓励簇平衡,惩罚过大或过小的簇。通过结合这两个术语, L S I L − s \mathcal{L}_{SIL-s} LSIL−s可以增强不同类别之间的语义区分。
第二项 I ( C ; X ) I(C; X) I(C;X)致力于缓解交叉视图差异。具体来说, V ~ v = { x i ( j ) ∣ j = v } \tilde{V}_v = \{x^{(j)}_i |j = v\} V~v={xi(j)∣j=v}表示属于第v个视图的样本集,那么我们有
其中 P ( V ~ v ) = ∣ V ~ v ∣ / ∣ X ∣ P(\tilde{V}_v) = |\tilde{V}_v|/|X| P(V~v)=∣V~v∣/∣X∣和 P ( C ~ k , V ~ v ) = 1 N ∑ i , v c i k ( v ) P(\tilde{C}_k, \tilde{V}_v) = \frac{1}{N}\sum_{i,v} c^{(v)}_{ik} P(C~k,V~v)=N1∑i,vcik(v)。最小化 I ( C ; V ) I(C;V) I(C;V)鼓励聚类是语义不变的,这意味着聚类分配的分布在不同视图之间应该是不变的,从而减轻跨视图差异。
基于上述分析,我们认为 L S I L − v \mathcal{L}_{SIL-v} LSIL−v是直接缓解交叉视图差异的关键成分。因此,我们重写等式(10)以明确突出其在我们的损失函数中的作用,旨在提取跨视图共享的共识语义。修正后的方程式如下:
3.3.2 差异感知重建
为了增强语义不变性学习的稳定性,我们提出了一个重建模块来从输入X中学习信息一致表示Z,并通过k-means++初始化聚类赋值C在Z上。一个普通的实现是最大化I(Z;X)[47],这可以表述为:
其中 f f f和 g ˉ \bar{g} gˉ分别表示编码器和解码器。然而,最大化 I ( Z ; X ) I(Z; X) I(Z;X)不可避免地导致表示级别的交叉视图差异的增加,因为 I ( Z ; X ) = I ( Z ; X ∣ V ) + I ( Z ; V ) I(Z;X) = I(Z; X|V ) + I(Z; V) I(Z;X)=I(Z;X∣V)+I(Z;V)。为了解决这个问题,我们提出了一种新的差异感知重建,它专注于最大化 I ( Z ; X ∣ V ) I(Z; X|V) I(Z;X∣V)来学习信息一致表示,而不引入交叉视图差异。损失函数可以表述如下:
其中 − I ( Z ; X ) −I(Z; X) −I(Z;X)和 I ( Z ; V ) I(Z;V) I(Z;V)分别增强语义区分和减轻特征级别的交叉视图差异。因此, I ( Z ; X ∣ V ) I(Z; X|V ) I(Z;X∣V)提取既有区别又不受交叉视图差异影响的共识表示。然而,由于 Z Z Z位于稀疏空间中,直接优化 I ( Z ; V ) I(Z; V) I(Z;V)是棘手的。为了克服这一点,我们将其重写为:
其中
H
(
X
∣
V
)
H(X|V)
H(X∣V)是常数项,并且
H
(
X
∣
Z
,
V
)
=
−
E
P
(
x
,
z
,
v
)
l
o
g
P
(
x
∣
z
,
v
)
H(X|Z, V) = −\mathbb{E}_{P(x,z,v)} log P_{(x|z,v)}
H(X∣Z,V)=−EP(x,z,v)logP(x∣z,v)。由于直接近似
P
(
x
∣
z
,
v
)
P_{(x|z,v)}
P(x∣z,v)是棘手的,我们引入了一个变分分布
Q
(
x
∣
z
,
v
)
Q _{(x|z,v)}
Q(x∣z,v),使得:
其中Q表示变分分布,可以是任何类型的分布,如高斯分布[48]或拉普拉斯分布[49]。为了简单起见并考虑交叉视图分布差异,在我们的实现中,我们假设分布Q是混合高斯分布。具体而言,我们有:
其中,
g
v
g_v
gv将潜在表示z映射到对应于第v个视图的分布的第v个高斯分量。通过合并该公式,我们可以将等式(16)重写如下:
其中
f
(
⋅
)
f(·)
f(⋅)表示共享编码器,并且
g
(
⋅
)
=
g
v
(
⋅
)
g(·)=g_v(·)
g(⋅)=gv(⋅)是处理从第v个视图绘制的表示的多分支解码器。
4.实验
在本节中,我们在五个基准上与13种最先进的多视图聚类方法相比,评估了我们的SMILE对(完全)不完整信息问题的有效性。在接下来的章节中,4.1节我们将详细说明我们的实验设置。然后,我们在4.2节中定量验证所提出的SMILE的有效性。除了聚类质量的定量比较,4.3节将进行更深入的探索。最后,我们将在4.4节进行消融研究。揭示我们SMILE的本质
4.1 实验设置
实现细节
在我们的实现中,我们在等式(13)中设置 λ S I L = 0.04 λ_{SIL} = 0.04 λSIL=0.04, γ = 5 γ = 5 γ=5。此外,我们对多视图图像数据集(即MNISTUSPS和NoisyMNIST)使用卷积自动编码器,对其他数据集使用全连接自动编码器。对于每个包含共享编码器的自动编码器,我们添加了一个额外的适配层来适应每个视图的不同输入维度。所有网络都使用Adam优化器,在所有设置下,所有数据集的初始学习率为1e-3。除了处理完全不完整的信息,我们还在不同的设置下进行实验,其中提供配对样本进行综合比较。在这些实验中,我们将对比学习融入到我们的方法中,以进行公平的比较。最后,我们SMILE的所有量化结果默认都是五颗随机种子的平均值。
数据集
数据集:我们在五个数据集上评估我们的方法,如下所示:
•NoisyMNIST[11]:该数据集包含70,000个实例,其中每个实例由两个视图组成:原始MNIST图像及其旋转和高斯噪声版本。为了进行公平的比较,我们遵循之前的工作SURE[30],并随机选择30,000个实例进行评估,因为一些基线无法处理如此大规模的数据集。
•MNISTUSPS:该数据集包括来自MNIST和USPS数据集的67,291个数字图像。根据[10],我们从每个数据集中随机选择5000个样本,分布在10个数字上。
•Deep Caltech-101:该数据集由属于101个类别的8,677个对象图像组成,其中100个类别用于对象,一个类别用于背景簇。在[50]之后,我们利用DECAF[51]和VGG19[52]网络提取的深度特征作为两个视图。
•CUB[53]:该数据集包括各种类别的鸟类。在[25]之后,我们采用GoogLeNet提取的深度视觉特征和doc2vec[54]提取的文本特征作为两个视图。
•YouTubeFaces[55]:该数据集包含来自66个身份的152,549张面孔,即,每个人至少具有超过1,500张面孔图像。为了进行比较,我们使用由512维GIST特征、1984维HOG特征和1024维HIST特征组成的多视图特征来描述每个图像。
基线方法
我们将SMILE与13个竞争性的多视图聚类基线进行比较。具体来说,DCCAE[11]、BMVC[31]和AE2-Nets[9]是为具有完整信息的多视图聚类而设计的。PVC[16]和MvCLN[17]是针对部分对应不完全性而设计的。为部分实例不完整性设计了五个基线,包括PMVC[21]、DAIMC[20],EERIMVC[24]、DCP[27]和DSIMVC[29]。SURE[30]是针对部分信息不完全而设计的。MVCUM[14]和DM2C[37]分别针对完全对应不完备性和完全实例不完备性进行设计。由于许多基线不能直接处理部分对应/实例不完全,我们遵循SURE[30],采用以下两种方法进行公平比较:
•对于不能处理部分对应不完全性的基线,我们通过匈牙利算法重新对齐未对齐的样本[56]。更具体地说,我们首先获得样本的PCA特征,然后使用具有欧几里得相似性的匈牙利算法来建立对应关系。
•对于无法处理部分实例不完整性的基线,我们用视图所有退出样本的平均值填充来自第v个视图的未观察到的样本。
4.2 定量比较
在本节中,我们进行定量实验,在不同的缺失率和未对齐率下,将我们的SMILE与13个基线进行比较。具体来说,缺失率定义为 η = m N η = \frac{m}{N} η=Nm,其中N是数据集的大小,m是缺失样本的实例数。为了生成缺少样本的数据,我们随机选择m个实例,并按照SURE[30]中使用的设置丢弃实例的一个样本/视图。关于未对齐率,其定义为 ζ = c N ζ = \frac{c}{N} ζ=Nc,其中c是具有不正确对应的实例的数量。为了生成具有不正确对应关系的数据,我们还遵循SURE[30]随机采样c实例并删除它们的样本之间的对应关系。
我们在表1中列出了定量结果(见补充材料,第7节)。更多结果)。如表所示,据我们所知,有两个先前的工作可以实现100%未对齐率的多视图聚类——MVC-UM[14]和GWMAC[15]。通过利用深度神经网络,我们的SMILE在很大程度上优于他们。由于丢失率为100%,尽管DM2C[37]也融合了深度学习,但在所有五个数据集上,它都远远优于我们的SMILE。我们推测,我们SMILE的优异表现是由于利用了基于信息论的优化而不是对抗性学习,因此不太容易退化。凭借50%的缺失率和50%的未对齐率,我们的SMILE在ACC和NMI方面优于所有数据集上最具竞争力的基线。我们将此归因于这样一个事实,即我们利用不成对的样本(由于不完整的对应或不完整的实例)进行训练,而许多竞争性基线残酷地丢弃了它们[16]、[17]、[27]、[30]。在完整信息的设置中,我们的SMILE也优于五个数据集中的几乎所有基线。我们方法的优越性可以归因于统一和有效的基于信息论的框架。总的来说,我们的SMILE在几乎所有环境中都达到了最先进的性能。
在五种设置下,SMILE与13个竞争基线在五个基准上的定量比较。对于每个设置,最佳和次佳结果分别用粗体和下划线标记。NS表示无法扩展到大型数据集的基线,TvO表示只能处理双视图数据的基线。
为了进一步评估我们的SMILE对不完整信息的有效性和鲁棒性,我们进行了性能分析,将SMILE与图3中最具竞争力的方法在各种未对齐/缺失/未配对率下进行比较。不成对率 ρ ρ ρ是指对应和实例都不完整的场景,即 η = ζ = ρ / 2 η = ζ = ρ/2 η=ζ=ρ/2。从图中看,它可以观察到,所有基线都严重依赖配对样本,并且它们的性能随着未对齐/缺失/未配对率的增加而严重下降,当比率达到90%时达到大约50%的准确率。然而,在相同的设置下,我们的SMILE保持了其性能,准确率始终高于93%。这可以归因于我们利用不成对的样本(由于不完整的对应或不完整的实例)进行训练,而大多数基线都会残酷地丢弃它们,例如PVC[16]、MvCLN[17]、SURE[30]和DCP[27]。具体地,使用所有样本计算 λ D A R λ_{DAR} λDAR和 λ S I L λ_{SIL} λSIL两者,即使它们中的一些是未配对的。因此,我们的SMILE对不完整的信息非常有效。此外,我们方法的标准偏差小于大多数基线的标准偏差,证明了我们方法的稳健性。我们推测,语义不变性学习损失 λ S I L λ_{SIL} λSIL通过鼓励学习的表示聚类是平衡的、紧凑的、语义不变性的,减轻了由k-means引入的随机性,如第3.3.1节中所分析的。
图3。具有不同未对齐率、缺失率和未配对率的NoisyMNIST的性能分析。
4.3 深入探索
在本节中,我们进行深入探索,通过实验证明我们SMILE的有效性,并为定理2、定理3和定理4提供支持。通过语义不变性学习解决完全不完整信息问题。我们首先证明了语义不变性学习 I ( C ; X ∣ V ) I(C; X|V ) I(C;X∣V)在解决对应不完全性和实例不完全性方面的有效性,这分别在定理2和定理3中得到了理论证明。
对于对应不完全性,我们在图4中可视化相似性矩阵,以帮助理解我们的重新排列方法的性能。图中采用CAR[30]评估类别级别的对齐率,定义如下:
其中
ς
ς
ς是狄利克雷函数,
x
^
i
(
v
2
)
\hat{x}^{(v_2)}_i
x^i(v2)表示
x
i
(
v
1
)
{x}^{(v_1)}_i
xi(v1)的重新对齐的交叉视图对应物。该图显示,CAR随着语义不变性学习的进展而增加(随着
L
S
I
L
−
v
\mathcal{L}_{SIL-v}
LSIL−v的降低),表明SIL促进了对应不完整数据的重新对齐。
图4.Noisymnist上相似矩阵的可视化,未对齐率为100%。第i行第j列中的相似性得分表示视图1中的第i个未对准样本与视图2中的第j个未对准样本之间的相似性。在每个视图中,样本根据其类别进行排序。
例如不完整性,我们通过使用归一化均方根误差(NRMSE)[57]来评估语义不变性学习对Caltech插补性能的影响,归一化均方根误差评估未观察样本的插补误差。如图5所示,随着 λ S I L λ_{SIL} λSIL的值增加,NRMSE和 L S I L − v \mathcal{L}_{SIL-v} LSIL−v均减小。这一趋势表明,通过强调 L S I L − v \mathcal{L}_{SIL-v} LSIL−v(即增加 λ S I L λ_{SIL} λSIL),插补误差最小化。总的来说,该图表明语义不变性学习有助于补偿实例的不完整性。
图5。缺失率为100%的插补性能分析
除了定量评估之外,我们在图6中可视化插补样本。该图显示,插补样本(最后一行)与缺失样本属于同一类别,即使我们的模型并不明确知道这些类别。此外,尽管不同视图的风格不同,但插补样本与未观察到的样本非常相似。我们将此归因于等式(19)中的多分支设计,它使我们的模型能够独立地学习特定于视图的样式。简而言之,这个数字证实了我们的SMILE在补偿例如不完整性方面的有效性,即估算缺失样本的能力。
图6。缺失率为100%的未观察样本的插补。原始样本是从MNIST(左半部分)和USPS(右半部分)提取的输入
x
i
(
v
2
)
{x}^{(v_2)}_i
xi(v2)。未观察到的样本是
x
i
(
v
1
)
{x}^{(v_1)}_i
xi(v1),这对我们的模型是不可见的。重建和插补分别是补充算法1第16行中的
x
^
i
(
v
2
)
=
g
(
f
(
x
i
(
v
2
)
)
\hat{x}^{(v_2)}_i = g(f (x^{(v_2)}_i )
x^i(v2)=g(f(xi(v2))和
x
^
i
(
v
2
)
\hat{x}^{(v_2)}_i
x^i(v2)。
通过语义不变性学习提高聚类质量。接下来,我们通过实验验证语义不变性学习 I ( C ; X ∣ V ) I(C; X|V) I(C;X∣V)有界最低可实现的聚类错误率,如定理4所证明的。为了证明这一点,我们在图7中可视化聚类质量。该图说明,随着 L S I L − s \mathcal{L}_{SIL-s} LSIL−s的降低(第一行),我们的SMILE学习到更紧凑和平衡的簇。此外,随着 L S I L − v \mathcal{L}_{SIL-v} LSIL−v的减少(第二行),我们的方法学习更多语义不变的聚类。通过 L S I L \mathcal{L}_{SIL} LSIL结合这些优势,SMILE有效地减轻了跨视图差异,同时增强了不同类别之间的语义区分(第三行)。这证实了我们的SMILE通过利用语义不变性学习来提高聚类质量的能力。
图7.Noisymnist上聚类质量的t-SNE可视化,不成对率为100%。前两行可视化样本的隐藏表示,分别根据其类型(上)和视图(中)着色。最后一行(底部)显示了根据其类型着色的实例的隐藏表示。
4.4 消融实验
在这一节中,我们提出了一个消融分析来阐明我们SMILE的机制。如表2所示,单独的标准自动编码器(第一行)的性能很差,未对准率为100%,缺失率为100%。然而,当我们引入 L S I L − v = I ( C ; V ) \mathcal{L}_{SIL-v} = I(C;V ) LSIL−v=I(C;V)(第三行),性能显著提高(ACC≥18%)。我们推测 L S I L − v \mathcal{L}_{SIL-v} LSIL−v有助于缓解跨视图差异,这对于学习MvC的共识语义至关重要。此外,当与 L S I L − s = I ( C ; X ) \mathcal{L}_{SIL-s} = I(C;X ) LSIL−s=I(C;X)(第四行)结合时,性能进一步提高,这增强了语义区分度。
最后,通过在第五行引入差异感知重建项
L
D
A
R
\mathcal{L}_{DAR}
LDAR,在未对准率为100%和缺失率为100%的情况下,我们分别将ACC提高了4.5%和1.2%。这验证了SMILE中每个组件的有效性。
为了研究参数的影响,我们在图8和9中进行参数分析。如图所示,SMILE在三种设置下对超参数 λ S I L λ_{SIL} λSIL和 γ γ γ表现稳定。此外,可以观察到当 γ = 0 γ = 0 γ=0时,性能显著下降,表明语义不变性学习的重要性。
图8。在未对齐率(
ζ
ζ
ζ)为100%、缺失率(
η
η
η)为100%、未配对率(
ρ
ρ
ρ)为100%的情况下,对
λ
S
I
L
λ_{SIL}
λSIL在MNISTUSPS和NoisyMNIST进行参数分析。
图9。在未对齐率(
ζ
ζ
ζ)为100%、缺失率(
η
η
η)为100%、未配对率(
ρ
ρ
ρ)为100%的情况下,对
γ
γ
γ在MNISTUSPS和NoisyMNIST进行参数分析。
5.结论
在本文中,我们解决了一个具有挑战性的问题,即完全不完全信息的多视图聚类。据我们所知,这可能是关于这一挑战的首批研究之一。我们提出了一个基本定理,语义不变性,使我们能够减轻基于它们的语义分布的交叉视图差异,而不需要配对样本,从而学习共识语义。基于这个定理,我们提出了一个面向完全不完全信息MvC的统一语义不变性学习框架。我们从理论和实验上证明了我们的框架不仅可以有效地补偿不完全信息,而且可以促进MvC。具体来说,在五个基准的各种不完整设置下,我们的SMILE与13个最先进的基线相比取得了卓越的性能。在未来,我们希望赋予我们的方法处理更多实际场景的能力,在这些场景中,不完整的信息是无意识的,并且不完整的实例/对应是未知的。这将允许我们将我们的方法应用于更广泛的现实世界问题。
6.引用文献
- [1] Q. Wang, M. Chen, F. Nie, and X. Li, “Detecting coherent groups in crowd scenes by multiview clustering,” IEEE transactions on pattern analysis and machine intelligence, vol. 42, no. 1, pp. 46–58, 2018.
- [2] C. Xu, D. Tao, and C. Xu, “Multi-view self-paced learning for clustering,” in Twenty-Fourth International Joint Conference on Artificial Intelligence, 2015.
- [3] Z. Kang, W. Zhou, Z. Zhao, J. Shao, M. Han, and Z. Xu, “Largescale multi-view subspace clustering in linear time,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 04, 2020, pp. 4412–4419.
- [4] C. Lu, S. Yan, and Z. Lin, “Convex sparse spectral clustering: Single-view to multi-view,” IEEE Transactions on Image Processing, vol. 25, no. 6, pp. 2833–2843, 2016.
- [5] Z. Tao, H. Liu, S. Li, Z. Ding, and Y. Fu, “From ensemble clustering to multi-view clustering,” in International Joint Conference on Artificial Intelligence, 2017.
- [6] Q. Wang, Z. Ding, Z. Tao, Q. Gao, and Y. Fu, “Partial multi-view clustering via consistent gan,” in 2018 IEEE International Conference on Data Mining (ICDM). IEEE, 2018, pp. 1290–1295.
- [7] A. Vinokourov, N. Cristianini, and J. Shawe-Taylor, “Inferring a semantic representation of text via cross-language correlation analysis,” Advances in neural information processing systems, vol. 15, 2002.
- [8] Y. Li, M. Yang, and Z. Zhang, “A survey of multi-view representation learning,” IEEE transactions on knowledge and data engineering, vol. 31, no. 10, pp. 1863–1883, 2018.
- [9] C. Zhang, Y. Liu, and H. Fu, “Ae2-nets: Autoencoder in autoencoder networks,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 2577–2585.
- [10] X. Peng, Z. Huang, J. Lv, H. Zhu, and J. T. Zhou, “Comic: Multiview clustering without parameter selection,” in International conference on machine learning. PMLR, 2019, pp. 5092–5101.
- [11] W. Wang, R. Arora, K. Livescu, and J. Bilmes, “On deep multiview representation learning,” in International conference on machine learning. PMLR, 2015, pp. 1083–1092.
- [12] M. Yin, W. Huang, and J. Gao, “Shared generative latent representation learning for multi-view clustering,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 04, 2020, pp. 6688–6695.
- [13] Z. Yang, Q. Xu, W. Zhang, X. Cao, and Q. Huang, “Split multiplicative multi-view subspace clustering,” IEEE Transactions on Image Processing, vol. 28, no. 10, pp. 5147–5160, 2019.
- [14] H. Yu, J. Tang, G. Wang, and X. Gao, “A novel multi-view clustering method for unknown mapping relationships between crossview samples,” in Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 2021, pp. 2075–2083.
- [15] F. Gong, Y. Nie, and H. Xu, “Gromov-wasserstein multi-modal alignment and clustering,” in Proceedings of the 31st ACM International Conference on Information & Knowledge Management, 2022, pp. 603–613.
- [16] Z. Huang, P. Hu, J. T. Zhou, J. Lv, and X. Peng, “Partially viewaligned clustering,” Advances in Neural Information Processing Systems, vol. 33, pp. 2892–2902, 2020.
- [17] M. Yang, Y. Li, Z. Huang, Z. Liu, P. Hu, and X. Peng, “Partially view-aligned representation learning with noise-robust contrastive loss,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021, pp. 1134–1143.
- [18] A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 31283137.
- [19] J. Wei, X. Xu, Y. Yang, Y. Ji, Z. Wang, and H. T. Shen, “Universal weighting metric learning for cross-modal matching,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 13 005–13 014.
- [20] M. Hu and S. Chen, “Doubly aligned incomplete multi-view clustering,” in Proceedings of the 27th International Joint Conference on Artificial Intelligence, 2018, pp. 2262–2268.
- [21] S.-Y. Li, Y. Jiang, and Z.-H. Zhou, “Partial multi-view clustering,” in Proceedings of the AAAI conference on artificial intelligence, vol. 28, no. 1, 2014.
- [22] C. Xu, D. Tao, and C. Xu, “Multi-view learning with incomplete views,” IEEE Transactions on Image Processing, vol. 24, no. 12, pp. 5812–5825, 2015.
- [23] W. Shao, L. He, and P. S. Yu, “Multiple incomplete views clustering via weighted nonnegative matrix factorization with regularization,” in Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2015, Porto, Portugal, September 7-11, 2015, Proceedings, Part I. Springer, 2015, pp. 318–334.
- [24] X. Liu, M. Li, C. Tang, J. Xia, J. Xiong, L. Liu, M. Kloft, and E. Zhu, “Efficient and effective regularized incomplete multiview clustering,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 8, pp. 2634–2646, 2021.
- [25] C. Zhang, Y. Cui, Z. Han, J. T. Zhou, H. Fu, and Q. Hu, “Deep partial multi-view learning,” IEEE transactions on pattern analysis and machine intelligence, vol. 44, no. 5, pp. 2402–2415, 2020.
- [26] C. Xu, Z. Guan, W. Zhao, H. Wu, Y. Niu, and B. Ling, “Adversarial incomplete multi-view clustering.” in International Joint Conference on Artificial Intelligence, vol. 7, 2019, pp. 3933–3939.
- [27] Y. Lin, Y. Gou, X. Liu, J. Bai, J. Lv, and X. Peng, “Dual contrastive prediction for incomplete multi-view representation learning,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.
- [28] Y. Lin, Y. Gou, Z. Liu, B. Li, J. Lv, and X. Peng, “Completer: Incomplete multi-view clustering via contrastive prediction,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021, pp. 11 174–11 183.
- [29] H. Tang and Y. Liu, “Deep safe incomplete multi-view clustering: Theorem and algorithm,” in International Conference on Machine Learning. PMLR, 2022, pp. 21 090–21 110.
- [30] M. Yang, Y. Li, P. Hu, J. Bai, J. Lv, and X. Peng, “Robust multiview clustering with incomplete information,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 1, pp. 10551069, 2022.
- [31] Z. Zhang, L. Liu, F. Shen, H. T. Shen, and L. Shao, “Binary multiview clustering,” IEEE transactions on pattern analysis and machine intelligence, vol. 41, no. 7, pp. 1774–1782, 2018.
- [32] M. Yin, W. Liu, M. Li, T. Jin, and R. Ji, “Cauchy loss induced block diagonal representation for robust multi-view subspace clustering,” Neurocomputing, vol. 427, pp. 84–95, 2021.
- [33] G. Andrew, R. Arora, J. Bilmes, and K. Livescu, “Deep canonical correlation analysis,” in International conference on machine learning. PMLR, 2013, pp. 1247–1255.
- [34] T. Zhou, C. Zhang, X. Peng, H. Bhaskar, and J. Yang, “Dual shared-specific multiview subspace clustering,” IEEE transactions on cybernetics, vol. 50, no. 8, pp. 3517–3530, 2019.
- [35] F. R. Bach and M. I. Jordan, “Kernel independent component analysis,” Journal of machine learning research, vol. 3, no. Jul, pp. 1–48, 2002.
- [36] M.-S. Chen, L. Huang, C.-D. Wang, and D. Huang, “Multi-view clustering in latent embedding space,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 04, 2020, pp. 35133520.
- [37] Y. Jiang, Q. Xu, Z. Yang, X. Cao, and Q. Huang, “Dm2c: Deep mixed-modal clustering,” Advances in Neural Information Processing Systems, vol. 32, 2019.
- [38] N. Tishby, F. C. Pereira, and W. Bialek, “The information bottleneck method,” arXiv preprint physics/0004057, 2000.
- [39] Z. Wan, C. Zhang, P. Zhu, and Q. Hu, “Multi-view informationbottleneck representation learning,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, no. 11, 2021, pp. 10 08510 092.
- [40] M. Federici, A. Dutta, P. Forr ́ e, N. Kushman, and Z. Akata, “Learning robust representations via multi-view information bottleneck,” in 8th International Conference on Learning Representations, 2020.
- [41] C. Xu, D. Tao, and C. Xu, “Large-margin multi-view information bottleneck,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 8, pp. 1559–1572, 2014.
- [42] Y. Tian, D. Krishnan, and P. Isola, “Contrastive multiview coding,” in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XI 16. Springer, 2020, pp. 776–794.
- [43] J. Xu, H. Tang, Y. Ren, L. Peng, X. Zhu, and L. He, “Multilevel feature learning for contrastive multi-view clustering,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16 051–16 060.
- [44] K. Hassani and A. H. Khasahmadi, “Contrastive multi-view representation learning on graphs,” in International conference on machine learning. PMLR, 2020, pp. 4116–4126.
- [45] H. Wang, X. Guo, Z.-H. Deng, and Y. Lu, “Rethinking minimal sufficient representation in contrastive learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16 041–16 050.
- [46] K. Fukunaga, Introduction to statistical pattern recognition. Elsevier, 2013.
- [47] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, P.-A. Manzagol, and L. Bottou, “Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion.” Journal of machine learning research, vol. 11, no. 12, 2010.
- [48] A. Creswell, T. White, V. Dumoulin, K. Arulkumaran, B. Sengupta, and A. A. Bharath, “Generative adversarial networks: An overview,” IEEE signal processing magazine, vol. 35, no. 1, pp. 53–65, 2018.
- [49] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, “Unpaired image-toimage translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2223–2232.
- [50] Z. Han, C. Zhang, H. Fu, and J. T. Zhou, “Trusted multi-view classification,” in International Conference on Learning Representations, 2020.
- [51] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Communications of the ACM, vol. 60, no. 6, pp. 84–90, 2017.
- [52] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in 3rd International Conference on Learning Representations (ICLR 2015). Computational and Biological Learning Society, 2015.
- [53] C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, “The caltech-ucsd birds-200-2011 dataset,” 2011.
- [54] Q. Le and T. Mikolov, “Distributed representations of sentences and documents,” in International conference on machine learning. PMLR, 2014, pp. 1188–1196.
- [55] L. Wolf, T. Hassner, and I. Maoz, “Face recognition in unconstrained videos with matched background similarity,” in CVPR 2011. IEEE, 2011, pp. 529–534.
- [56] H. W. Kuhn, “The hungarian method for the assignment problem,” Naval research logistics quarterly, vol. 2, no. 1-2, pp. 83–97, 1955.
- [57] H. Hotelling, “Relations between two sets of variates,” Breakthroughs in statistics: methodology and distribution, pp. 162–190, 1992.