论文阅读笔记：Neural Manifold Clustering And Embedding

本文链接：https://blog.csdn.net/weixin_44876302/article/details/120876949

摘要

给定一个非线性流形的并集，非线性子空间聚类或流形聚类的目的是基于流形结构对数据点进行聚类，并学习将每个流形参数化为特征空间中的线性子空间。深度神经网络由于其巨大的容量和灵活性，在高度非线性的环境下具有实现这一目标的潜力。我们认为，利用神经网络实现流形聚类需要两个基本要素：

确保流形识别领域的特定约束
将每个流形embedding到特征空间中线性子空间的学习算法

这项工作表明，许多约束可以通过data augmentation来实现。对于子空间特征学习，可以使用最大编码率降低（MCR $^2$ ）目标。这种结合得到了一种通用流形聚类的新方法，（即nerual manifold clustering and embedding, NMCE），其显著优于基于Auto Encoder的深度子空间聚类。此外，在更具挑战性的自然图像数据集上，NMCE也优于专门为聚类设计的其他算法。定性上，我们证明了NMCE学习了一个有意义且可解释的特征空间。此外由于NMCE使用的公式与几种重要的自监督学习方法密切相关，我们相信这项工作可以帮助我们深入理解自监督的表示学习。

1 简介

无监督的表征学习从数据中学习本身的结构而不使用任何标签。如果数据位于线性子空间中，则可以通过主成分分析（PCA）提取线性子空间，这是无监督学习的最基本形式之一。当数据占据多个线性子空间的并集时，需要使用子空间聚类（SC）将每个数据点聚类到一个子空间，并估计每个子空间的参数。这里我们关注的是更具挑战性的场景，当数据点来自多个非线性低维流形的并集时。在这种情况下，聚类问题可表述如下：

Definition 1 流形聚类和嵌入(NMCE)：假设数据点来自低维流形的并集，我们将根据其对应的流形对数据点进行分割，并为每个流形获得低维嵌入。

解决方案很多，但如何在流形聚类问题中使用神经网络仍然是一个悬而未决的问题。在本文中，我们提出的NMCE遵循三个原则：

聚类和表示应考虑特定领域的约束，例如局部邻域、局部线性插值或数据增强不变性。
对于特定流形的embedding不能出现崩溃。
已识别的流形的embedding应线性化和分离，即它们处于不同的线性子空间。

这项工作作出了以下具体贡献：

1.我们将数据扩充与MCR $^2$ 相结合，提出了一种新的通用流形聚类和嵌入算法。我们还讨论了该算法与自监督对比学习之间的联系。

2.我们证明，NMCE在标准子空间聚类基准上实现了最先进的性能，并且在更具挑战性的高维图像数据集（如CIFAR-10和CIFAR-20）上可以优于最佳聚类算法。经验评估表明，我们的算法还学习了一个有意义的特征空间。

2 相关工作

2.1 流形学习

经典流形学习是将流形结构数据点映射到低维表示空间，并保持流形结构。有两个关键要素：

从要保留的原始数据空间中选择几何特性。局部欧几里德邻域或相邻数据点的线性插值。
Embedding不应崩溃为退化解。例如，在基于谱聚类的流形学习中，嵌入空间的方差通常受到约束以避免平凡解。

2.2 流形聚类和嵌入

当数据建模为多个流形的并集时，除了流形学习外，还需要流形聚类。当这些流形是线性的时，可以使用子空间聚类算法。当它们是非线性的时，提出了流形聚类和嵌入方法。它们通常分为3类：

局部保持
基于核方法
基于神经网络

局部保持技术隐含地假设流形是光滑的，且采样密集。我们的方法通过几何约束实现了这些技术。
基于核方法的成功在很大程度上取决于底层Kernel的适用性，通常需要在比数据空间更高维度的空间中表示数据。
深度子空间聚类方法共同学习了一种适用于线性子空间聚类的数据潜在表示，并具有处理高维数据的潜力。然而已经表明，这些方法应归因于应用于自表达矩阵的特殊后处理步骤。与直接使用线性SC对原始数据进行聚类相比，神经网络只能获得非常微小的收益。

我们的工作与这些技术主要在两个方面不同：

以前的大多数方法是生成式的（AE, GANs），但我们的损失函数是在潜在嵌入空间中定义的，最好理解为一种对比方法。
以前的方法使用基于自表达的SC来指导特征学习，而我们的方法使用MCR $^2$ 来学习子空间特征。最近，一些深度SC也应用了data augmentation，然而数据增强只起到了提高性能的补充作用。而在我们的方法中，数据增强在识别集群方面起着核心作用。

2.3 自监督表征学习

近年来，自监督表征学习在深度神经网络方面取得了巨大的成功。与流形聚类和嵌入类似，还有两个基本要素：

数据增强用于定义特定domain的不变性。
潜在表示不应崩溃。第二个要求可以通过对比学习（Chen等人，2020年）、动量编码器（He等人，2020年；Grill等人，2020年）或孪生网络结构（Chen和He，2021年）来实现。最近，变量正则化（Zbontar等人，2021年；Bardes等人，2021年）也被成功地用于实现该原则。

作为我们方法的一部分，总编码率（TCR）目标实现了类似的效果。然而，除了自监督特征外，我们的算法还表现出强大的聚类性能，并直接学习有意义的潜在空间。NMCE中的同步（simultaneous）流形聚类和嵌入也与在线深度聚类方法有关。

数据增强聚类

我们的方法使用数据增强来确保训练数据的正确聚类。尽管没有明确指出，但其他聚类技术也是如此。我们对数据增强的理解也与专门研究数据扩充成功的工作一致。

3 流形聚类和嵌入

3.1 提出问题

如Definition 1中说的那样，流形聚类和嵌入的目标包括：把数据点分派的不同流形中（clustering）；学习每个流形的坐标（流形学习）。为此，我们的神经网 $f$ 需要学习数据点到特征embedding $z\in\mathbb R^{d_{emb}}$ 和聚类结果 $c\in [1,n]$ 的映射。聚类结果应等于ground truth的流形分配结果，特征embedding $z$ 应参数化对应流形的坐标。