论文阅读笔记：A CRITIQUE OF SELF-EXPRESSIVE DEEP SUBSPACE CLUSTERING，自表达深度子空间聚类批判

最新推荐文章于 2024-07-19 16:06:35 发布

塔_Tass

最新推荐文章于 2024-07-19 16:06:35 发布

阅读量1.1k

点赞数

文章标签：聚类机器学习人工智能

本文链接：https://blog.csdn.net/weixin_44876302/article/details/120954744

版权

论文探讨了自表达深度子空间聚类的潜在问题，指出使用自表达损失函数和自动编码器正则化在数据嵌入表示上可能导致数据点的退化，从而无法形成理想的子空间结构。理论分析揭示了模型的不适定性，即使在数据集、通道或实例规范化下，最优嵌入也可能退化为简单的几何结构，不利于有效的聚类。实验验证了这些理论预测，并表明先前研究的性能优势可能源于后处理步骤而非聚类模型本身。

摘要由CSDN通过智能技术生成

作者 Chong You et.al. 2020年10月公开于arXiv
翻译文献自：arXiv:2010.03697v1
Haeffele, B.D., You, C., & Vidal, R. (2021). A Critique of Self-Expressive Deep Subspace Clustering. ArXiv, abs/2010.03697.

摘要

子空间聚类是一种无监督聚类技术，旨在对线性子空间并支持的数据进行聚类，每个子空间定义一个维度低于环境空间的cluster。许多现有方法基于线性子空间的自表达性质——任何点都可以表示为同一子空间内其他点的线性组合。为了将此方法扩展到非线性流形上数据，许多研究建议使用神经网络学习原始数据的核嵌入。通过对嵌入空间中的数据使用自表达损失函数对其进行正则化，以鼓励数据在嵌入空间中形成线性子空间。在这里，我们表明，这种方法存在许多潜在的缺陷，这些缺陷在以前的工作中没有得到充分的解决。特别是，我们证明了模型公式在多个方面通常是不适定的(ill-posed)，这可能导致数据embedding的退化，这种退化的嵌入根本不需要对应于子空间的并集。我们通过实验验证了我们的理论结果，并额外重复了先前文献中报告的实验，我们得出结论，先前研究声称的性能优势中有很大一部分可以归因于特殊的后处理步骤，而不是聚类模型本身。

1 简介和背景

子空间聚类是一个经典的无监督学习问题，人们希望将给定的数据集分割成一定数量的cluster，每个cluster被定义为一个维数低于环境空间的线性（或仿射）子空间。最先进的方法是基于利用线性子空间的自表达特性。基于这一事实，提出了各种各样的方法，对给定N个d维的数据点的数据集 $\textbf Z=\mathbb R^{d\times N}$ ，通过解决以下优化问题求系数矩阵 $\textbf C∈ \mathbb R^{N×N}$ ：

在这里插入图片描述
其中第一项 $\|{\bf ZC-C}\|_F^2$ 能够捕获自表达性质，即用数据集本身的其它点去分别表出数据集中所有点，亦即我们希望 $\textbf Z_i≈\textbf {ZC}_i$ 。第二项 $\theta (\bf C)$ 是一种正则化，旨在鼓励得到子空间保持解，并避免平凡解（如 $\bf C=I$ ）。一旦对得到 $\bf C$ ，就可以定义数据点之间的Affinity graph，(A通常基于C项的大小），并使用适当的基于图的聚类方法生成数据点的最终聚类。

最早使用这种的方法是稀疏子空间聚类（SSC），其中θ的形式为：
在这里插入图片描述

其中 $\|\cdot\|_1$ 表示 $\ell_1$ 范数， $δ$ 是指示函数：如果C对角线上的元素不为零则为 $\infty$ 。通过将C稀疏正则化，要求使用数量最少的其他点来表示自身，这反过来理想地要求数据点仅使用同一子空间中的其他点进行表出。同样，其他变体，如低秩表示（LRR）和弹性网络子空间聚类（EnSC），采用相同的形式，但选择不同的正则化： $θ_{LRR}(C)=\|C\|_*, θ_{EnSC}=\|C\| + τ\|C\|_F^2+δ(diag(C)=0)$ ，其中核范数 $C\|_*$ 是奇异值的总和。

大多数这些方法的一个显著优点是，可以证明最优C矩阵是“正确的”（通常取决于关于基础子空间之间的角度和子空间内采样数据点的分布的一些技术假设）从这个意义上讲，如果 $C_ij$ 是非零的，那么 $Z$ 的第 $i$ 列和第 $j$ 列保证位于同一线性子空间中，这使得这些方法在许多应用中实现了最好的性能。

1.1 基于自表示的深度子空间聚类

尽管基于自表达的子空间聚类技术显示出很强的经验性能并提供了理论保证，但这些技术的一个显著局限性是需要在底层数据集上近似支持线性子空间。这导致了将其扩展到更一般的数据集的强烈动机，如支持非线性低维流形的数据。通过检查公式（1）的右侧，可以观察到对数据 $\bf Z$ 的唯一依赖性是以Gram矩阵的形式出现的 $\bf Z^\top Z$ 。因此，自表达子空间聚类技术可以改为使用“Kernel Trick”，即不在数据点之间使用内积，而是使用一般的kernel： $κ (\cdot, \cdot)$ 。当然，这种方法带来了固有的挑战，即如何选择合适的核，以便将数据嵌入核函数对应的Hilbert空间，从而得到嵌入空间中线性子空间。

最早在2013-2015年，Patel等人给出了学习不一定具有子空间结构的初始数据集 $\bf X$ 的适当嵌入的方法。该方法学习一个可学习linear projection将数据投影到低维空间，即 ${\bf Z=P}_l\bf X$ （此时 $text\bf P_l$ 和 $\bf C$ 都被优化）。为确保在低维嵌入 $\bf Z$ 中保留足够的原始数据信息，作者进一步要求linear projection满足 $\textbf P_l\textbf P_l^\top=\textbf I$ 的约束，并在目标函数中添加一个重构误差项 $\|\textbf X−\textbf P_l\textbf P_l^\top \textbf X\|^2_F$ 。

最近，鉴于深度神经网络最近取得的成功，大量研究试图通过神经网络 $Φ_E(\textbf X,\mathcal W_e)$ 来学习数据嵌入（ $\textbf X$ 为输入数据集、 $\mathcal W_e$ 为可学习参数）。为了鼓励嵌入后的数据具有子空间结构，这些方法通常最小化嵌入数据上的自表达损失项，其形式如公式（1）所示，且这些技术可以用一般形式来描述：

在这里插入图片描述
其中， $F$ 即自表达损失项， $g$ 是设计用于防止平凡解（如 $Φ_E(\textbf X,\mathcal W_e)=0$ ）的规范化函数。文献中提出了几种不同的 $g$ 。

第一种方法是将某种形式的规范化直接作用于Z。例如，Peng等人提出了一种实例规范化（Instance Normalization），试图将嵌入数据点的范数约束为1，其形式为 $g({\bf Z,X,C})=\sum_{i=1}^N(\textbf Z_i^\top \textbf Z_i -1)^2$ 。
同样，我们也可以考虑数据集规范化（Dataset Normalization），它限制整个嵌入表示的范数（ $\|\bf Z\|_F^2\geq \tau$ ）。
还可以是通道规范化（Channel Normalization），它限制的是 $\bf Z$ 的每一行，即 $\forall i,\|\textbf Z^i\|_F^2\geq \tau$ 。我们注意到，这与神经网络训练中使用的常用的Batch Normalization算子非常相似，后者试图约束 $\bf Z$ 的每一行具有零均值和常数范数。

g的另一种方式是，再训练一个decoder网络，将嵌入表示再映射回原始数据，以确保在自表达表示中保留足够的信息以恢复原始数据。我们将其称为Auto Encoder正则化，问题的一般形式如下：
在这里插入图片描述
其中，第一项是应用于嵌入表示的标准SE子空间聚类损失，第二项是标准AE损失， $\ell$ 通使用平方误差。注意，在这里，Kernel（以编码网络的形式）和最佳的 $\bf C$ 是联合训练的，一旦问题（3）得到解决，就可以直接使用恢复的 $\bf C$ 进行聚类。

1.2 论文贡献

基于自表达的深度子空间聚类（SEDSC）已应用于各种应用，但从理论角度对其了解相对较少。SEDSC的初始公式是基于这样一种直觉，即如果数据集是从线性子空间的并集中提取的，那么解决问题（1）会在C中产生聚类所需的属性。我们可以假设，如果我们还优化了学习嵌入（Z）的几何结构，那么这个目标可能会在嵌入空间中产生一个理想的几何结构（例如，线性子空间的并集）。

然而，对于（1）中形式的问题，大量先前的理论分析只考虑数据固定的情况，并分析最优C矩阵的性质。众所周知的，由于神经网络能够产生高度表达的映射函数（也因此可以生成Z的许多潜在值），因此使用（2-3）等模型本质上是使用（1）作为 $\bf Z$ 的正则化函数，以鼓励 $\bf Z$ 形成子空间并集的几何结构。然而，到目前为止，诸如（2-3）的模型在很大程度上是由直觉引导的，当我们在编码矩阵 $\bf C$ 和网络产生的数据嵌入表示 $\bf Z$ 上进行优化时，关于 $F(\bf Z,C)$ 鼓励了何种类型的数据几何结构，仍然存在重大的问题。

在这里，我们通过理论分析来探讨这些问题，其中我们表明，当从数据中学习Kernel时，使用 $F(\bf Z,C)$ 作为正则化函数，试图在嵌入空间中鼓励数据的几何结构在很大程度上是不够的。具体地说：

我们首先注意到一个基本事实，即（3）中的自动编码器正则化公式对于大多数常用网络来说通常是不适定的。
其次，即使假设嵌入表示已被适当地规范化，我们也表明 $F(\bf Z,C)$ 鼓励的最佳嵌入数据几何结构是微不足道的，这取决于数据的规范化方式。
我们通过对真实数据和合成数据的实验来说明我们的理论预测。此外，我们通过实验证明，在以前的工作中报告的SEDSC模型的许多声称的性能优势都可以归因于对 $\bf C$ 的后处理步骤。

在这里插入图片描述

图1：我们的理论结果表明：SEDSC模型的目标是训练网络（通常是AE）将数据从非线性流形的并集（左图）映射到线性子空间的并集（中图）。然而，我们表明，对于文献中提出的许多公式，模型的全局最优解在嵌入空间中将发生退化。例如，在Dataset /Channel Batchnormalization中，定理2表明，全局最优几何体将在原点附近聚集所有点，但两个点除外，它们将是彼此的对称copy（只是符号翻转）（右图）。

2 理论分析

2.1 基本缩放问题（scaling issue）

考虑最流行的公式，即采用（3）中的AE正则化。具体地说，我们注意到，如果没有对自动编码器网络参数 $\mathcal W_e，\mathcal W_d$ 进行任何正则化，或者在嵌入表示 $Φ_E(\textbf X,\mathcal W_e)$ 上进行任何归一化，则（3）中的公式通常是不适定的，即 $F(Φ_E(\textbf X,\mathcal W_e),C)$ 的值在不改变自动编码器loss的情况下，通过缩小Encoder中的权重，并以不改变AE输出但降低嵌入表示的幅度的方式放大Decoder中的权重，可以使其任意变小。

举个例子：考虑一个单隐藏层的全连接网络作Encoder-Decoder。编码器 $Φ_E(\textbf X,\mathcal W_e)=\textbf W^2_e(\textbf W^1_e \textbf X)_+$ 和解码器 $Φ_D(\textbf Z,\mathcal W_e)=\textbf W^2_d(\textbf W^1_d \textbf Z)_+$ ，其中 $x)_+=max\{x,0\}$ 也就是表示引入entry-wise的非线性ReLU。然后注意到，对于任何 $α \geq 0$ ，ReLU函数都是degree为1的正齐次函数从而有： $Φ_E(\textbf X,α\mathcal W_e)=(α\textbf W^2_e)(α\textbf W^1_e \textbf X)_+=α^2Φ_E(\textbf X,\mathcal W_e)$ ，对于Decoder同理。也就是说通过 $α > 0$ 对 $\mathcal W_e$ 进行缩放，然后再用 $α^{-1}$ 对 $\mathcal W_d$ 进行缩放，并不会改变最终AE的输出，即：
在这里插入图片描述
但此时，嵌入表示的范数却发生了变化 $\|Φ_E(\textbf X,α\mathcal W_e)\|_F=α^2\|Φ_E(\textbf X,α\mathcal W_e)\|_F$ 。由此，将α取为任意小，嵌入的大小也可以任意小，则目标（3）中的 $F(\bf Z,C)$ 值也可以任意小，而不改变自动编码器的重构误差 $\ell$ 。这意味着只是训练了一个AE，而不需要 $F(\bf Z,C)$ 项的任何贡献（除了试图降低嵌入表示的幅度）。

在实践中，大多数SEDSC使用了这网络而没有正则化，我们注意到，此类模型永远无法求解为全局最优，并且本质上是不适定的。由此可以得出结论，自动编码器正则化本身不足以防止目标（2）得到平凡解。如果通过对网络权重施加正则化/约束（例如使用weight decay或耦合编码器和解码器之间的权重），确保嵌入表示的幅度被约束为大于某个最小值，则该特定问题可以很容易地得到解决（尽管之前的工作通常不如此做），可以在最后一层或编码器上选择不同的非线性激活函数，也可以显式地规范化嵌入表示。然而，即使上面的问题得到纠正，问题仍然是（1）的自表达约束到底鼓励了什么样的几何结构？我们下一步将对此进行探讨。

2.2 AutoEncoder的损失有什么作用？

自动编码器损失旨在确保嵌入表示Z保留关于原始数据X的足够信息，以便解码器可以重构数据，但我们注意到，这并不一定会对Z中嵌入点的几何结构施加重大约束。虽然编码器/解码器体系结构的选择可能会对Z的可能几何结构施加一些约束，合理表达的编码器和解码器可以将有限数量的数据点任意映射到嵌入空间中，并且仍然能够准确地对其进行解码，前提是任意两个点的嵌入在某些 $\epsilon$ 扰动中仍然是不同的（即 $Φ_e$ 是X中点的一对一映射）。此外，由于我们只对有限的点集X上的映射进行评估，因此这比众所周知的神经网络通用近似机制（需要在整个连续数据域上进行良好的近似）更容易（并且可以通过更简单的网络实现），并且有充分的证据表明，典型的网络体系结构可以最佳地拟合任意有限的训练数据。

我们将首先关注自动编码器具有高度表达能力的设置。在这种情况下，编码器可以选择权重参数来产生任意的Z嵌入选择，只要 $Φ_E(\textbf X_i)\neq Φ_E(\textbf X_j),∀\textbf X_i\neq \textbf X_j$ ，然后解码器可以准确地恢复原始数据 $\textbf X$ 。因此，对于几乎任何Encoder，AE损失 $\ell$ 在（3）中都可以被精确地最小化，因此最佳网络权重将是使 $F(\bf Z,C)$ 最小化的网络权重（可能在一些小扰动范围内使得 $Φ_E(\textbf X)$ 是 $\bf X$ 点上的一对一映射）。如果没有其他形式的正则化，这是不适定的，因此在下面的章节中，我们将探索 $F(\bf Z,C)$ 的最优解，当在C和嵌入表示Z上进行优化时，受Z上的三个不同约束：（1）数据集规范化 $Z\|_2≥τ$ ；（2）通道规范化 $\forall i,\|\textbf Z^i\|_F^2\geq \tau$ ；（3）实例规范化 $\forall i,\|\textbf Z^i\|_F^2\geq \tau$ 。最后，在描述了 $F(\bf Z,C)$ 的解之后，我们给出了一个可以实现这些解的非常简单（不具有高度表达能力）的体系结构系列的具体示例，表明对于这些解的全局最优性而言，不必假设具有高度表达能力的网络。

2.3 数据集规范化和通道规范化

我们将首先考虑数据集和通道归一化方案，它们将得到非常相似的对嵌入数据几何结构的最优解。此外，虽然我们没有明确地强制执行零均值约束，但我们将看到存在具有零均值的最优解。现在，如果在 $(\bf Z,C)$ 上联合优化 $F(\bf Z,C)$ ，并受上述施加在 $\bf Z$ 上的约束，则以下情况成立：

定理1

考虑以下联合优化 $\bf Z$ 和 $\bf C$ 的目标：
在这里插入图片描述
那么P1和P2中C的最优解：

此外，对于任何最优 $\bf C^∗$ , 设 $r$ 是 $(\bf C^*-I)$ 的最小奇异值的重数，令 $Q∈\mathbb R^{N×r}$ 是由与 $\bf C$ 的最小奇异值相对应的左奇异向量所span的子空间的正交基。然后由下式我们得到Z的最佳值：

在这里插入图片描述

我们可以从注意到，在Z和C上联合优化 $F(\bf Z,C)$ 相当于找到一个最佳的C来最小化 $\bf C−I$ 的最小奇异值和正则化 $θ(\bf C)$ 之间的trade-off。此外，如果最优C导致 $\bf C−I$ 的最小奇异值的重数为1，那么这意味着 $\bf Z$ 中的每个数据点都是同一点的缩放版本。显然，这样的嵌入对于子空间聚类是无用的。由于最小奇异值是矩阵的凹函数，θ通常为凸正则化函数，导致convex+concave优化，因此在一般情况下 $\bf C$ 的最优解有点复杂。相反，我们将关注最常用的正则化选择，首先是 $\theta_{SSC}=\|\textbf C\|_1+\delta(diag(\bf C)=0)$ ，这种情况下最优解为 $\sigma_{min}({\bf C-I})=0$ 。我们注意到，这对应于 $\bf Z^∗=Z^∗C^∗$ 在（1）中当 $\lambda$ 小的时候得到的值。

定理2

在这里插入图片描述
该问题的最优解具有集合的形式：

在这里插入图片描述
其中 $P∈\mathbb R^{N×N}$ 是任意有符号的置换矩阵， $z∈\mathbb R^d$ 是满足以下条件的任意向量： $\|\textbf Z\|_F^2≥ \frac{\tau}{2}$ for (P1) 和 $\textbf z_i^2≥\frac {\tau}{2d}, \forall i\in[1,d]$ for (P2)。

从上面的结果我们证明，如果Z被规范化，在整个嵌入表示或每行上都有一个下界范数，那么 $F(\bf Z,C)$ 损失仍将尝试将所有点推至0点，但两个点除外，这两个点将是彼此的副本。同样，对于聚类来说，最佳嵌入表示显然是不适定的，因为除了两个点之外，所有的点在嵌入空间中都被平凡地推向0点。

此外，当 $\bf C$ 被任何Schatten-p范数正则化时，我们也给出了一个类似于定理2的结果，包括另外两种流行的正则化选择——Frobenius范数和核范数的情况。

定理3

考虑以下问题
在这里插入图片描述
其中 $\|\cdot\|_{\mathcal S_P}$ 表示施加在 $\bf C$ 上任意Schatten-p范数，有集合形式刻画的最优解：

$z∈\mathbb R^d$ 是满足以下条件的任意向量： $\|\textbf Z\|_F^2≥ \tau$ for (P1) 和 $\textbf z_i^2≥ \frac{\tau}{d}, \forall i$ for (P2)。

2.4 实例规范化

为了防止嵌入空间中的大多数点像之前两个规范化方式中那样被平凡地推向0点，提出的另一个潜在规范化策略是使用实例规范化，其中，每个嵌入数据点的 $\ell_2$ 范数被约束为等于某个常数。事实上这依然会导致一些数据几何结构的平凡解。具体地说，我们将再次关注SSC的正则化，由此得出以下结果：

定理4

在这里插入图片描述
这一问题的最优解必须具有以下性质：对任何 $\bf Z^*$ 中的列 $\bf Z^*_i$ ，存在另一不同的列 $\bf Z^*_j(i\neq j)$ 使得 $\textbf Z^*_i=s_{i,j}\textbf Z^*_j$ ，其中 $s_{i,j}\in\{-1,1\}$ 。进而， $\|\textbf C^*_i\|=1,\forall i$ 且 $\textbf C_{i,j}\neq 0\Longrightarrow \textbf Z^*_i=\pm \textbf Z_j^*$ 。

导致上述结果的原因非常直观，因为给定的点不能自身表出，所以次好的方法是在另一列中拥有自身的精确副本。虽然这一结果更有利于成功的聚类，因为嵌入空间中靠近的点被鼓励“合并”为单个点，但会产生许多畸形的几何结构。具体而言，对表示中的“不同”点的数量没有任何限制，但必须小于N/2。因此，最优的 $\bf C^∗$ 矩阵还可以包含affinity graph中任意数量（在 $[1, N / 2]$ 范围内）的连接分量，从而某种程度上产生任意的谱聚类。

具有退化几何结构的简单网络示例

在第2.2节中，我们讨论了如果Encoder-Decoder具有高表达性，那么最佳嵌入将如何拟合我们在理论分析中给出的解。在这里，我们展示了使用相对简单的Encoder-Decoder也会发生平凡的嵌入。具体地，有两层仿射映射（即线性加偏置）、隐藏层使用ReLU的Encoder-Decoder可以分别写成：
在这里插入图片描述
其中，线性算子（W矩阵）可以选择性地受到约束（例如，对于卷积运算，W可能需要是Toeplitz矩阵）。现在，如果我们有嵌入维度 $d$ 等于数据维度 $d_x$ ，我们会说，如果存在参数 $\bf (W^2, W^1）$ ，线性算子可以表示 $\bf X$ 上的恒等式，使得 $\bf W^2W^1X=X$ 。注意，如果（14）中的结构全连接(full-connected) 意味着对于一般 $\bf X$ ，隐藏单元的数量大于或等于 $KaTeX parse error: Expected group after '_' at position 5: d=dx_̲$ （如果 $\bf X$ 为低秩，则隐藏单元的数量可以更少），而如果线性算子为卷积，则我们只需要一个卷积通道（核为 $δ$ 的函数）。在此情况下，我们得到以下结论：

命题

考虑在（14）形式的编码器和解码器。给定任何数据集 $\bf X$ ，如果编码器/解码器中的线性算子都可以表示 $\bf X$ 上的恒等式，则对任何 $τ > 0$ ，都存在满足以下条件的网络参数 $(\mathcal W_e,\mathcal W_d)$ ：

嵌入点之间任意靠近
嵌入点的范数任意接近 $\tau$
嵌入点可被解码器精确恢复

从上面的简单示例中，我们可以看出，即使使用非常简单的网络架构（即，不一定具有高度的表达能力），仍然可能有任意逼近全局最优解的解，在这个意义上，点可以在嵌入空间中任意接近彼此，其范数任意接近任何 $τ$ ，同时仍然具有 $\bf X$ 的完美重构。

在这里插入图片描述

图2:YaleB、COIL100和ORL数据集上的聚类精度结果，包括（虚线表示）和不包括（实线表示）Ji等人提出的C矩阵后处理步骤。Raw Data表示对原始数据进行聚类。Autoenc only表示直接从未加 $F(\bf Z,C)$ 项训练的自动编码器得到的特征进行聚类。Full SEDSC表示使用第目标(3)所定义的的完整AE模型。