论文阅读笔记(3)：A Nullspace Property for Subspace-Preserving Recovery

最新推荐文章于 2021-11-23 20:27:40 发布

塔_Tass

最新推荐文章于 2021-11-23 20:27:40 发布

阅读量618

点赞数

文章标签：聚类机器学习算法线性代数

本文链接：https://blog.csdn.net/weixin_44876302/article/details/118692884

版权

本文探讨了保子空间恢复的理论，提出了子空间零空间性质（SNSP），这是一种类似于经典稀疏恢复中的零空间性质的条件。SNSP为子空间分类和聚类提供了充分必要条件，特别是在数据点的稀疏表示与子空间保持相关的情况下。作者通过几何解释和有限极值点集的界定，展示了如何验证和利用SNSP，为子空间恢复的理论分析和实践应用提供了新工具。

摘要由CSDN通过智能技术生成

前言

施工中！
组内交流用，2021年ICML论文，无作者信息，无论文链接

摘要

许多经典的稀疏恢复理论都是基于字典的充分必要条件（如零空间性质）或仅充分条件（如不相干incoherence和有限等距restricted
isometry）。相比之下，许多保子空间恢复理论，即稀疏子空间分类和聚类方法的理论基础，都是基于子空间和数据的条件（例如，子空间不相干incoherence和数据内半径innerradius）。受经典零空间性质的启发，本文推导得到了保子空间恢复的充要条件，被称为子空间零空间性质。基于这种新条件，我们导出了等价的特征，这些特征要么允许一个明确的几何解释，将数据分布和子空间分离与恢复成功联系起来，要么可以使用一个适当定义的集的有限个极值点集来验证。我们进一步利用这些特征，基于内外半径（inner-radius and outer-radius）测度和对偶界（dual bounds），导出了新的充分条件，推广了已有的条件并保持了几何解释。这些结果填补了保子空间恢复文献中的一个重要空白。

1. 简介

许多机器学习问题都涉及到对高维数据的分析，这些数据的内蕴维数远低于环境维数。当这些数据来自多个类时，可以用低维子空间的并集来很好地逼近，其中每个子空间对应一个类。这推动了许多用于学习子空间并集的有监督和无监督方法的发展，即子空间分类和子空间聚类任务。

在现有的子空间分类和聚类方法中，基于稀疏表示的方法因其简单性、广泛的理论保证和卓越的实证性能而备受关注。这种方法的基础是将每个数据点表示为其他数据点的线性组合，同时执行表示系数的 $\ell_1$ 正则化。其思想是系数向量的非零项应该对应于与所表示的点位于同一子空间中的数据点。具有该特性的系数向量被称为子空间保持（Vidal et al.，2016），这一概念在建立稀疏子空间分类和聚类方法的正确性方面起着核心作用。特别地，证明了子空间保持解的恢复性，当子空间是不相关的，不一致的和非平凡相交的。最近，此类保证进一步扩展到处理降维数据、损坏数据，缺失条目数据，仿射子空间，等等。

*注：subspace independence 是一个定性的概念，是指的子空间并的维数等于各自维数的和；incoherence在不同场合有不同的定义，在SSC的几何分析中(Sol & Candes, AS 2012)，需要借助dual direction，然后计算内积，相当于计算在dual方向上的投影

保子空间恢复的大多数现有理论条件都描述了子空间并集的几何界定（例如，通过子空间独立，子空间不一致）和子空间中点的分布（例如，通过内半径和外半径）。这种几何条件有明确的几何解释，并对稀疏方法适用的情况提供了重要的理解。然而，这样的条件仅仅是充分的，并且在现有的文献中缺少子空间保持恢复的严格界定。

本文给出了子空间保持恢复的充要条件。我们的条件受到经典零空间性质（NSP）的启发，它被广泛应用于经典稀疏恢复。它作为一种的工具，不仅得到的结果有重要的理论意义，而且保证了能够获得鲁棒的恢复。然而，在子空间分类和聚类文献中似乎没有对NSP进行探讨。可以说，其中一个原因是像NSP这样的充分必要条件往往难以验证。本文不仅介绍了一种能成功地实现子空间保持恢复的NSP，而且基于极值集导出了它的等价特征，从而将条件的验证简化为有限集。我们的主要目标是提出一个深入的理论分析通过一个零空间性质类似的条件进行保子空间恢复，而不一定要构造有效的计算工具。因此，我们导出的条件有时在计算上很难验证，文献中的其他条件通常也是如此。

文献贡献如下：

给出了子空间保持恢复的充要条件。(定理1) 我们称之为子空间零空间性质（SNSP）。我们证明了SNSP成立的充要条件是它成立于数据矩阵X的某一列子集上，这有可能极大地促进SNSP在子空间分类任务（引理1）中的验证。
通过比较子空间上数据点的对称凸包络（convex hull）和剩余数据点的对称凸包络，我们提供了SNSP的界定，这为SNSP提供了非常清晰的几何解释（定理2）。我们从这个界定中导出了一个充分条件，它也是几何性质的，并将判定简化为两个紧凸集（compact convex sets）的内半径和外半径之间的比较（推论2）。
通过利用在原始空间中恢复问题的凸性，我们提供了SNSP的一个新颖的界定，它将其验证减少到数据X的零空间与原始空间的交集的有限极值点集和 $\ell_1$ 球上（定理3）。这个方法需要解决每个极值点上的 $\ell_1$ 极小化问题。通过将 $\ell_1$ 极小化问题用对偶问题替换并利用其对偶空间中的凸性，我们给出了SNSP的一个界定，该方法只需要通过对有限集上的判定来验证（定理5）。
在假设X列具有单位 $\ell_p$ 范数时，引入 $\ell_1$ 极小化问题的对偶问题的边界（命题1）。这些边界使得我们可以简化上述基于极值点的SNSP界定，从而得到一个更易于检验的保子空间恢复的充分条件（定理6）。

2. 准备工作和问题提出

2.1. 符号表示和序言

从1到N的整数集{1,…,N}表示为 [N]，对任何 ${\bf c} \in \mathbb{R}^N$ ，其支撑集为 $Supp(c):={k\in[N],C_k\neq0}$ 。
当 $|Supp(c)|\leq s$ 时向量c称为s-sparse的。对于任何索引集 $S\subseteq [N]$ ， S在[N]中的补集(complement)被表示为 $S^c$ 。
向量 $c_S\in \mathbb{R}^{|S|}$ 表示c在S上支撑集的部分。我们使用 $Pr_S∈ \mathbb{R}^{N×N}$ 表示投影到S中坐标上的矩阵，并将所有其他坐标设置为零。
对于矩阵 $X∈\mathbb{R}^{D×N}$ 与索引集S⊆ [N]，矩阵 $X_S∈\mathbb{R}^{D×| S|}$ 是 $X$ 的子矩阵，由的 $X$ 中属于索引 $S$ 的列组成。因此对所有 $c∈\mathbb{R}^N$ ，有 $Pr_S\cdot c=X_S\cdot c_S$ 。
如果 $S=\{j\}$ ，那么我们写成 $x_j$ 而不是 $X_S$ 来表示 $X$ 第 $j$ 列。下标优先级高于上标，如 $X_S^T≡(X_S)^T$ , 而非 $X^T)_S$ 。
最后 $X$ 的零空间用 $\mathbf{Null}(X)$ 表示。

$\ell_p$ 正则化用 $x||_p$ 表示，对应的 $\ell_p$ 单位圆为： $\mathbb{S}_p^{D-1}:=\{||x||_p=1\}$ ， $\ell_p$ 单位球为： $\mathbb{B}_p^{D-1}:=\{||x||_p\leq1\}$ 。
凸包络用 $c o n v (\cdot)$ 表示。 $X$ 和 $- X$ 列的并集的凸包络表示为 $\mathcal K(X)$ ，也称之为X的列的对称凸包络。
对于非空凸集 $\mathcal C⊆ \mathbb{R}^{D}$ ，其极值点集表示为 $Ext(\mathcal C)$ 。
$\mathcal C$ 的仿射壳为 $aff(\mathcal C)$ ，是 $\mathbb{R}^{D}$ 中包含 $\mathcal C$ 的最小仿射集。
$\mathcal C$ 的相对内部(relative interior)被定义为rinte $(\mathcal C):=\{x\in aff(\mathcal C):\exist \epsilon >0,(x+\epsilon \mathbb{B}_2^D\cap aff(\mathcal C)⊆\mathcal C\}$ 。
$\mathcal C$ 的极定义为 $\mathcal C^\circ:=\{q\in \mathbb{R}^{D}: q^Tx\leq 1$ for all $x\in \mathcal C\}$ 。注意 $\mathcal C^\circ$ 总是一个闭的凸集

我们定义包含原点的非空紧凸集 $\mathcal C⊆ \mathbb{R}^{D}$ 的 $\ell_p$ 内半径为最大 $\ell_p$ 球的半径（限于 $\mathcal C$ 的线性span）。最大 $\ell_p$ 球用 $\tau_p(\mathcal C)$ 表示。也就是： $\mathfrak r_p(\mathcal C):=max\{\alpha \in \mathbb{R}_+:\alpha(\mathbb{B}_p^D)\cap$ span $(\mathcal C)\}$ 。其中span $(\mathcal C)$ 表示由 $\mathcal C$ 张成的子空间。
类似地，我们定义 $\mathcal C$ 的 $\ell_p$ 外半径为包含 $\mathcal C$ 的最小 $\ell_p$ 球的半径，表示为 $\mathfrak R(\mathcal C):=min\{\beta\in \mathbb{R}_+:\beta\mathbb{B}_p^D\supseteq\mathcal C\}$

*注，简单来说， $\mathfrak r_p(\mathcal C)$ 是 $\mathcal C$ 和span $(\mathcal C)$ 内的最大 $\ell_p$ 球，而 $\mathfrak R(\mathcal C)$ 是包含 $\mathcal C$ 的最小 $\ell_p$ 球。

2.2. 稀疏子空间分类与聚类

令 $X=[x_1,...,x_N]\in\mathbb R^{D\times N}$ 为一个由n个子空间的并 $\bigcup_{i=1}^nS_i\subset \mathbb R^{D}$ 得到的非零列矩阵，每个子空间的维度为 $d_i$ 。令 $\mathcal{P}:=\{\mathcal{P}_i\}_{i=1}^n$ 为根据子空间的隶属关系定义的[N]的 $X$ 列的划分，如 $\mathcal{P}_i:=\{k\in [N]:x_k\in S_i\}$

*注：隐式地假设X的任何列都不在的两个不同子空间的并集中，这不是来自实际应用的数据的主要假设。

假设 $\mathcal{P}$ 已知，那么子空间分类的目标是为 $i \in [n]$ 所属的子空间 $S i$ 分配一个新的非零点 $y∈ S_i$ 。

我们假设由 $X_{\mathcal{P}_i}$ 张成 $S_i$ ，因此任意 $y∈ S_i$ 可以表示为 $X_{\mathcal{P}_i}$ 列的线性组合。例如，在 ${\mathcal{P}_i}$ 的支撑集中存在一个 $c\in \mathbb{R}^N$ 使得 $y = X c$ 。给定 $y\in S_i$ ， $y = X c$ 的某个解 $c$ 当且仅当Supp( $c$ ) $\subseteq \mathcal{P}_i$ 时被称作子空间保持解。请注意，这样的向量c不是唯一的，因为通常 $X_{\mathcal{P}_i}$ 的列数将大于 $S_i$ 的维数。尽管如此，假设最大子空间维数 $\overline{d}=max_id_i$ 相对于N很小，则所有子空间保持向量 $c$ 必须是 $\overline{d}$ -sparse的。
这促使（Wright et al.，2009）通过解决基追踪，basis pursuit来解决子空间分类问题：
在这里插入图片描述

其中 $\ell_1$ 范数为 $c$ 的稀疏性的近似代替。为了理解这种方法的正确性，我们考虑以下关于保子空间恢复的理论问题：

Question: 子空间并 $\bigcup_{i=1}^nS_i$ 与数据 $X$ 的充要条件是什么，使得对于所有的 $i\in [n]$ 和所有的 $y\in S_i$ ，使得所有(1)的解都是子空间保持的？

对问题的回答提供了必要和充分条件，该条件下任何测试数据点 $y\in \bigcup_{i=1}^nS_i$ 通过指派给由 $Supp(\mathcal{C})$ 确定的子空间可以得到正确的分类正确分类。

*注：如果 $y \equiv 0$ ，则（1）的解为 $c \equiv 0$ 因此，c的支撑集是空集，因此对所有 $i\in [N]$ 有 $\mathcal{P}_i$ 。也就是说，此时（1）的解总是子空间保持的且 $y \equiv 0$ 被分配给所有子空间，这与所有子空间都包含原点的事实一致。

与子空间分类密切相关的是子空间聚类问题，我们假设 $X$ 的列对其相应子空间的所属关系未知，目标是将X的列分割成到不同的子空间中，即找到 $\mathcal P$ 。（Elhamifar&Vidal，2013）的工作通过解决一个改进的基追踪问题解决了子空间聚类问题，其中每个数据点表示为其他数据点的组合，这种表示有助于保证数据点的正确分割。在这篇论文中，我们着重回答 Question的子空间分类问题，并请读者参考（You&Vidal，2015；Robinson等人，2019年）研究了子空间聚类设置中这些答案的含义。

3. 保子空间恢复的零空间性质

本节基于一个充分必要条件对 Question给出了一个初步答案，这个充分必要条件是受经典NSP的启发而提出的。我们称这种情况为 Subspace Nullspace Property（SNSP），以表示它与子空间分类和聚类以及NSP的关系。

定义1：

我们用 $Null(X,\mathcal P)$ 表示 $X$ 的零空间中的向量集，它的支撑集不包含在分区 $\mathcal{P}:=\{\mathcal{P}_i\}_{i=1}^n$ 的任何一个元素中。也就是说，

在这里插入图片描述
我们说 $X$ 满足SNSP条件，当且仅当对于所有 $\eta \in Null(X), P\in \mathcal{P}$ 时，有：

在这里插入图片描述
我们简要讨论如何解释SNSP。它告诉我们，那些与保子空间恢复有关的向量是那些在Null( $X$ )中的向量，其支撑集不包含在分割集 $\mathcal{P}$ 的任何元素中。这是SNSP引入的第一级关注。

然后，公式(3)进一步排除Null( $X$ )中的某些向量：对于任何 $\overline{η}∈Null(X,P)$ ，如果 $\overline{η}∈Null(X,P)$ 有 $\overline{η}P=\hat{η}P$ 和 $||X_P\cdot \overline{η}_P||_1 <||X_P\cdot \hat η_P||_1$ ，则仅需要对 $\hat η$ 验证公式(3)即可。因此， $X_P$ 的零空间的引入的 $\eta \in Null(X,\mathcal{P})$ 的变化是无关的，除非它减少了 $\hat η$ 的 $\ell_i$ 范数。

当 $X_P$ 是列满秩的时候，等式 $X_P\cdot z=X_P\cdot \eta_P$ 的唯一解就是 $z=\eta_P$ ，于是公式(3)等价于要求 $||\eta_P||_1<||\eta_{P^\mathcal{C}}||_1$ 。这种情况与s阶的经典NSP密切相关，它要求 $||\eta_P||_1<||\eta_{P^\mathcal{C}}||_1$ 对所有s-sparse模式都成立，即，即所有 $P$ 有 $|P|\leq s$ 。

因此，SNSP在两个方面上不同于NSP。首先，它不要求 $X_P$ 的列是线性独立的，因此允许非唯一的稀疏解。这对于子空间分类和聚类是有意义的，因为子空间分类和聚类的目标是确保正确的子空间，而不是唯一的稀疏表示，因此只要给出正确的子空间，解的特定支撑集就无关紧要。其次，，SNSP根据子空间的所属关系在数据的分割集 $\mathcal P$ 上验证，而NSP在所有s-sparse模式下验证。

接下来我们给出SNSP对Question的回答。

定理1：

公式(1)的解是子空间保持解对所有数据点 $y\in S_i$ 都成立的充分必要条件就是 $X$ 满足SNSP。也即，对所有 $\mathcal P_i$ 支撑的 $\overline c\in \mathbb R^N$ ，当且仅当 $X$ 满足SNSP时，任何下式的极小值点：

在这里插入图片描述
的支撑集被包含在 $\mathcal P_i$ 中。

证明：

充分性（ $\rightarrow$ ）：由零空间的定义， $X\cdot \eta = 0$ ，又 $X$ 可拆分为某一分割 $P$ 和它的补集 $P^c$ ，于是 $0=X=X\cdot (Pr_P(\eta)+Pr_{P^c}(\eta))$ ，从而得到：

在这里插入图片描述
注意到：

然后，根据假设，下式极小值的支撑集是 $P$ 的一个子集：

因此：
根据公式(5)， ${P^c}(-\eta)$ 应当是最优化目标(6)的一个可行解。此外，由于 $\eta$ 属于 $P$ 上的零空间，故有 $Supp(Pr_{P^c}(-\eta))\neq \emptyset$ 。因此， $Pr_{P^c}(-\eta)$ 一定不是(6)的极小值点，故得到以下不等式：
在这里插入图片描述

*注：这里根据2.1节提到的等式 $Pr_S\cdot c=X_S\cdot c_S$ ，因此可将 $Pr_{P^c}(-\eta)$ 转化为 $-\eta_{P^c}$ ，又知矩阵的1范数是带绝对值的，所以负号可以省去。

结合公式(7)有： $min_{c:X_p(\eta_p)=X_p(c)}||c||_1<||\eta_{P^c}||_1$ 。得证： $X$ 满足SNSP。

必要性（ $\leftarrow$ ）：假设 $X$ 满足SNSP。对于某些 $P\in \mathcal P$ ，令 $\overline{c}\in \mathbb{R}^N$ 且有 $Supp(\overline c)\subseteq P$ 。反证法假设公式(4)有一个极小值 $\hat c$ 且 $Supp(\hat c)/P\neq \emptyset$ 。令 $\eta := \overline c - \hat c$ ，并注意到 $\eta \in Null(X),Supp(\eta)/P\neq \emptyset$ 。如果存在分割集 $Q\in \mathcal P$ 使得 $Supp(\eta)\subseteq Q$ ，那么必有 $\overline c_p=\hat c_p$ 。故：
在这里插入图片描述
这将与 $\hat c$ 是公式(4)的极小值点相矛盾。因此我们认为存在 $\eta \in Null(X,\mathcal P)$ 使得

由于 $Supp(\overline c)\subseteq P$ ，令 $y:=z-Pr_{P}(\hat c)$ ，上式可写作：

然后根据三角不等式（和的范数小于范数和）
在这里插入图片描述
收缩约束集得到

SNSP意味着：

于是最终得到：

这又是一个矛盾，因为 $\hat c$ 应当是公式(4)的最小值。于是必须有 $Supp(\overline c)\subseteq P$ 。

3.1 在子矩阵上的SNSP验证

X上的SNSP，若使用X的子矩阵仍然可以验证。具体地说，可以从子空间 $S_i$ 中丢弃一部分与—— $S_i$ 数据点的对称凸包的极值点——无关的数据点，之后验证由剩余点定义的矩阵的SNSP。正式地，对于每个 $\mathcal P_i$ ，（回想2.1节）凸集 $\mathcal K(X_{P_i})$ 是 $X_{P_i}$ 和 $X_{P_i}$ 的并的凸包络（ $conv(X_{P_i}\cup -X_{P_i})$ ）。令 $\tilde {\mathcal P_i}:=\{l\in \mathcal P_i:x_l\in Ext(\mathcal K(X_{P_i}))\}$ 为与X列相关联的索引 $l$ 的集合，这些列 $x_l$ 是 $\mathcal K(X_{P_i})$ 的极值点。 $\tilde {\mathcal P_i}$ 一定是非空的。

对应地， $\tilde \mathcal P_i$ 的集合组成了 $\tilde \mathcal P:={\tilde \mathcal P_i}$ ，对应的列 $x_l$ 组成了 $\tilde X:={\tilde X_{P}}=[\tilde X_{P_1},\cdots,\tilde X_{P_i}]$ 。于是我们接下来在 $\tilde X$ 上验证SNSP。

引理1

SNSP在数据矩阵 $X$ 上成立和在 $\tilde X$ 上成立互为充要条件。

尽管引理1表明，为了验证SNSP，人们可以用其子矩阵 $\tilde X$ 替换数据矩阵 $X$ ，但在本文中，我们不假设这种替换发生。究其原因，有两个方面：1）我们的理论发展没有大的区别。2）如果数据用 $p\notin \{1,\infty \}$ 的 $\ell_p$ -范数，那么在这种情况下，数据矩阵X的每一列都是一个极值点而不用进行缩减。然而，稀疏子空间分类可能会从这种简化中受益匪浅，特别是在数据集较大并且采用 $\ell_1$ 或 $\ell_\infty$ 范数时（不论是否进行了标准化）。在这种情况下，我们不必在数据矩阵 $X$ 上验证SNSP，而可以在更小的极值点子矩阵上进行验证。这种矩阵尺寸的简化可以明显加快 $\ell_1$ -recovery。

由于SNSP的界定了什么时候保子空间恢复是可能的，因此我们将剩下的部分用于推导SNSP的等价界定。这些特征要么在几何上可以解释（从而提供对子空间保持恢复性质的理解），要么可以通过考虑某些有限的点集来验证（从而为开发证明SNSP成立的实用方法打开了大门）。

4 SNSP的几何解释界定

在本节中，我们将介绍SNSP的一个替代界定，它允许清晰的几何解释。本节的主要结果如下。

定理2：

当且仅当对于所有i∈ [n] ，我们有

时，矩阵 $X$ 满足SNSP。

*注：第i子空间和数据矩阵 $X$ 在分割 $\mathcal P_i$ 的补上的对称凸包络的交属于该凸包络的相对内部

证明：

根据公式(5)，对于任何 $\eta \in Null(X)$
在这里插入图片描述
结合定义1，我们有

由于公式(9)中的优化问题是可解的，我们可以用它的对偶问题来代替得到

根据极性算子的定义，等式来自（Rockafellar，1970，Cor.16.3.2）得到：

定义集合：

于是有 $\Lambda_p\subseteq rint(X_P\mathbb B_i^{|P|})$ 。接下来：

在这里插入图片描述

定理2具有直接的几何解释。它告诉我们，保子空间的恢复总是成功的当且仅当 $X_{P_i^c}$ 列的对称凸包与子空间 $S_i$ 的交集包含在 $X_{P_i}$ 的列的对称凸包的相对内部。尽管据我们所知，这一定理之前并未出现在文献中，但仍有可能找到提出类似论点的工作（Elhamifar&Vidal，2013，第8页）。我们让读者参考图1以获得Thm的图示。并与文献中已有的类似论据进行了比较。

注意到定理二并不假定 $X_{P_i}$ 的列是标准化过的。因此 $\ell_p$ 正则化可能会影响保子空间恢复。直觉上，我们希望公式（8）的右侧尽可能大，这表明 $\ell_\infty$ 正则化可能是个不错的选择。然而，这种归一化也扩大了公式（8）的左侧，并且预测这种归一化的总效果是非常重要的。事实上，一个 $\ell_\infty$ 正则化有时会适得其反（请参见下一节中的示例1）。另一方面 $\ell_2$ 正则化具有优势。