【低秩表示学习】低秩在数据分析中的模型

WangMH_CHN

已于 2023-04-21 16:25:49 修改

阅读量1.9k

点赞数 5

文章标签：数据分析学习数据挖掘

于 2023-04-21 15:04:34 首次发布

本文链接：https://blog.csdn.net/weixin_46854242/article/details/129925354

版权

本文探讨了低秩模型在数据分析中的应用，包括线性模型如单子空间和多子空间模型，以及非线性模型如核学习。线性模型中，主成分分析（PCA）和鲁棒主成分分析（RPCA）是重要的工具，用于处理数据的低秩表示和噪声。非线性模型则引入了核函数，以适应非线性子空间的数据。优化方法涉及凸优化、非凸优化和随机算法，以解决这些模型的求解问题。

摘要由CSDN通过智能技术生成

本文是在论文 A REVIEW ON LOW-RANK MODELS IN DATA ANALYSIS 的基础上, 总结的关于低秩模型在数据分析中理论的笔记. 本文不会对具体的方法详细展开, 读者可以点击蓝色字体进一步了解内容.

1. 引言

低秩模型来源于现实生活中大数据的一种特性. 所谓 “低秩”, 是指矩阵的秩较低, 这时矩阵中包含的信息量较少, 信息冗余较多. 因此, 我们既可以使用这些冗余进行预测, 也可以通过冗余对数据进行压缩处理. 低秩模型成为能够鲁棒搞笑解决高维数据的有力工具. 低秩模型研究热度起源于 E.Candes(2009) 提出的矩阵完备问题 (the Matrix Completion problem, MC 问题).

低秩表示研究中, 有线性和非线性的模型. 本篇笔记先介绍低秩表示模型, 接着介绍求解这些模型的数学方法. 本笔记是对一些经典研究的汇总,

2. 线性模型

线性模型包括单子空间模型 (Single subspace models) 和多子空间模型 ( Multi subspace models).

2.1 单子空间模型

MC 问题是最基本的低秩模型. MC 问题为对于数据矩阵 $\mathbf D$ , 我们仅仅能观测到部分的数据, 这些数据的集合为 $\Omega$ , 利用 $\Omega$ 中的信息试图恢复矩阵 $\mathbf D$ . 考虑到行和列存在一定的相关性, 因此找一个低秩的矩阵. E.Candes 指出要选择的矩阵 $\mathbf A$ 满足以下优化问题:
$\min_{\mathbf{A}}\text{rank}\left( \mathbf{A} \right) ,\ s.t.\ \pi _{\Omega}\left( \mathbf{A} \right) =\pi _{\Omega}\left( \mathbf{D} \right).$ 其中, $\Omega$ 是已知信息的集合, $\pi _{\Omega}$ 是一个能保留 $\Omega$ 中信息的算子.

但现实中存在噪声, 因此考虑噪声的 MC 问题描述为:
$\min_{\mathbf{A}}\text{rank}\left( \mathbf{A} \right) ,\ s.t.\ \lVert \pi _{\Omega}\left( \mathbf{A} \right) -\pi _{\Omega}\left( \mathbf{D} \right) \rVert _{F}^{2}\le \varepsilon .$ 在考虑强噪声情况下的低秩恢复问题时, 传统的主成分分析 (PCA) 可以很好地解决这一问题. 但传统的 PCA 仅能有效处理噪声满足高斯分布的情形. 当噪声不满足高斯分布或者有较大离群值时, PCA 的效果就会大打折扣.

Frobenius 范数: $\lVert \mathbf{A} \rVert _{F}=\sqrt{\sum_i{\sum_j{\left| a_{ij} \right|}}^2}$ , 其中 $\mathbf{A}=\left[ a_{ij} \right]$ . F 范数在机器学习中常用来度量大小或者矩阵之间的差异, 同时 F 范数与矩阵奇异值也有着密切关系. 矩阵进行奇异值分解 (SVD分解) 后得到 $\mathbf A = \mathbf U \mathbf \Sigma \mathbf U$ , 其中 $\mathbf \Sigma =\left( \begin{matrix} \Sigma _r& 0\\ 0& 0\\ \end{matrix} \right) ,\ \Sigma _r=\left( \begin{matrix} \sigma _1& \cdots& 0\\ \vdots& \ddots& \vdots\\ 0& \cdots& \sigma _r\\ \end{matrix} \right)$ 对角阵 $\Sigma_r$ 上的元素 $\sigma_i$ 为矩阵 $\mathbf A$ 的奇异值, F-范数可以表示为: $\lVert \mathbf{A} \rVert _{F} = \sqrt{\sum_{i=1}^{r}{\sigma_i^2}}$ .

由于主成分分析在应用中的重要性, 许多学者对主成分分析进行了大量的鲁棒化研究, 提出了许多所谓的 “robust PCAs”. 然而, 它们都没有理论上的保证, 在一定条件下, 底层的低秩结构可以准确地恢复. 当问题存在稀疏性和较大离群值时, J Wright et al(2009) 将问题描述如下: 对矩阵 $\mathbf D$ 是由某个低秩矩阵 $\mathbf A$ 通过干扰某些矩阵条目获得的, 这种干扰可以表示成一个加性噪声 $\mathbf E$ , 即表示 $\mathbf D = \mathbf A + \mathbf E$ . 因为 $\mathbf E$ 只是影响部分矩阵条目, 因此其为稀疏的. 因此 robust PCA (RPCA) 问题描述如下:
$\min_{\mathbf{A}, \mathbf{E}}\text{rank}\left( \mathbf{A} \right) +\lambda \lVert \mathbf{E} \rVert _0,\ s.t.\ \mathbf{A}+\mathbf{E}=\mathbf{D}.$ 其中, $\lVert \mathbf{E} \rVert _0$ 表示 $\mathbf E$ 中非 0 元素的个数. 考虑到矩阵存在的确实值, 一个广义的模型可以表示为:
$\min_{\mathbf{A}}\text{rank}\left( \mathbf{A} \right) +\lambda \lVert \mathbf{E} \rVert _0,\ s.t.\ \pi _{\Omega}\left( \mathbf{A}+\mathbf{E} \right) =\pi _{\Omega}\left( \mathbf{D} \right) .$ 进一步考虑噪声, 可以将问题描述为:
$\min_{\mathbf{A}}\text{rank}\left( \mathbf{A} \right) +\lambda \lVert \mathbf{E} \rVert _0,\ s.t.\ \lVert \pi _{\Omega}\left( \mathbf{A}+\mathbf{E} \right) -\pi _{\Omega}\left( \mathbf{D} \right) \rVert _{F}^{2}\le \varepsilon .$ 上诉模型均为非凸优化问题, 为了便于求解, 将 $l_0$ 范数替换为 $l_1$ 范数, 并将秩函数替换为核范数 (在单位球内核范数是秩的最紧凸包络, 详细证明可以参考讲义), 即得到 RPCA 问题的凸替代: $\min_{\mathbf{A,E}}\lVert \mathbf{A} \rVert _*+\lambda \lVert \mathbf{E} \rVert _1,\ s.t.\,\,\mathbf{A}+\mathbf{E}=\mathbf{D}.$

2.2 多子空间模型

单子空间表征现实世界存在局限性, 这些模型不能描述数据在子空间中的一些细节, 从而孕育出多子空间模型. 当从当从多个子空间的并集 ( $\mathcal{S}=\bigcup_{i=1}^k{\mathcal{S}_i}$ ) 中抽取数据时, 它实际上将数据视为从 $\mathcal{S}=\sum_{i=1}^k{\mathcal{S}_i}$ 定义的单个子空间中采样. 由于 $\bigcup_{i=1}^k{\mathcal{S}_i} \subset \mathcal{S}=\sum_{i=1}^k{\mathcal{S}_i}$ , 此时 RPCA 不能很好地考虑各个子空间的细节, 因此恢复可能是不准确的.

稀疏子空间聚类模型 (Sparse Subspace Clustering, SSC):
假设 $\{\mathcal S_{\mathcal l}\}^{k}_{\mathcal l = 1}$ 是 $\mathbb R^L$ 中的 $k$ 个维度分别为 $\{\mathcal s_{\mathcal l}\}^{k}_{\mathcal l = 1}$ 的子空间, 在这些子空间中采样 $N$ 个数据点 $\mathbf d_i(i=1,2,...,N)$ 构成数据矩阵 $\mathbf D$ , 即 $\mathbf{D}=\left[ \mathbf d_1,\mathbf d_2,...,\mathbf d_N \right] =\left[ \begin{matrix} d_{11}& d_{21}& \cdots& d_{N1}\\ d_{12}& d_{22}& \cdots& d_{N2}\\ \vdots& \vdots& & \vdots\\ d_{1L}& d_{2L}& \cdots& d_{NL}\\ \end{matrix} \right] .$ 由于 $\mathbf D$ 是低秩的, 即 $\mathbf d_i$ 可以被其他 $\mathbf d_j (j\neq i)$ 线性表达, 因此有 $\mathbf{d}_i = \sum^N_{j=1}z_{ij} \mathbf d_j =\left[ \mathbf{d}_1,\mathbf{d}_2,...,\mathbf{d}_N \right] \cdot \left[ \begin{array}{c} z_{i1}\\ z_{i2}\\ \vdots\\ z_{iN}\\ \end{array} \right] ,\ z_{ii}=0.$ 即有 $\mathbf{d}_i=\mathbf{D}\cdot \mathbf{z}_i,\ z_{ii}=0, \mathbf{z}_i = \left[ z_{i1},z_{i2},...,z_{iN} \right]'.$ 整合后得 $\mathbf{D} = \mathbf{D} \mathbf{Z}, \text{diag}\left( \mathbf{Z} \right) = \mathbf 0.$ 存在一个稀疏解 $\mathbf{c}_i$ , 其非零项对应于与 $\mathbf{z}_i$ 相同的子空间中的数据点. 我们将这种解称为子空间稀疏表示 (subspace-sparse representation). 因此可以表示成优化模型: $\min \lVert \mathbf{Z} \rVert _l,\ s.t.\ \mathbf{D} = \mathbf{D} \mathbf{Z}, \text{diag}\left( \mathbf{Z} \right) = \mathbf 0.$

为了更好地描述这种来自多个子空间的数据, Liu et al.(2012) 提出了低秩表示模型 (Low rank representation, LRR), 该模型的思路来源于 Ehasn et al.(2009 & 2013) 所提出的稀疏子空间聚类模型 (Sparse Subspace Clustering, SSC). LRR 模型如下:
$\min_{\mathbf Z,\mathbf E}\text{rank}\left( \mathbf Z \right) +\lambda \lVert \mathbf E \rVert _l,\ s.t.\ \mathbf D=\mathbf A\mathbf Z+\mathbf E$ 其中, $\mathbf A$ 是一个数据空间张成的 “字典 (dictionary)”. 将最小化解 $\mathbf Z^*$ 称为关于字典 $\mathbf A$ 的数据 $\mathbf D$ 的最低秩表示. 在获得最优解 $\left( \mathbf Z^*,\mathbf E^* \right)$ 后, 通过 $\mathbf A\mathbf Z^*$ 或 $(\mathbf D − \mathbf E^*)$ 恢复原始数据. 因此 LRR 是 RPCA 的泛化. 通过选择适当的字典 $\mathbf A$ , 最小化解 $\mathbf Z^*$ 可以恢复潜在行空间, 从而揭示数据的真实分割. 部分文献也会将问题以 “自表示” 的形式直接如下描述: $\min_{\mathbf Z,\mathbf E}\text{rank}\left( \mathbf Z \right) +\lambda \lVert \mathbf E \rVert _l,\ s.t.\ \mathbf D=\mathbf D\mathbf Z+\mathbf E$ 加强 $\mathbf Z$ 的低秩是为了增强 $\mathbf Z$ 列之间的相关性, 从而增强对噪声的鲁棒性.

核范数 (nuclear norm): $\lVert A \rVert _*=\text{trace}\left( \sqrt{A'A} \right) =\sum_{i=1}^{\min \left\{ m,n \right\}}{\sigma _i},\ A=\left[ a_{ij} \right] _{n\times m}$ . $\sigma _i$ 是矩阵 $A$ 的奇异值.

$\mathcal l_{i,j}$ -范数: 矩阵的所有列的 i-范数的 j-范数, 记为 $\lVert \cdot \rVert_{i,j}$ . 例如, $\mathcal l_{2,1}$ -范数 $\lVert \cdot \rVert_{2,1}$ 表示为矩阵的所有列的 2-范数的加和.

矩阵秩的最小化问题是个 NP 难问题, 通常会使用核范数替代矩阵的秩. 试验表明, $\mathcal l_{2,1}$ -范数对离群点和小噪声都是十分有效的. 因此 LRR 优化问题也可以写成: $\min_{\mathbf Z,\mathbf E} \lVert \mathbf Z \rVert _*+\lambda \lVert \mathbf E \rVert _l,\ s.t.\ \mathbf D=\mathbf A\mathbf Z+\mathbf E$ 当采样数据过少, 至于无法描述数据的子空间结构 (采样自子空间 $\mathcal{S}_i$ 中的数据点个数 $N_i$ 小于子空间的维数 $s_l$ ), 模型 LRR 的优化解退化为单位矩阵. 为了解决这些问题, 分别提出隐式低秩表示 (Latent LRR, LLRR) 和固定秩表示 (Fixed Rank Representation, FRR).

隐式低秩表示:
将数据 $\mathbf D$ 分为两个部分: 可观测到的 $\mathbf D_O$ 和隐藏的 $\mathbf D_H$ , 即 $\mathbf D = [\mathbf D_O,\mathbf D_H]$ . 对 $\mathbf D$ 进行奇异值分解 $\mathbf D=\mathbf {U\Sigma V}$ , 根据数据将 $\mathbf V$ 分解为 $\mathbf V=[\mathbf V_O; \mathbf V_H]$ . 于是 LRR 问题可以描述:
$\min_{\mathbf Z} \lVert \mathbf Z \rVert _*,\ s.t.\ \mathbf D_O=\left[ \mathbf D_O,\mathbf D_H \right] \mathbf Z$ 并给出 LRR 约束可以描述为: $\mathbf D= \mathbf {DZ}+\mathbf {LD}$ 其中, $\mathbf L=\mathbf {U\Sigma V'_H \Sigma^{-1}U' }$ , $\mathbf Z=\mathbf {V_O V'_O}$ . 从而 LLRR 问题描述为: $\min_{\mathbf{Z,L,E}}\lVert \mathbf Z \rVert _*+\lVert \mathbf L \rVert _*+\lambda \lVert \mathbf E \rVert _1,\ s.t.\ \mathbf D=\mathbf {DZ}+\mathbf {LD}+\mathbf E.$

固定秩表示:
如果采样不充分, 数据矩阵行空间的维数可能与样本的个数相同. 在这种情况下, 无噪声 LRR 的最优解退化为单位矩阵. 因此提出固定秩表示, 希望在数据矩阵 $\mathbf D$ 的行空间中, 找到一个秩低于行空间维数的表示矩阵来刻画数据所在子空间之间的关系. 这里给定一个秩小于矩阵 $\mathbf D$ 的行空间维数的矩阵 $\hat{\mathbf Z}$ , $\text{rank} (\hat{\mathbf Z}) =m$ . FRR 描述成: $\min_{\mathbf Z,\hat{\mathbf Z}}\lVert \mathbf Z-\hat{\mathbf Z} \rVert _{ F}^{2},\ s.t.\ \mathbf D=\mathbf {DZ},\ \text{rank}( \hat{\mathbf Z} ) =m.$ 该问题有全局最优的闭式解. 加入噪声后的优化模型为: $\min_{\mathbf Z,\hat{\mathbf Z}}\lVert \mathbf Z-\hat{\mathbf Z} \rVert _{F}^{2} +\mu \lVert \mathbf E \rVert _{2,1}^{2},\ s.t.\ \mathbf D=\mathbf {DZ},\ \text{rank}( \hat{\mathbf Z} ) =m.$

进一步的理论基础内容可以参考张杰 (2015) 第 1.2 节内容.

3. 非线性模型

由于 SSC 和 LRR 等模型是用以处理多个线性子空间数据而提出的, 因此在非线性子空间数据上得不到理想结果 (Shijie Xiao, 2015), 因此需要进一步提出非线性模型. 代表性的非线性模型是基于核的方法, 利用核函数将样本集映射到一个更高维的空间中, 除此之外另一种启发式的方法就是在相应的线性模型中加入拉普拉斯或者超拉普拉斯算子.
虽然对线性模型的修改导致了更强大的非线性模型, 但很难分析它们的性质. 因此, 它们的性能在很大程度上取决于参数的选择.

3.1 核学习

本节参考资料来自论文 (Shijie Xiao, 2015). 首先介绍 “核” 的概念.

核 (Kernel): 对于输入空间的数据 $\{ x_i \}^{n}_{i=1}, x_i \in \mathbb R^d$ , 定义 $\mathbb R^{d \times n}$ 上的矩阵 $\mathbf X = [x_1,...,x_n]$ . 假设核函数为 $K (x, y)$ , 则由 $K_{ij} = K(x_i,x_j), \forall i,j = 1,2,...,n$ 构成的矩阵 $\mathbf K$ 称为 “核矩阵”. 不失一般性, 假设核矩阵是对称的正半定矩阵. 核函数 $K (x, y)$ 引入一个映射 $\phi: \mathbb R^d \rightarrow \mathcal F$ ( $\mathcal F$ 是特征空间), 有 $K\left( x,y \right) =\phi \left( x \right) '\phi \left( y \right) .$ 定义 $\Phi(\mathbf X) = [\phi(x_1),...,\phi(x_n)]$ , 则有核矩阵 $\mathbf K = \Phi(\mathbf X)'\Phi(\mathbf X)$ . 另外, 定义 $r_K$ 表示矩阵 $\mathbf K$ 的秩, 其中 $\le r_K \le n$ . 由于矩阵的对称半正定特性, 可以对矩阵进行 SVD 分解如下: $\mathbf{K}=\mathbf{V\Sigma} ^2\mathbf{V'}$ 其中, $\mathbf{V}$ 是一个正交矩阵 ( $\mathbf{VV'}=\mathbf{V'V}=\mathbf{I}$ ), 对角矩阵 $\mathbf{\Sigma}$ 可以表示为 $\mathbf{\Sigma} =\text{diag}\left( \left[ \sigma _1,...,\sigma _{r_K},0,...,0 \right] \right)$ , 标量 $\sigma _i$ 是矩阵 $\mathbf K$ 的奇异值.

在干净数据中, 从多非线性子空间给定数据 $\{ x_i \}^{n}_{i=1}, x_i \in \mathbb R^d$ , 对给定的映射 $\phi$ , 在新的特征空间上的集合为 $\{ \phi (x_i) \}^{n}_{i=1}$ , 从而可以写出干净数据中的 LRR 的核问题为: $\min_{\mathbf{Z}}\lVert \mathbf{Z} \rVert _*,\ s.t.\ \Phi \left( \mathbf{X} \right) =\Phi \left( \mathbf{X} \right) \mathbf{Z}.$ 该问题的最优解为 $\mathbf{V}_K\mathbf{V}'_K$ , 其中, $\mathbf{V}_K \in \mathbb R^{n\times r_K}$ .

在有噪数据中, 问题被描述成: $\min_{\mathbf{Z,P}}\lVert \mathbf{Z} \rVert _*+\lambda g\left( \mathbf{P} \right) ,\ s.t.\ \mathbf{P}=\mathbf{I}-\mathbf{Z,\ }g\left( \mathbf{P} \right) =\sum_{i=1}^n{\sqrt{\mathbf{p}'_i\mathbf{Kp}_i}}.$ 该问题的推导过程如下: 首先定义噪声 $\mathbf E = \mathbf{X-XZ}$ , 于是问题转化为
$\min_{\mathbf{Z,P}}\lVert \mathbf{Z} \rVert _*+\lambda \lVert \mathbf{X}-\mathbf{XZ} \rVert _{2,1}.$ 于是核问题可以表示成: $\min_{\mathbf{Z}}\lVert \mathbf{Z} \rVert _*+\lambda \lVert \Phi \left( \mathbf{X} \right)-\Phi \left( \mathbf{X} \right)\mathbf{Z} \rVert _{2,1}.$ 定义 $\mathbf{P = I-Z} \in \mathbb R^{n\times n}$ , 于是 $\lVert\Phi \left( \mathbf{X} \right)-\Phi \left( \mathbf{X} \right)\mathbf{Z} \rVert _{2,1} = \lVert \Phi \left( \mathbf{X} \right) \mathbf{P} \rVert _{2,1} = \sum^n_{i=1}\lVert \Phi \left( \mathbf{X} \right)\mathbf{p}_i \rVert _{2,1} = \sum_{i=1}^n{\sqrt{\mathbf{p}'_i\mathbf{Kp}_i}}=g(\mathbf P).$

4. 优化方法

4.1 凸优化方法

目前, 所有大规模计算的优化方法都是一阶方法. 代表性算法有加速近端梯度法 (Accelerated Proximal Gradient, APG)、Frank-Wolfe 算法和交替方向法 (Alternating Direction Method, ADM).

APG 是由 Amir 等人提出用以求解以下问题的方法: $\min_{\mathbf{X}\in \mathbb{R}^n}F\left( \mathbf{X} \right) =f\left( \mathbf{X} \right) +g\left( \mathbf{X} \right)$ 其中, $\mathbb R^n \rightarrow \mathbb R$ 是一个连续凸函数, 但可能是非光滑的; $\mathbb R^n \rightarrow \mathbb R$ 是一个光滑凸函数且满足利普西斯连续梯度条件. APG 方法求解的简要介绍可以参考 Li, et al(2015) 的 2.3 节, 或者该论文的笔记.

ADM 是经典的求解方法, 其基本思想是将大的全局问题分解为多个较小、较容易求解的局部子问题, 并通过协调子问题的解得到大的全局问题的解. 其求解过程可以参考薛旭倩 (2021) 的 2.3 节, 涉及到的拉格朗日增广矩阵的内容可以参考北大文再文老师的讲义.

4.2 非凸优化方法

凸算法具有独立于初始化的优点. 然而, 他们的解决方案的质量可能还不够好. 因此, 探索非凸算法是低秩模型研究的另一个热点. 低秩模型的非凸算法要比凸算法丰富得多, 所付出的代价是它们的性能可能严重依赖于初始化. 在这种情况下, 先验知识对于提出一个好的初始化是很重要.

4.3 随机算法

无论是凸优化方法还是非凸优化方法, 其计算复杂度至少为 $O (r mn)$ ，其中 $m \times n$ 为我们要计算的低秩矩阵的大小. 当 m 和 n 都很大时计算代价就会很大. 为了打破这个瓶颈, 不得不发展随机算法. 然而, 我们不能仅仅通过将确定性算法的每一步随机化来降低整个计算复杂度, 因为有些随机化算法是非常不精确的. 因此, 我们必须根据低秩模型的特点设计随机化算法.