论文阅读笔记（16.append）—— 附录详解：Doubly Stochastic Subspace Clustering

最新推荐文章于 2024-07-20 17:54:14 发布

塔_Tass

最新推荐文章于 2024-07-20 17:54:14 发布

阅读量263

点赞数 1

文章标签：深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/weixin_44876302/article/details/119958974

版权

论文阅读笔记（16.append）：附录详解：双重随机子空间聚类

附录A： A-DSSC (序列近似双重随机子空间聚类)

参考我的上一篇博客，本文为对appendix部分的细读：
论文阅读笔记（16）：Doubly Stochastic Subspace Clustering，双重随机子空间聚类

附录A： A-DSSC (序列近似双重随机子空间聚类)

A.1 A-DSSC对偶问题的梯度

回忆一下，在给定 $C$ 下求解 $A$ 的最优化问题，其中 $A\in\Omega_n$ 是双随机凸集：
在这里插入图片描述

回忆一下A-DSSC的可伸缩有效集方法，通过计算 $A\odot S$ 使用只属于二值支撑集矩阵 $S$ 的 $A$ 对应元素

之后 $\alpha, \beta$ 的引入是用来表示凸集 $\Omega_n$ 中对行和与列和为1的约束：
在这里插入图片描述

转化为了一个min-max问题，在把A看做不变量的情况下，找到能够最大化对行和( $(A\odot S)1-1$ )和列和( $(A\odot S)^\top1-1$ )约束的参数 $\alpha, \beta$ ，然后再求解最小化这样一个加了行列约束的目标函数的A

由于原始问题是凸的且具有严格可行点，Slater条件具有强对偶性，因此这等价于：
在这里插入图片描述
令 $K=|C|-\alpha 1^\top -1\beta^\top$ ：

那么上式（18）的minimize部分的第一项和第三项就可以合并为（19）；
然后提取 $\eta_2$ 得到（20）；
由于 $K$ 与 $A$ 无关所以可以提到min外面得到（21）
$K]_-$ 表示对其元素取 $min\{K,0\}$ ，整流掉正部分

这时我们再把 $K=|C|-\alpha 1^\top -1\beta^\top$ 展开回代到（18）就得到了正文部分的对偶函数形式：

在这里插入图片描述
最佳解 $A$ 的值：

由公式（21）可看出来，对A的minimize部分就是一个二次回归问题，最佳的A应当有： $A=A_\circ\odot S=\frac{1}{\eta_2}K\odot S$ 。没看懂可以回正文看算法2

A.2 有效集方法

这里，我们证明了算法2中的主动集方法在有限多个步骤内收敛到最优解。我们从一个引理开始：

引理 1

令 $S$ 的支撑集中包含了双随机非零模式，并有 $(\alpha_\circ, \beta_\circ)$ 为受限支撑集的对偶问题的解，那么如A.1附录所述： $A_\circ = \frac{1}{\eta_2}[|C|-\alpha_\circ 1^\top -1\beta_\circ^\top]$ 在当且仅当 $A_\circ$ 是双重随机时，是原问题（具有不受限支撑集的）的最优解。

证明
很明显，任何最优解都是双重随机的，因为这是可行性条件。反过来说，假如 $A_\circ$ 是双重随机的。注意，受限支撑集双重目标的次梯度由下式给出：

在这里插入图片描述
这里公式13指：

在这里插入图片描述
在不受限支撑集（即全支撑集）的情况下，次梯度精确测量 $A_\circ$ 的行和列和偏离向量 $\bf 1$ 的程度。由于 $A_\circ$ 是双重随机的，因此行与列的和都为1，自然次梯度为零。因此， $α_\circ$ 和 $β_\circ$ 对于不受限支撑的对偶形式是最优的，这意味着我们可以将最优原始变量恢复为 $\frac{1}{\eta_2}[|C|-\alpha_\circ 1^\top -1\beta_\circ^\top]$ ，这也就是 $A_\circ$ 。

利用这一结果，我们可以直接得到对收敛性和正确性的证明：

命题 2

算法2中的 $A$ 可以在有限步内得到准确结果。
证明
注意到对 $S$ 的初始化给出了一个可行问题。因为支撑集包含一个双重随机的置换（permutation）矩阵。在每次迭代中，我们计算矩阵 $A_\circ=\frac{1}{\eta_2}[|C|-\alpha_\circ 1^\top -1\beta_\circ^\top]$ 。若 $A_\circ$ 是双重随机的，那么正如在引理1所证明的那样，这个在不受限支撑集问题中得到的 $A_\circ$ 是最优的；若 $A_\circ$ 不是双重随机的，那么 $A_\circ\neq A_\circ\odot S$ （因为 $A_\circ\odot S$ 是双重随机的）。因此，支撑集被更新为以前从未见过的新支撑集，严格地说是更大的支撑集。只有有限多个支撑集，所以这个过程只有有限多个迭代，从而证明了我们算法的有限收敛性。

A.3 支撑集初始化

原始的（12）对于具有过多零元素的支撑集 $S$ 的某些选择可能不可行，因为不总是存在具有给定零-非零模式的双随机矩阵。我们希望对支撑集有一个初始化，该初始化既可行，能使我们的算法收敛，又更接近地包含最优 $A$ 的真实支撑集，因此收敛速度快。支撑集 $A$ 的一个合理猜测是每行的前 $k$ 个条目，因为这些条目对目标的内积贡献更大。此外，对于线性分配问题，即限制 $η_2=0$ 的情况，每行的前k个条目已显示为包含高概率解 $A$ 的支撑集。但是，对于大小合理的k，不能保证top-k图是可行的，如下引理所示。
在这里插入图片描述

这是公式12

引理 2

令 $n$ 和 $k$ 为整数且有 $n\geq k\geq 3$ ，

若 $k < n / 2$ ，那么在 $n$ 个节点上存在一个最小度为 $k$ 的图 $G$ ，使得 $G$ 的支撑集中不包含具有双随机矩阵的支撑集。
若 $k\geq n/2$ ，那么在 $n$ 个节点上的任意图的支撑集中都存在一个最小度为 $k$ 的双随机矩阵。

证明
在 $k < n / 2$ 时，有 $n - k > n / 2 > k$ ，考虑如下邻接矩阵图：

在这里插入图片描述
每一行具有 $k$ 个或 $n - 1$ 个1，所以每个节点的度不少于 $k$ 。然而，在这个图的支撑集中不包含置换矩阵的支撑集。这是因为前 $n - k$ 个节点只有 $k$ 个独一无二的邻居，并有 $n - k > k$ 。

现在， $k \geq n / 2$ ，设 $G$ 是 $n$ 个节点上最小度为 $k \geq n / 2$ 的图。在具有至少 $m$ 个节点的连通分量的图中，最小度至少为 $n / 2 \geq m / 2$ 。因此，哈密顿圈的定理指出，每个连接的分量都有一个哈密顿循环（Hamiltonian cycle）——一个访问分量中每个节点的循环。取这些循环的和作为置换矩阵，我们得到了一个包含在这个图的支撑集的置换矩阵，因为置换矩阵是双重随机的。

为某些 $k \geq n / 2$ 选择top-k支撑集初始化违背了有效集方法的目的，因为在该支撑集中的求解仍然需要每个迭代进行 $\mathcal O(n^2)$ 复杂度的计算。在实践中，我们选择了一个小的 $k$ ，这导致了一个可处理的问题大小，并添加了一些随机抽样的排列矩阵来保证支撑集的可行性。

A.4 自表示的计算

对于受限支撑集 $S$ 的一般对偶问题（13），我们只需要计算 $(i, j) \in s u p p (S)$ 的 $C_{ij}$ 。如果内存不足是一个问题，那么这些 $C_{ij}$ 可以在每次迭代中在线计算，或者可以预计算并以 $\mathcal O(|S|)$ 的空间复杂度存储，以更快地进行目标和次梯度的计算。

特别是，通过计算稠密LSR解 $C$ 的子集，或在线计算，我们可以将LSR扩展到更大的数据集，如MNIST和EMNIST。在这些数据集中无法存储整个密集的 $n \times n$ 的 $C$ 。要了解这是如何实现的，请注意，参数为 $γ$ 且没有零对角约束的LSR解（即 $η_1=γ，η_3=0$ 的解）可以如下表示：
在这里插入图片描述
伍德伯里矩阵恒等式将该矩阵化为：

其中我们可以通过 $C_{ij}=X^\top_iMX_j$ 计算。注意到M矩阵是 $d\times d$ 的，在这种计算中，我们不需要生成 $n \times n$ 的矩阵。

附录B： J-DSSC (联合学习双重随机子空间聚类)

B.1 线性ADMM算法求解J-DSSC

我们通过引入附加变量 $Y = A$ 和 $Z = X [C p - C q]$ 来重参数化。这给了我们一个等价的优化目标：

在这里插入图片描述

原问题的优化目标长这样，相当于把 $\Omega_n$ 的三个条件拆开来了，如前所述， $C_p-C_q$ 用来近似 $C$ ， $C_p+C_q$ 用来近似 $∣ C ∣$

那么增广拉格朗日函数则变成了以下形式：

在这里插入图片描述
其中 $\mathcal I_S$ 对应集合 $S$ 的指示函数：当在集合 $S$ 内时为0；当在集合外时为 $\infty$ 。在每次迭代中，我们在 $C_p$ 和 $C_q$ 中采用线性化的ADMM步骤，然后交替地在A、Y和Z上最小化，最后在每个拉格朗日乘子上采用梯度上升步骤。对于步长 $τ > 0$ ， $C_p$ 上的线性化ADMM步长采用梯度下降步长的形式：

在这里插入图片描述
然后应用近端操作器。 $C'_p$ 为梯度下降步骤后 $C_p$ 的中间值，Cp更新为以下的解:

在这里插入图片描述
对于矩阵 $E$ ， $E]_+$ 为 $E$ 的半波整流， $E]_{+,d=0}$ 表示矩阵 $E$ 中所有负项和对角值均被置零。然后，线性化的ADMM更新如下所示：

A、Y、Z上按顺序最小化，保持其他变量不变，并使用每个变量的最新值，其形式如下：

在这里插入图片描述
拉格朗日乘子上的对偶上升步骤采用以下形式：

最后看一下用上面公式得到的J-DSSC算法：
在这里插入图片描述

塔_Tass

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记（16.append）—— 附录详解：Doubly Stochastic Subspace Clustering

论文阅读笔记（16.append）：附录详解：双重随机子空间聚类附录A： A-DSSC (序列近似双重随机子空间聚类)A.1 A-DSSC对偶问题的梯度A.2 有效集方法A.3 支撑集初始化A.4 自表示的计算附录B： J-DSSC (联合学习双重随机子空间聚类)参考我的上一篇博客，本文为对appendix部分的细读：论文阅读笔记（16）：Doubly Stochastic Subspace Clustering，双重随机子空间聚类附录A： A-DSSC (序列近似双重随机子空间聚类)A.1
复制链接

扫一扫