笔记：Learning Fast Low-Rank Projection for Image Classification

最新推荐文章于 2021-11-25 09:51:52 发布

XueShengke

最新推荐文章于 2021-11-25 09:51:52 发布

阅读量1.4k

点赞数

分类专栏：图像处理稀疏表示文章标签： Low-Rank Projective 图像分类

图像处理同时被 2 个专栏收录

13 篇文章 8 订阅

订阅专栏

稀疏表示

12 篇文章 2 订阅

订阅专栏

Li, J., Kong, Y., Zhao, H., Yang, J., & Fu, Y. (2016). Learning fast low-rank projection for image classification. IEEE Transactions on Image Processing, 25(10), 4803-4814.
本文是这篇 Trans. on Image Processing 期刊论文的笔记，主要是对文中的理论方法进行展开详解。本人学术水平有限，文中如有错误之处，敬请指正。

摘要： 此文论述了之前的论文的 low-rank representation 都是基于 independent image subspaces (IIS) 假设的，它在实际图片中并不实用；因为它限制了不同类别的子字典，不能协同地表达一个图像。此文提出了一种基于 independent label subspaces (ILS) 假设的模型，projective low-rank representation (PLR)。顾名思义，该模型中，训练了一个投影（激活）函数，其输入为原始图像，输出为 low-rank 表示（并不是标签）。优化过程中，加入约束条件，使其加大了类内相似性和类间差异性，有利于分类。

要想看懂此文之前，还需要一点预备知识，可以学习 Alternating Direction Method 1，Singular Value Thresholding 2，Dual Method 3 和 Augmented Lagrange Multiplier (ALM) Method 4。这些方法思想都和很简单。

这里写图片描述
$Q$ ：标签矩阵（块对角）， $A$ ：字典（过完备）， $Z$ ：系数（低秩）， $f$ ：投影函数， $W$ ：权值， $X$ ：原始图像， $B$ ：偏置（只有一列，按列扩充）。

1 简介

independent image subspaces (IIS) 假设：图像是严格来自一组互相独立的子空间中。现实世界的图片都是很复杂的，导致了不同类别的子空间不是相互独立的，不满足该假设。所以之前提出的块对角的低秩结构（block-diagonal low-rank representation）是很难实现的。

另外，在监督学习的分类中，类别被直接用来构建块对角矩阵，当作低秩学习的目标。因为标签之间是互斥的，它也阻止了子空间之间的协同表达能力，而强迫遵守 IIS 假设。

independent label subspaces (ILS) 假设：图像标签严格来自一个独立的子空间中。构建标签组成的块对角矩阵 $Q$ ，利用过完备字典 $A$ 的线性组合表示。当标签的数量远大于字典的基数时，就可以获得足够的低秩表示 $Z$ （从标签中学得）。个人理解：加入了中间变量，分步优化过程：标签（块对角） $Q$ $\leftarrow$ 字典（过完备） $A$ $\times$ 系数（低秩） $Z$ $\leftarrow$ 原始图像 $X$ 。

在许多的 low-rank representation 模型优化过程中，计算代价都很大，尤其是 Singular Value Thresholding (SVT) 操作。为了能快速地从原始图像中获得低秩的表达，此文借鉴了 Kavukcuoglu et al.5，Gregor et al. 6的思想，在优化过程中，训练一个投影（激活）函数 $f$ ，来避免昂贵的推导过程。投影函数的计算简单，其输入为原始图像 $X$ ，输出为近似的低秩表示 $Z$ 。训练该函数时使用简单的梯度下降法。

此文的主要贡献有三方面：

PLR 将 IIS 假设松弛到了 ILS 假设。不限制不同类别的子空间之间的协同表达；优化的低秩表示也不需要严格的块对角结构。
低秩优化过程中，低秩的系数矩阵，使得相同类别的表示相似，而不同类别的差异较大，更利于分类。
投影函数实现了快速计算，避免了再次优化。仅需要计算一个乘法，加法和非线性变换。计算复杂度从 $O(n^2)$ 降到了 $O(n)$ 。

2 相关工作

略

3 PLR

3.1 模型构建

首先组成一个标签矩阵 $Q \in \mathbb{R}^{m \times n}$ 是一个只有 0 和 1、按类别拼成的、块对角矩阵。类似

$Q = ⎡ ⎣ ⎢ 111111111 ⎤ ⎦ ⎥ . (1)$ $\begin{equation} \tag{1} Q = \begin{bmatrix} 1 & 1 & 1 \\ & & & 1 & 1 & 1 \\ & & & & & & 1 & 1 & 1 \\ \end{bmatrix}. \end{equation}$
同样的，此文也将图像按类别拼成一个大矩阵 $X \in \mathbb{R}^{d \times n}$ ，其中每一列表示一个 $d \times 1$ 的图像列向量。考虑一个过完备的标签字典 $A \in \mathbb{R}^{m \times r}$ ，其中 $m <ｒ$ 。那么 $Q$ 可以表示为字典的线性组合， $Q=AZ$ ，其中 $Z \in \mathbb{R}^{r \times n}$ 是系数矩阵，也就是我们要优化的低秩部分。接下来，直接给出数学上的优化公式
$min Z, A | | Z | | * s . t . | | Q - A Z | | 2 F < ϵ . (2)$ $\begin{equation} \tag{2} \min_{Z,A} \ ||Z||_* \quad \mathrm{s.t.} \ ||Q-AZ||_F^2 < \epsilon. \end{equation}$
$\epsilon$ 是一个小的常数， $||\cdot||_F$ 是 Frobenius 范数。模型中的不等式约束，表明了只能求得近似解，而不是精确解。为了建立起 $X$ 到 $Z$ 的投影关系，定义了如下
$Z = f (W X + B), (3)$ $\begin{equation} \tag{3} Z = f(WX+B), \end{equation}$
其中 $f(\cdot)$ 是一个非线性激活函数 (element-wise)， $W \in \mathbb{R}^{r \times d}$ 是权值，而 $B = [b,b,\cdots,b] \in \mathbb{R}^{r \times n}, \ b \in \mathbb{R}^{r \times 1}$ 是一个偏置矩阵，由 $n$ 个相同的 $b$ 列向量组成。此文中只提及了两种激活函数：sigmoid $f(a)=1/(1+e^{-a})$ 和 ReLU $f(a) = \max(a, 0)$ （简单形式，为了之后的求梯度方便）。

提出的 projective low-rank representation (PLR) 模型定义，如下

$min A, W, b s . t . | | Z | | * + λ (| | A | | 2 F + | | W | | 2 F + | | b | | 22) Z = f (W X + B), | | Q - A f (W X + B) | | 2 F < ϵ . (4)$ $\begin{align} \min_{A,W,b} \ & ||Z||_* + \lambda \left(||A||_F^2 + ||W||_F^2 + ||b||_2^2 \right) \\ \mathrm{s.t.} \ &\ Z = f(WX + B), \tag{4} \\ & ||Q - A f(WX+B)||_F^2 < \epsilon. \end{align}$
$\lambda$ 是惩罚项系数， $||\cdot||_2$ 是 $\ell_2$ 范数。注意到 PLR 并不能对噪声很有鲁棒性。PLR 不能从 $Z$ 中分离出低秩部分和稀疏噪声标签。因为同一类别的噪声标签不能使用其他标签恢复出来。此文部分这里解释的并不具体，理解不透。

3.2 优化

很明显的是，PLR 模型是非凸的，文中使用増广 Lagrangian 乘子法，原问题转化为无约束的 Lagrangian 函数

$min Z, A, W, b | | Z | | * + λ (| | A | | 2 F + | | W | | 2 F + | | b | | 22) + α | | Z - f (W X + B) | | 2 F + β | | Q - A f (W X + B) | | 2 F, (5)$ $\begin{align} \tag{5} \min_{Z,A,W,b} \ ||Z||_* + \lambda \left(||A||_F^2 + ||W||_F^2 + ||b||_2^2 \right) + \alpha || Z - f(WX+B) ||_F^2 + \beta || Q - A f(WX+B) ||_F^2 \ , \end{align}$
其中 $\alpha,\beta$ 均是 Lagrange 乘子。它们控制投影函数近似的精确程度。接下来，使用交替乘子法进行优化，轮流更新变量 $Z,A,W,b$ ，更新的步骤如下
$Z = arg min Z 1 α | | Z | | * + | | Z - f (W X + B) | | 2 F, A = arg min A λ β | | A | | 2 F + | | Q - A f (W X + B) | | 2 F, W, b = arg min W, b F = arg min W, b | | Q - A f (W X + B) | | 2 F + λ β (| | W | | 2 F + | | b | | 22) + α β | | Z - f (W X + B) | | 2 F . (6) (7) (8)$ $\begin{align} & Z = \arg\min_Z \ \frac{1}{\alpha} ||Z||_* + ||Z - f(WX + B)||_F^2 \ , \tag{6} \\ & A = \arg\min_A \ \frac{\lambda}{\beta} ||A||_F^2 + ||Q - A f(WX + B)||_F^2 \ , \tag{7} \\ & W,b = \arg\min_{W,b} \ \mathbb{F} = \arg\min_{W,b} \ ||Q - Af(WX + B)||_F^2 \\ & \qquad + \frac{\lambda}{\beta} \left( ||W||_F^2 + ||b||_2^2 \right) + \frac{\alpha}{\beta} ||Z - f(WX + B)||_F^2 \ . \tag{8} \end{align}$
推导过程很简单。 $Z$ 是通过 SVT 操作（ $S_a(x) = \mathrm{sign}(x) \cdot \max \{ |x| - a, 0 \}$ ）解得，而 $A$ 也可以求出闭式解。通过使用梯度下降法，不断地最小化 $W,b$ （原文中公式符号错误，现已修正，见红色的“ ${\color{red} -}$ ”）
$\partial F \partial W = 2 λ β W + 2 [d F \circ (A T A F - A T Q)] X T - 2 α β [d F \circ (Z - F)] X T, \partial F \partial b = 2 λ β b + 2 \sum c o l u m n s ([d F \circ (A T A F - A T Q)] - α β [d F \circ (Z - F)]) . (9) (10)$ $\begin{align} \frac{\partial \mathbb{F}}{\partial W} = 2 \frac{\lambda}{\beta} W + 2 \left[ \mathrm{d} \mathbf{F} \circ (A^T A \mathbf{F}-A^T Q)\right] X^T {\color{red} -}\ 2\frac{\alpha}{\beta} \left[ \mathrm{d} \mathbf{F} \circ (Z - \mathbf{F})\right] X^T , \tag{9} \\ \frac{\partial \mathbb{F}}{\partial b} = 2 \frac{\lambda}{\beta} b + 2 \sum_{columns} \left( \left[ \mathrm{d} \mathbf{F} \circ (A^T A \mathbf{F}-A^T Q) \right] {\color{red} -} \frac{\alpha}{\beta} \left[ \mathrm{d} \mathbf{F} \circ (Z - \mathbf{F})\right] \right). \tag{10} \end{align}$
其中 $\mathbf{F} = f(WX+B),\ \mathrm{d} \mathbf{F} = \mathrm{d} f(WX+B)$ ；而 $\sum_{columns} (R)$ 表示将矩阵 $R$ 中的每一列求和，得到一个列向量，（为什么是求和而不是求平均，作者解释：是为了将平衡 $b$ 的梯度和 $W$ 的梯度的作用，两者都是对应着所有的样本计算的）； $\circ$ 是 element-wise 乘法。激活函数的梯度（也是 element-wise 的），sigmoid: $\mathrm{d} f(a) = f(a) (1 - f(a))$ ; ReLU: $\mathrm{d} f(a) = 1(a>0)$ 或 $0 (a \leq 0)$ 。梯度下降的更新公式为
$W = W - ε \partial F \partial W, b = b - ε \partial F \partial b, (11)$ $\begin{align} \tag{11} W = W - \varepsilon \frac{\partial \mathbb{F}}{\partial W}, \ b = b - \varepsilon \frac{\partial \mathbb{F}}{\partial b}, \end{align}$
其中 $\varepsilon$ 是学习率参数。所有的优化步骤总结与 Algorithm 1 中。

Algorithm 1: PLR

Input: 数据 $X$ ，标签 $Q$ ，参数 $\alpha,\beta,\lambda,\varepsilon$ 。
Initialize: 一些必要的初始化 …
While 迭代次数不够 或 未收敛 do
　　Step 1: 构建 $B = [b,b,\cdots,b] \in \mathbb{R}^{r \times n}$ ；
　　Step 2: 已有 $W,b$ 和 $X$ ，得到 $\mathbf{F} = f(WX +B)$ ；
　　Step 3: 根据 $\alpha, Z$ ，更新 $Z$ ；
　　
$(U, Σ, V) = svd (Z), Z = U S 1 / α (Σ) V T;$ $\begin{equation} 　　(U, \Sigma, V) = \text{svd}(Z), \ Z = U S_{1/\alpha} (\Sigma) V^T; 　　\end{equation}$
　　Step 4: 已有 $\mathbf{F}, \lambda/\beta$ ，得到
　　
$A = Q F T (F F T + λ / β I) - 1;$ $\begin{equation} A = Q \mathbf{F}^T (\mathbf{F} \mathbf{F}^T + \lambda / \beta \, \mathbf{I})^{-1}; \end{equation}$
　　Step 5: 固定其它变量，更新 $W,b$ 通过梯度下降法；
　　Step 6: 检查收敛条件， $||Q-A f(WX+B)||_\infty < \epsilon$ 是否满足；
End While
Return: 输出解 $Z,A,W,b$ 。

3.3 复杂度和收敛性分析

原优化问题是高度非凸的，因为有非线性激活函数存在。
Proposition 1 公式 $Af(WX+B)$ ，其实就可以等价为一个简单的3层神经网络（输入层 $X$ ，权重 $W, b$ ，隐含层 $f$ ，权值 $A$ ，输出层 $Q$ ）。当隐含层的单元数足够多时（ $W$ 的维度足够大），其拟合函数的能力足够强。

使用梯度下降法更新参数。尽管反向传播算不能被证明是能收敛的，但是通常我们认为当目标函数 $\mathbb{F}$ 的改变率足够小时，已经达到收敛。Algorithm 1 也很难被证明收敛性，所以我们考虑当 $||Q-A f(WX+B)||_\infty$ 小于一定的阈值或最大迭代次数超出时，算法已经收敛。

结论：没有严格证明 PLR 算法的收敛性。

PLR 的计算瓶颈在 SVD， $O(rn^2)$ 7，在加上矩阵求逆的计算代价 $O(nr^2)$ 。在 $K$ 次迭代直至收敛的情况下，总的计算复杂度为 $O(K(rn^2 +nr^2))$ 。

当投影函数已经学习完成，也获得了参数 $W,b$ 和低秩的 $Z$ 。在测试阶段，有测试数据 $X_{test}$ ，可以快速计算

$Z t e s t = f (W X t e s t + B t e s t), (12)$ $\begin{equation} \tag{12} Z_{test} = f(WX_{test} + B_{test}), \end{equation}$
其中 $B_{test} = [b,b,\cdots,b] \in \mathbb{R}^{r \times n}$ ， $n$ 是测试样本的个数（按测试样本数量重新构建）。这一步的计算复杂度是 $O(rn)$ ，与 $n$ 呈线性关系。

3.4 PLR 的分类

普通的分类器方法，多变量岭回归（multivariate ridge regression），形式如下

$D^= arg min D | | Q - D Z | | 2 F + κ | | D | | 2 F, (13)$ $\begin{equation} \tag{13} \hat{D} = \arg\min_D ||Q-DZ||_F^2 + \kappa ||D||_F^2 \ , \end{equation}$
其中 $\kappa$ 是一个正则系数。上述公式关于 $D$ 是凸的，可以直接求解， $\hat{D} = QZ^T(ZZ^T + \kappa \, \mathbf{I})^{-1}$ 。假设有一个样本 $z_i$ ，预测其标签
$ℓ = arg max i (p = = D^z i), (14)$ $\begin{equation} \tag{14} \ell = \arg\max_i \left( p == \hat{D} z_i \right), \end{equation}$
其中 $p$ 是为每一类、真实的标签向量（判定其中与测试样本最相似的一个）， $z_i$ 是一个测试样本， $Z_{test}$ 中的某一个列向量。

4 PLR 模型分析

略

5 实验

略

简要思路如下：

学习过程：数据和标签 $X,Q$ $\rightarrow$ PLR 优化 $\rightarrow$ 得到 $Z,A,W,b$ $\rightarrow$ 训练多变量岭回归分类参数 $\hat{D}$ ；

预测过程：测试数据 $X_{test}$ $\rightarrow$ 得到 $Z_{test} = f(WX_{test} + B_{test})$ $\rightarrow$ 预测标签 $\ell = \arg\max_i\left( p == \hat{D} z_i \right)$ 。

值得一提的是，此文虽然是 TOP 期刊发表，但是其中公式有好几处明显的错误。

Yuan, Xiaoming, and Junfeng Yang. “Sparse and low-rank matrix decomposition via alternating direction methods.” preprint 12 (2009). ↩
E. Cande`s, J. Cai, and T. Shen, “A Singular Value Thresholding Algorithm for Matrix Completion,” SIAM J. Optimization, vol. 20, no. 4, pp. 1956-1982, 2010. ↩
Lin, Z., Ganesh, A., Wright, J., Wu, L., Chen, M., & Ma, Y. (2009). Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix. Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), 61. ↩
Z. Lin, M. Chen, L. Wu, and Y. Ma, “The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices,” Technical Report UILU-ENG-09-2215, Univ. of Illinois at Urbana-Champaign, 2009. ↩
Kavukcuoglu, Koray, M. Ranzato, and Y. Lecun. “Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition.” Technical report, Computational and Biological Learning Lab, Courant Institute, NYU 2010. ↩
Gregor, Karol, and Y. Lecun. “Learning Fast Approximations of Sparse Coding.” Proc. International Conference on Machine Learning 2010. ↩
Lin, Zhouchen, R. Liu, and Z. Su. “Linearized Alternating Direction Method with Adaptive Penalty for Low-Rank Representation.” Advances in Neural Information Processing Systems (2011):612-620. ↩

XueShengke

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
笔记：Learning Fast Low-Rank Projection for Image Classification

本文是这篇 Trans. on Image Processing 期刊论文的笔记，主要是对文中的理论方法进行展开详解。本人学术水平有限，文中如有错误之处，敬请指正。
复制链接

扫一扫