Li, J., Kong, Y., Zhao, H., Yang, J., & Fu, Y. (2016). Learning fast low-rank projection for image classification. IEEE Transactions on Image Processing, 25(10), 4803-4814.
本文是这篇 Trans. on Image Processing 期刊论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。
摘要: 此文论述了之前的论文的 low-rank representation 都是基于 independent image subspaces (IIS) 假设的,它在实际图片中并不实用;因为它限制了不同类别的子字典,不能协同地表达一个图像。此文提出了一种基于 independent label subspaces (ILS) 假设的模型,projective low-rank representation (PLR)。顾名思义,该模型中,训练了一个投影(激活)函数,其输入为原始图像,输出为 low-rank 表示(并不是标签)。优化过程中,加入约束条件,使其加大了类内相似性和类间差异性,有利于分类。
要想看懂此文之前,还需要一点预备知识,可以学习 Alternating Direction Method 1,Singular Value Thresholding 2,Dual Method 3 和 Augmented Lagrange Multiplier (ALM) Method 4。这些方法思想都和很简单。
Q
:标签矩阵(块对角),
1 简介
independent image subspaces (IIS) 假设:图像是严格来自一组互相独立的子空间中。现实世界的图片都是很复杂的,导致了不同类别的子空间不是相互独立的,不满足该假设。所以之前提出的块对角的低秩结构(block-diagonal low-rank representation)是很难实现的。
另外,在监督学习的分类中,类别被直接用来构建块对角矩阵,当作低秩学习的目标。因为标签之间是互斥的,它也阻止了子空间之间的协同表达能力,而强迫遵守 IIS 假设。
independent label subspaces (ILS) 假设:图像标签严格来自一个独立的子空间中。构建标签组成的块对角矩阵
在许多的 low-rank representation 模型优化过程中,计算代价都很大, 尤其是 Singular Value Thresholding (SVT) 操作。为了能快速地从原始图像中获得低秩的表达,此文借鉴了 Kavukcuoglu et al.5,Gregor et al. 6的思想,在优化过程中,训练一个投影(激活)函数
此文的主要贡献有三方面:
PLR 将 IIS 假设松弛到了 ILS 假设。不限制不同类别的子空间之间的协同表达;优化的低秩表示也不需要严格的块对角结构。
低秩优化过程中,低秩的系数矩阵,使得相同类别的表示相似,而不同类别的差异较大,更利于分类。
投影函数实现了快速计算,避免了再次优化。仅需要计算一个乘法,加法和非线性变换。计算复杂度从 O(n2) 降到了 O(n) 。
2 相关工作
略
3 PLR
3.1 模型构建
首先组成一个标签矩阵
Q∈Rm×n
是一个只有 0 和 1、按类别拼成的、块对角矩阵。类似
同样的,此文也将图像按类别拼成一个大矩阵 X∈Rd×n ,其中每一列表示一个 d×1 的图像列向量。考虑一个过完备的标签字典 A∈Rm×r ,其中 m<r 。那么 Q 可以表示为字典的线性组合,
ϵ 是一个小的常数, ||⋅||F 是 Frobenius 范数。模型中的不等式约束,表明了只能求得近似解,而不是精确解。为了建立起 X 到
其中 f(⋅) 是一个非线性激活函数 (element-wise), W∈Rr×d 是权值,而 B=[b,b,⋯,b]∈Rr×n, b∈Rr×1 是一个偏置矩阵,由 n 个相同的
提出的 projective low-rank representation (PLR) 模型定义,如下
λ 是惩罚项系数, ||⋅||2 是 ℓ2 范数。 注意到 PLR 并不能对噪声很有鲁棒性。PLR 不能从 Z 中分离出低秩部分和稀疏噪声标签。因为同一类别的噪声标签不能使用其他标签恢复出来。此文部分这里解释的并不具体,理解不透。
3.2 优化
很明显的是,PLR 模型是非凸的,文中使用増广 Lagrangian 乘子法,原问题转化为无约束的 Lagrangian 函数
其中 α,β 均是 Lagrange 乘子。它们控制投影函数近似的精确程度。接下来,使用交替乘子法进行优化,轮流更新变量 Z,A,W,b ,更新的步骤如下
推导过程很简单。 Z 是通过 SVT 操作(
其中 F=f(WX+B), dF=df(WX+B) ;而 ∑columns(R) 表示将矩阵 R 中的每一列求和,得到一个列向量,(为什么是求和而不是求平均,作者解释:是为了将 平衡
其中 ε 是学习率参数。所有的优化步骤总结与 Algorithm 1 中。
Algorithm 1: PLR
Input: 数据
X
,标签
Initialize: 一些必要的初始化 …
While 迭代次数不够 或 未收敛 do
Step 1: 构建
B=[b,b,⋯,b]∈Rr×n
;
Step 2: 已有
W,b
和
X
,得到
Step 3: 根据
α,Z
,更新
Z
;
Step 4: 已有 F,λ/β ,得到
Step 5: 固定其它变量,更新 W,b 通过梯度下降法;
Step 6: 检查收敛条件, ||Q−Af(WX+B)||∞<ϵ 是否满足;
End While
Return: 输出解 Z,A,W,b 。
3.3 复杂度和收敛性分析
原优化问题是高度非凸的,因为有非线性激活函数存在。
Proposition 1 公式
Af(WX+B)
,其实就可以等价为一个简单的3层神经网络(输入层
X
,权重
使用梯度下降法更新参数。尽管反向传播算不能被证明是能收敛的,但是通常我们认为当目标函数 F 的改变率足够小时,已经达到收敛。Algorithm 1 也很难被证明收敛性,所以我们考虑当 ||Q−Af(WX+B)||∞ 小于一定的阈值或最大迭代次数超出时,算法已经收敛。
结论:没有严格证明 PLR 算法的收敛性。
PLR 的计算瓶颈在 SVD,
O(rn2)
7,在加上矩阵求逆的计算代价
O(nr2)
。在
K
次迭代直至收敛的情况下,总的计算复杂度为
当投影函数已经学习完成,也获得了参数
W,b
和 低秩的
Z
。在测试阶段,有测试数据
其中 Btest=[b,b,⋯,b]∈Rr×n , n 是测试样本的个数(按测试样本数量重新构建)。这一步的计算复杂度是
3.4 PLR 的分类
普通的分类器方法,多变量岭回归(multivariate ridge regression),形式如下
其中 κ 是一个正则系数。上述公式关于 D 是凸的,可以直接求解,
其中 p 是为每一类、真实的标签向量(判定其中与测试样本最相似的一个),
4 PLR 模型分析
略
5 实验
略
简要思路如下:
学习过程:数据和标签 X,Q → PLR 优化 → 得到 Z,A,W,b → 训练多变量岭回归分类参数 D^ ;
预测过程:测试数据 Xtest → 得到 Ztest=f(WXtest+Btest) → 预测标签 ℓ=argmaxi(p==D^zi) 。
值得一提的是,此文虽然是 TOP 期刊发表,但是其中公式有好几处明显的错误。
- Yuan, Xiaoming, and Junfeng Yang. “Sparse and low-rank matrix decomposition via alternating direction methods.” preprint 12 (2009). ↩
- E. Cande`s, J. Cai, and T. Shen, “A Singular Value Thresholding Algorithm for Matrix Completion,” SIAM J. Optimization, vol. 20, no. 4, pp. 1956-1982, 2010. ↩
- Lin, Z., Ganesh, A., Wright, J., Wu, L., Chen, M., & Ma, Y. (2009). Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix. Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), 61. ↩
- Z. Lin, M. Chen, L. Wu, and Y. Ma, “The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices,” Technical Report UILU-ENG-09-2215, Univ. of Illinois at Urbana-Champaign, 2009. ↩
- Kavukcuoglu, Koray, M. Ranzato, and Y. Lecun. “Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition.” Technical report, Computational and Biological Learning Lab, Courant Institute, NYU 2010. ↩
- Gregor, Karol, and Y. Lecun. “Learning Fast Approximations of Sparse Coding.” Proc. International Conference on Machine Learning 2010. ↩
- Lin, Zhouchen, R. Liu, and Z. Su. “Linearized Alternating Direction Method with Adaptive Penalty for Low-Rank Representation.” Advances in Neural Information Processing Systems (2011):612-620. ↩