笔记:Learning Fast Low-Rank Projection for Image Classification

Li, J., Kong, Y., Zhao, H., Yang, J., & Fu, Y. (2016). Learning fast low-rank projection for image classification. IEEE Transactions on Image Processing, 25(10), 4803-4814.
本文是这篇 Trans. on Image Processing 期刊论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。

摘要: 此文论述了之前的论文的 low-rank representation 都是基于 independent image subspaces (IIS) 假设的,它在实际图片中并不实用;因为它限制了不同类别的子字典,不能协同地表达一个图像。此文提出了一种基于 independent label subspaces (ILS) 假设的模型,projective low-rank representation (PLR)。顾名思义,该模型中,训练了一个投影(激活)函数,其输入为原始图像,输出为 low-rank 表示(并不是标签)。优化过程中,加入约束条件,使其加大了类内相似性和类间差异性,有利于分类。

要想看懂此文之前,还需要一点预备知识,可以学习 Alternating Direction Method 1,Singular Value Thresholding 2,Dual Method 3 和 Augmented Lagrange Multiplier (ALM) Method 4。这些方法思想都和很简单。

这里写图片描述
Q :标签矩阵(块对角),A:字典(过完备), Z :系数(低秩),f:投影函数, W :权值,X:原始图像, B :偏置(只有一列,按列扩充)。

1 简介

independent image subspaces (IIS) 假设:图像是严格来自一组互相独立的子空间中。现实世界的图片都是很复杂的,导致了不同类别的子空间不是相互独立的,不满足该假设。所以之前提出的块对角的低秩结构(block-diagonal low-rank representation)是很难实现的。

另外,在监督学习的分类中,类别被直接用来构建块对角矩阵,当作低秩学习的目标。因为标签之间是互斥的,它也阻止了子空间之间的协同表达能力,而强迫遵守 IIS 假设。

independent label subspaces (ILS) 假设:图像标签严格来自一个独立的子空间中。构建标签组成的块对角矩阵 Q,利用过完备字典 A 的线性组合表示。当标签的数量远大于字典的基数时,就可以获得足够的低秩表示 Z(从标签中学得)。个人理解:加入了中间变量,分步优化过程:标签(块对角) Q 字典(过完备) A × 系数(低秩) Z 原始图像 X

在许多的 low-rank representation 模型优化过程中,计算代价都很大, 尤其是 Singular Value Thresholding (SVT) 操作。为了能快速地从原始图像中获得低秩的表达,此文借鉴了 Kavukcuoglu et al.5,Gregor et al. 6的思想,在优化过程中,训练一个投影(激活)函数 f,来避免昂贵的推导过程。投影函数的计算简单,其输入为原始图像 X ,输出为近似的低秩表示 Z。训练该函数时使用简单的梯度下降法。

此文的主要贡献有三方面:

  • PLR 将 IIS 假设松弛到了 ILS 假设。不限制不同类别的子空间之间的协同表达;优化的低秩表示也不需要严格的块对角结构。

  • 低秩优化过程中,低秩的系数矩阵,使得相同类别的表示相似,而不同类别的差异较大,更利于分类。

  • 投影函数实现了快速计算,避免了再次优化。仅需要计算一个乘法,加法和非线性变换。计算复杂度从 O(n2) 降到了 O(n)

2 相关工作

3 PLR

3.1 模型构建

首先组成一个标签矩阵 QRm×n 是一个只有 0 和 1、按类别拼成的、块对角矩阵。类似

Q=111111111.(1)

同样的,此文也将图像按类别拼成一个大矩阵 XRd×n ,其中每一列表示一个 d×1 的图像列向量。考虑一个过完备的标签字典 ARm×r ,其中 m< 。那么 Q 可以表示为字典的线性组合,Q=AZ,其中 ZRr×n 是系数矩阵,也就是我们要优化的低秩部分。接下来,直接给出数学上的优化公式
minZ,A ||Z||s.t. ||QAZ||2F<ϵ.(2)

ϵ 是一个小的常数, ||||F 是 Frobenius 范数。模型中的不等式约束,表明了只能求得近似解,而不是精确解。为了建立起 X Z 的投影关系,定义了如下
Z=f(WX+B),(3)

其中 f() 是一个非线性激活函数 (element-wise), WRr×d 是权值,而 B=[b,b,,b]Rr×n, bRr×1 是一个偏置矩阵,由 n 个相同的 b 列向量组成。此文中只提及了两种激活函数:sigmoid f(a)=1/(1+ea) 和 ReLU f(a)=max(a,0) (简单形式,为了之后的求梯度方便)。

提出的 projective low-rank representation (PLR) 模型定义,如下

minA,W,b s.t. ||Z||+λ(||A||2F+||W||2F+||b||22) Z=f(WX+B),||QAf(WX+B)||2F<ϵ.(4)

λ 是惩罚项系数, ||||2 2 范数。 注意到 PLR 并不能对噪声很有鲁棒性。PLR 不能从 Z 中分离出低秩部分和稀疏噪声标签。因为同一类别的噪声标签不能使用其他标签恢复出来。此文部分这里解释的并不具体,理解不透。

3.2 优化

很明显的是,PLR 模型是非凸的,文中使用増广 Lagrangian 乘子法,原问题转化为无约束的 Lagrangian 函数

minZ,A,W,b ||Z||+λ(||A||2F+||W||2F+||b||22)+α||Zf(WX+B)||2F+β||QAf(WX+B)||2F ,(5)

其中 α,β 均是 Lagrange 乘子。它们控制投影函数近似的精确程度。接下来,使用交替乘子法进行优化,轮流更新变量 Z,A,W,b ,更新的步骤如下
Z=argminZ 1α||Z||+||Zf(WX+B)||2F ,A=argminA λβ||A||2F+||QAf(WX+B)||2F ,W,b=argminW,b F=argminW,b ||QAf(WX+B)||2F+λβ(||W||2F+||b||22)+αβ||Zf(WX+B)||2F .(6)(7)(8)

推导过程很简单。 Z 是通过 SVT 操作(Sa(x)=sign(x)max{|x|a,0})解得,而 A 也可以求出闭式解。通过使用梯度下降法,不断地最小化 W,b (原文中公式符号错误,现已修正,见红色的“ ”)
FW=2λβW+2[dF(ATAFATQ)]XT 2αβ[dF(ZF)]XT,Fb=2λβb+2columns([dF(ATAFATQ)]αβ[dF(ZF)]).(9)(10)

其中 F=f(WX+B), dF=df(WX+B) ;而 columns(R) 表示将矩阵 R 中的每一列求和,得到一个列向量,(为什么是求和而不是求平均,作者解释:是为了将 平衡 b 的梯度和 W 的梯度的作用,两者都是对应着所有的样本计算的); 是 element-wise 乘法。激活函数的梯度(也是 element-wise 的),sigmoid: df(a)=f(a)(1f(a)) ; ReLU: df(a)=1(a>0) 0(a0) 。梯度下降的更新公式为
W=WεFW, b=bεFb,(11)

其中 ε 是学习率参数。所有的优化步骤总结与 Algorithm 1 中。


Algorithm 1: PLR

Input: 数据 X ,标签 Q,参数 α,β,λ,ε
Initialize: 一些必要的初始化 …
While 迭代次数不够未收敛 do
  Step 1: 构建 B=[b,b,,b]Rr×n
  Step 2: 已有 W,b X ,得到 F=f(WX+B)
  Step 3: 根据 α,Z ,更新 Z
  

  (U,Σ,V)=svd(Z), Z=US1/α(Σ)VT;  

  Step 4: 已有 F,λ/β ,得到
  

A=QFT(FFT+λ/βI)1;

  Step 5: 固定其它变量,更新 W,b 通过梯度下降法;
  Step 6: 检查收敛条件, ||QAf(WX+B)||<ϵ 是否满足;
End While
Return: 输出解 Z,A,W,b


3.3 复杂度和收敛性分析

原优化问题是高度非凸的,因为有非线性激活函数存在。
Proposition 1 公式 Af(WX+B) ,其实就可以等价为一个简单的3层神经网络(输入层 X ,权重 W,b,隐含层 f ,权值 A,输出层 Q )。当隐含层的单元数足够多时(W 的维度足够大),其拟合函数的能力足够强。

使用梯度下降法更新参数。尽管反向传播算不能被证明是能收敛的,但是通常我们认为当目标函数 F 的改变率足够小时,已经达到收敛。Algorithm 1 也很难被证明收敛性,所以我们考虑当 ||QAf(WX+B)|| 小于一定的阈值或最大迭代次数超出时,算法已经收敛。

结论:没有严格证明 PLR 算法的收敛性。

PLR 的计算瓶颈在 SVD, O(rn2) 7,在加上矩阵求逆的计算代价 O(nr2) 。在 K 次迭代直至收敛的情况下,总的计算复杂度为 O(K(rn2+nr2))

当投影函数已经学习完成,也获得了参数 W,b 和 低秩的 Z 。在测试阶段,有测试数据 Xtest,可以快速计算

Ztest=f(WXtest+Btest),(12)

其中 Btest=[b,b,,b]Rr×n n 是测试样本的个数(按测试样本数量重新构建)。这一步的计算复杂度是 O(rn),与 n 呈线性关系。

3.4 PLR 的分类

普通的分类器方法,多变量岭回归(multivariate ridge regression),形式如下

D^=argminD||QDZ||2F+κ||D||2F ,(13)

其中 κ 是一个正则系数。上述公式关于 D 是凸的,可以直接求解,D^=QZT(ZZT+κI)1。假设有一个样本 zi ,预测其标签
=argmaxi(p==D^zi),(14)

其中 p 是为每一类、真实的标签向量(判定其中与测试样本最相似的一个),zi 是一个测试样本, Ztest 中的某一个列向量。

4 PLR 模型分析

5 实验

简要思路如下:

学习过程:数据和标签 X,Q PLR 优化 得到 Z,A,W,b 训练多变量岭回归分类参数 D^

预测过程:测试数据 Xtest 得到 Ztest=f(WXtest+Btest) 预测标签 =argmaxi(p==D^zi)

值得一提的是,此文虽然是 TOP 期刊发表,但是其中公式有好几处明显的错误。


  1. Yuan, Xiaoming, and Junfeng Yang. “Sparse and low-rank matrix decomposition via alternating direction methods.” preprint 12 (2009).
  2. E. Cande`s, J. Cai, and T. Shen, “A Singular Value Thresholding Algorithm for Matrix Completion,” SIAM J. Optimization, vol. 20, no. 4, pp. 1956-1982, 2010.
  3. Lin, Z., Ganesh, A., Wright, J., Wu, L., Chen, M., & Ma, Y. (2009). Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix. Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), 61.
  4. Z. Lin, M. Chen, L. Wu, and Y. Ma, “The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices,” Technical Report UILU-ENG-09-2215, Univ. of Illinois at Urbana-Champaign, 2009.
  5. Kavukcuoglu, Koray, M. Ranzato, and Y. Lecun. “Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition.” Technical report, Computational and Biological Learning Lab, Courant Institute, NYU 2010.
  6. Gregor, Karol, and Y. Lecun. “Learning Fast Approximations of Sparse Coding.” Proc. International Conference on Machine Learning 2010.
  7. Lin, Zhouchen, R. Liu, and Z. Su. “Linearized Alternating Direction Method with Adaptive Penalty for Low-Rank Representation.” Advances in Neural Information Processing Systems (2011):612-620.
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值