笔记:Learning Robust and Discriminative Subspace With Low-Rank Constraints

本文介绍了一种名为SRRS的监督学习方法,该方法结合低秩约束,从噪声数据中学习健壮且有区分性的子空间。SRRS利用标签信息增强子空间的判别能力,通过优化算法解决带有正交约束的秩最小化问题,适用于降维和分类任务。
摘要由CSDN通过智能技术生成

Li, S. and Y. Fu, Learning Robust and Discriminative Subspace With Low-Rank Constraints. IEEE Transactions on Neural Networks and Learning Systems, 2016. 27(11): p. 2160-2173.
本文是这篇 Trans. on NNLS 期刊论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。

摘要: 此文目标是学习健壮的、有区分的子空间,从噪声数据中。子空间学习大量用于提取有辨别力的特征,用于分类。此文提出的一个由判别力的子空间学习方法 supervised regularization-based robust subspace (SRRS) 方法,结合了 low-rank 约束。SRRS 找出噪声数据的 low-rank 表示,同时从恢复的数据中学习出有判别的子空间。监督约束函数使用了标签信息,增强了子空间的区分度。此方法是一个带约束的 rank 最小化问题,设计采用増广 Lagrange 乘子法解决。强调,此文学习了一个低维的子空间,并显示地结合了监督信息。

1 简介

简短地提及了多种子空间学习的方法,PCA,LDA,LPPs,NPE,LSDA,DLA。其基本思想是找到一个低维的投影,满足某些性质。PCA 是非监督的,使得投影后的样本的方差最大化,而 LPP 和 NPE 保留了样本的局部关系。有了类别标签之后,有监督的方法适合于分类。LDA 旨在找到一个投影,同时使样本的类间差异最大,而类内的差异最小。它提取了有判别性的特征用于分类。这些方法在干净的数据上是效果很理想,但是当有一定的噪声和变化之后,其效果就变差了。

Sparse representation (SR) 稀疏表达是经典的,被用于处理噪声数据的问题。其一些方法没有考虑到数据的全局结构,它们对噪声不鲁棒,而且不能够提取出干净的数据。

Low-rank 模型是 SR 的扩展,最近被关注,可以恢复出隐含的数据结构。当数据只属于一个类别时, RPCA 就通过最小化矩阵的秩,恢复出原始的数据。其变形有 LRR 和 Latent LRR 。low-rank 模型通常有很大的计算负担,一个分而治之 (divide and conquer)的思想 1 2,使它们能扩展到大数据集。

目前,很少有方法在 low-rank 学习中使用标签信息;传统的子空间学习方法有假设数据的分布,对一些噪声数据很敏感。此文平衡了监督子空间学习和 low-rank 模型用于分类的优点。

此文的主要贡献有:

  • 此文找出一个判别性的、强健的子空间,对噪声、姿势、光照变化不敏感,用于降维和分类。

  • 提出的 supervised regularization-based robust subspace (SRRS) 方法,从噪声的数据中学习到 low-rank representation,同时从干净的数据里学习一个判别性的子空间。

  • 为了提升分类的性能,自然加入了类别的标签信息,于目标函数的监督约束中。

这里写图片描述

2 相关工作

3 SRRS

3.1 模型构建

X 表示属于 c 类的 n 个样本,X=[x1,x2,,xn]。有了一个完备基矩阵 A=[a1,a2,,am]Rd×m ,用基的线性组合表示样本

X=AZ(1)

其中 ZRm×n 是系数。为了找出一个鲁棒的子空间,首先定义投影的低维的样本 X~=PTX=PTAZ 。接着,依次结合低秩约束和监督约束来学习投影 P 。已知 n 个样本属于 c 个类别,有 nc ; 系数矩阵 Z 应该是 low-rank 的;换一句话说,Z 中的系数向量(属于同样的类别)应该是非常相关的。

因为标签信息对于分类是非常重要的,此文设计了一个监督约束项 f(P,Z) 基于 Fisher criterion 3 f(P,Z)=[tr(SB(PTAZ))/tr(SW(PTAZ))] ,其中 tr() 是迹函数, SB(), SW() 分别是类间散度和类内散度,

SB(PTAZ)SW(PTAZ)=SB(X~)=i=1cni(mim)(mim)T,=SW(X~)=i=1cj=1ni(x~ijmi)(x~ijmi)T,(2)(3)

其中 mi 是样本 X~ 中第 i 类的均值, m 是所有样本 X~ 的均值, x~ij 是所有数据中第 i 类中、第 j 个样本。通过 Fisher criterion,投影后的样本,不同类别之间间隔较远,相同类别的样本更接近。而且,Guo et al. 4 指出迹的比值问题可以转化为迹的差问题,所以重写 f¯(P,Z)=[tr(SW(PTAZ))tr(SB(PTAZ))] 。基于此,提出优化目标函数
minZ,P rank(Z)+λ1f¯(P,Z),  s.t. X=AZ,(4)

其中,参数 λ1 平衡上述两项的作用。

但是上述问题很难直接求解,因为 rank() 是非凸的。于是核范数(矩阵的奇异值之和)用于代替它,问题变成了

minZ,P ||Z||+λ1f¯(P,Z),  s.t. X=AZ.(5)

此文也注意到, f¯(P,Z) 关于 Z 也是非凸的,所以可以加入一个额外的项,保证凸性
f^(P,Z)=tr(SW)tr(SB)+η||PTAZ||2F .(6)

此文将上式转化为矩阵形式,(Appendix 理论上证明 f^(P,Z) 关于 Z 的凸性)
f^(P,Z)=||PTAZ(IHb)||2F||PTAZ(HbHt)||2F+η||PTAZ||2F ,(7)

其中 η 是权衡参数, ||||2F 是 Frobenius 范数, IRn×n 是单位矩阵, Hb,Ht 是两个常系数矩阵。具体地,当 xi,xj 属于同一类别时, Hb(i,j)=(1/nc) nc 是一个类别中样本的个数;否则,当 xi,xj 不属于同一类别时, Hb(i,j)=0 。而 Ht(i,j)=(1/n) 。现在监督约束项 f^(P,Z) 是关于 Z 凸的。

为了保证子空间的投影是正交的,PTP=I 约束也加入,其中 IRp×p 。现在写出新的优化目标函数

minZ,P s.t. ||Z||+λ1(||PTAZ(IHb)||2F||PTAZ(HbHt)||2F+η||PTAZ||2F) X=AZ, PTP=I .(8)

此目标函数关于 P 还不是凸的,因为正交约束 PTP=I 。此文采用 2,1 范数( ||E||2,1=nj=1di=1([E]ij)2 ),模拟数据中包含的噪声。它有如下 3 个性质:1) ||αE||2,1=|α|||E||2,1 ,其中 α 是一个实标量;2) 三角不等式, ||B+E||2,1||B||2,1+||E||2,1 ;3) 存在零向量,如果 ||E||2,1=0 ,那么 A=0 。它使得 E 中的某一些列为 0,这个假设在此文中就是某些数据被损坏,而另一些没有(数据矩阵 X 中,列代表样本的个数)。我们有了约束 X=AZ+E ,将目标函数重写
minZ,E,P s.t. ||Z||+λ2||E||2,1+λ1(||PTAZ(IHb)||2F||PTAZ(HbHt)||2F+η||PTAZ||2F) X=AZ+E, PTP=I .(9)

3.2 优化算法

此文采用经典的増广 Lagrange 乘子法 (inexact ALM algorithm) 5。为了求解方便,加入一个松弛变量 Z=J ,原问题转化为

minZ,E,P,J s.t. ||J||+λ2||E||2,1+λ1(||PTAZ(IHb)||2F||PTAZ(HbHt)||2F+η||PTAZ||2F) X=AZ+E, PTP=I, Z=J.(10)

将其约束加入目标函数中,得到
minZ,E,P,J,Y,R s.t. ||J||+λ2||E||2,1+λ1(||PTAZ(IHb)||2F||PTAZ(HbHt)||2F+η||PTAZ||2F)+<Y,XAZE>+<R,ZJ>+μ2(||XAZE||2F+||ZJ||2F) PTP=I .(11)

其中, μ>0 是惩罚项系数, YRd×n,RRm×n 是 Lagrange 乘子矩阵,矩阵内积 <A,B>=tr(ATB) <script type="math/tex" id="MathJax-Element-72"> = \text{tr}(A^TB)</script> 。接下来是交替更新变量, PJ,Z,EY,R 。虽然 3 个或更多变量情况的増广 Lagrange 乘子法的收敛性没有被证明 6

更新 P

Pk+1=argminPk λ1(||PTkAZk(IHb)||2F||PTkAZk(HbHt)||2F+η||PTkAZk||2F) s.t.  PTkPk=I.(12)

简化公式,定义 Zwk=AZk(IHb), Zbk=AZk(HbHt) 。分解 Pk ,按列进行求解。对于 Pk 的第 i 列,得到
Pk+1(:,i)=argminPk(:,i) λ1(||PTk(:,i)Zwk||22||PTk(:,i)Zbk||22+η||PTk(:,i)AZk||22)+βi(PTk(:,i)Pk(:,i)1).(13)

其中 βi 对应的 Lagrange 乘子。通过求关于 Pk(:,i) 的梯度等于 0,得到
λ1(ZwkZTwkZbkZTbk+ηAZkZTkAT)Pk(:,i)=βiPk(:,i).(14)

可以发现类似 Aμ=λμ ,用特征值分解,求出 βi,Pk(:,i) 分别是 λ1(ZwkZTwkZbkZTbk+ηAZkZTkAT) 的第 i 个特征值和特征向量。

更新 J

Jk+1=argminJk ||Jk||+tr(RTk(ZkJk))+μk2||ZkJk||2F=argminJk 1μk||Jk||+12||Jk(Zk+Rkμk)||2F .(15)

使用 singular value thresholding (SVT) 7 求解, J=Zk+Rkμk ,对其进行 SVD 分解, (U,Σ,V)=svd(J) ,其中 Σ=diag({σi}1ir) 。接着进行阈值操作, Ω1/μk(Σ)=diag({σi1/μk}+) + 表示取大于等于 0 的部分;最后,得到 Jk+1=UΩ1/μk(Σ)VT

更新 Z

Zk+1=argminZk λ1(||PTk+1AZk(IHb)||2F||PTk+1AZk(HbHt)||2F+η||PTk+1AZk||2F)+tr(YTk(XAZkEk))+tr(RTk(ZkJk+1))+μ2(||XAZkEk||2F+||ZkJk+1||2F) .(16)

求对应关于 Zk 的梯度等于 0,得到
Zk+1D/μk+(ATPk+1PTk+1A)1(I+ATA)Zk+1=(ATPk+1PTk+1A)1Kk+1,D=2λ1[(1+η)I2Hb+Ht],Kk+1=Jk+1+AT(XEk)+(ATYkRk)/μk .

推导过程见 Appendix,原文的公式 D 是错误的。此方程是关于 Zk+1 的标准 Sylvester 方程( AX+XB=C ),可以很有效地求求解(Matlab 直接有现成函数可以使用)。

更新 E

Ek+1=argminEk λ2μk||Ek||2,1+12||Ek(XAZk+1+Yk/μk)||2F .(17)

为了求解 2,1 范数,使用(等价于 Sα(x)=sign(x)max{|x|α,0}
ΦEk+1(:,i)=XAZk+1+Yk/μk,={||Φi||2λ2/μk||Φi||2Φi,0,if ||Φi||2>λ2/μk ,otherwise.(18)(19)


Algorithm 1: SRRS 训练

Input: X, λ1, λ2, η, Z=0, J=0, E0=0, Y0=0, R0=0,
μ0=0.1, μmax=1010, ρ=1.3, k=0, ϵ=108.
1: While not converged do
2: 更新 Pk+1 k=1 时, Zk=I .
3: 更新 Jk+1 .
4: 更新 Zk+1 .
5: 更新 Ek+1 .
6: 更新 Yk+1=Yk+μk(XAZk+1Ek+1), Rk+1=Rk+μk(Zk+1Jk+1) .
7: 更新 μk+1=min(ρμk, μmax) .
8: 检查收敛条件 ||XAZk+1Ek+1||<ϵ, ||Zk+1Jk+1||<ϵ .
9: k=k+1 .
10: End While
Output: Pk, Zk, Ek .


在得到最优解 P,Z 之后,对训练样本和测试样本都进行投影,然后使用最近邻(NN)分类器测试样本的标签。


Algorithm 2: SRRS 测试

Input: 训练样本 X ,训练标签 LX ,测试样本 Y
1: 范数归一化每一个样本 xi=xi/||xi||2 .
2: 用 Algorithm 1 得到最优解 P,Z .
3: 分别投影 X,Y X~=PTXZ, Y~=PTY .
4: 计算测试样本的标签 LY ,使用最近邻分类器 (原文并没有明确给出,简单提及一下).

t=argmink {Y~(:,i)X~(:,k)}1kn, LY(:,i)=LX(:,t).(20)

Output: LY .


SRRS 的计算复杂度主要于 Algorithm 1 中。计算量最大的步骤是 Step 2-4,更新 P,J 都需要 O(n3) ,因为它们都需要 SVD 分解( n 是训练样本的个数)。更新 Z 中,求矩阵的逆需要 O(n3) ,求解 Sylvester 方程需要 O(n3+m3) (此文中 ARd×m, A=X ,所以 m=n )。总之全部的计算复杂度是 O(K(5n3)) K 是迭代次数。在 Algorithm 1 和 2 中,直接采用 X 作字典 A ;当样本数不够时,这个方法就不适用。

在Algorithm 2 的 Step 3 中,将恢复的干净的训练样本 XZ 投影到 P 子空间中。理想的情况下,也应该将干净的测试样本投影到 P 子空间中,再进行分类。但是,在实际情况下,往往做不到。此文中,为了体现 P 对噪声数据的鲁棒性,直接将测试样本投影到 P 子空间中。不过为了提升分类的性能,最好可以加上一些去噪技术,之后再进行投影。

实验

值得一提的是,此文虽然是 TOP 期刊发表,但是其中公式有好几处明显的错误。

Appendix

理解 tr(SW)=||PTAZ(IHb)||2F

已知 X~=PTAZ ,且根据原文陈述, HbRn×n 是块对角矩阵,在每一个类别对应的对角块中,其值为该类别样本的数量的倒数 1/nc (求每一个类别的平均值)。

Hb=1/n11/n11/n11/n11/n11/n21/n21/n21/n21/n21/nc1/nc1/nc1/nc1/nc(21)

我们有
tr(SW)=tri=1cj=1ni(x~ijmi)(x~ijmi)T=i=1cj=1nitr((x~ijmi)(x~ijmi)T)=i=1cj=1ni(x~ijmi)T(x~ijmi)=i=1cj=1ni||x~ijmi||22(22)

接下来的步骤是转化成矩阵形式,(这个想法不容易想到,注意 x~ij, mi Rd×1 向量)
tr(SW)=||[x~11m1x~1n1m1x~21m2x~2n2m2x~c1mcx~cncmc]||2F=|| [x~11x~1n1 x~21x~2n2  x~c1x~cnc][m1m1 m2m2  mcmc] ||2F=|| X~[m1m1 m2m2  mcmc] ||2F .(23)

已知 mi=1ninij=1x~ij ,得到 [m1m1 m2m2  mcmc]=X~Hb ,所以有
tr(SW)=||X~X~Hb||2F=||PTAZ(IHb)||2F .(24)

验证: X 有 2 类,每一类 2 个样本,
X=15913261014371115481216, m1=1.55.59.513.5, m2=3.57.511.515.5, Hb=1/21/21/21/21/21/21/21/2,XHb=1.55.59.513.51.55.59.513.53.57.511.515.53.57.511.515.5=[m1,m1,m2,m2].

理解 tr(SB)=||PTAZ(HbHt)||2F

类似地,根据原文陈述, HtRn×n 是元素全部为 1/n 的矩阵(求所有样本的平均值),

Ht=1/n1/n1/n1/n.(25)

根据文中的定义,我们有
tr(SB)=tr(i=1cni(mim)(mim)T)=i=1cnitr((mim)(mim)T)=i=1cni(mim)T(mim)=i=1cni||mim||22=||X~(HbHt)||2F=||PTAZ(HbHt)||2F .(26)

同样验证: X 有 2 类,每一类 2 个样本,
X=15913261014371115481216, m=2.56.510.514.5, Ht=1/41/41/41/41/41/41/41/41/41/41/41/41/41/41/41/4,XHt=2.56.510.514.52.56.510.514.52.56.510514.52.56.510.514.5=[m,m,m,m].

证明 f^(P,Z) 关于 Z 是凸的

首先给出结论,当 η>1 时,能保证 f^(P,Z) 关于 Z 是凸的。为了简化符号,定义 T=PTAZ,所以转化 f^(P,Z) f(T)

f(T)=||T(IHb)||2F||T(HbHt)||2F+η||T||2F .(27)

只要确保 f(T) 的 Hessian 矩阵 2f(T) 是正定的
TT(f(T)T)=TT(2T(IHb)(IHb)T2T(HbHt)(HbHt)T+2ηT)=2[(IHb)(IHb)T(HbHt)(HbHt)T+ηI].(28)

注意矩阵的特殊性,得到几个性质 HbHb=Hb, HtHt=Ht, HbHt=HtHb=Ht ,上式化简为
2f(T)=2[I2Hb+Hb(Hb2Ht+Ht)+ηI]=2[(1+η)I2Hb+Ht].(29)

此文中引用一个定理 Weyl 不等式 8,如果 G 是一个 n×n 的 Hermitian 矩阵,其有序的特征值如下 λ1(G)λn(G) 。如果 B,C 也是 Hermitian 矩阵,则有 λn(B)+λn(C)λn(B+C) 。这个定理说明, B+C 的最小特征值大于或等于 B,C 的最小特征值之和。在上述证明里,要保证 2f(T) 是正定的,只要使其最小特征值大于 0,即确保求和的各个矩阵的最小特征值之和大于 0 。已知最小特征值 λmin(Hb)=1, λmin(Ht)=0 ,所以只要保证
λmin(2f(T))2[(1+η)+2(1)+0]>0.(30)

显然,只要 η>1 ,即可确保 f(T) 关于 T 是凸的。回顾 T=PTAZ PTA 是常数。所以,结论:在 η>1 时, f(P,Z) 关于 Z 是凸的。

推导 Z 的更新公式

Zk+1=argminZk λ1(||PTk+1AZk(IHb)||2F||PTk+1AZk(HbHt)||2F+η||PTk+1AZk||2F)+tr(YTk(XAZkEk))+tr(RTk(ZkJk+1))+μ2(||XAZkEk||2F+||ZkJk+1||2F) .(31)

求对应关于 Zk 的梯度等于 0,得到
λ1[2ATPk+1PTk+1AZk+1(IHb)(IHb)T2ATPk+1PTk+1AZk+1(HbHt)(HbHt)T+2ηATPk+1PTk+1AZk+1]ATYk+Rk+μk2[2AT(XAZk+1Ek)+2(Zk+1Jk+1)]=0,2λ1ATPk+1PTk+1AZk+1[(I2Hb+Hb)(Hb2Ht+Ht)+ηI]ATYk+Rk+μk[AT(AZk+1+EkX)+Zk+1Jk+1]=0,2λ1ATPk+1PTk+1AZk+1[(I+η)I2Hb+Ht]+μk(ATA+I)Zk+1=ATYkRk+μkJk+1+μkAT(XEk),Zk+12λ1[(I+η)I2Hb+Ht]+μk(ATPk+1PTk+1A)1(ATA+I)Zk+1=(ATPk+1PTk+1A)1[ATYkRk+μkJk+1+μkAT(XEk)],Zk+1D/μk+(ATPk+1PTk+1A)1(I+ATA)Zk+1=(ATPk+1PTk+1A)1Kk+1,D=2λ1[(1+η)I2Hb+Ht],Kk+1=Jk+1+AT(XEk)+(ATYkRk)/μk .


  1. Y. Pan, H. Lai, C. Liu, and S. Yan, “A divide-and-conquer method for scalable low-rank latent matrix pursuit,” in Proc. 26th IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2013, pp. 524–531.
  2. A. Talwalkar, L. Mackey, Y. Mu, S.-F. Chang, and M. I. Jordan,“Distributed low-rank subspace segmentation,” in Proc. 14th IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 3543–3550.
  3. P. N. Belhumeur, J. P. Hespanha, and D. Kriegman, “Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 19, no. 7, pp. 711–720,
    Jul. 1997.
  4. Y.-F. Guo, S.-J. Li, J.-Y. Yang, T.-T. Shu, and L.-D. Wu, “A generalized Foley–Sammon transform based on generalized Fisher discriminant criterion and its application to face recognition,” Pattern Recognit. Lett., vol. 24, nos. 1–3, pp. 147–158, 2003.
  5. Z. Lin, R. Liu, and Z. Su, “Linearized alternating direction method with adaptive penalty for low-rank representation,” in Proc. 25th Annu. Conf. Adv. Neural Inf. Process. Syst., 2011, pp. 612–620.
  6. Chen, C., et al., The direct extension of ADMM for multi-block convex minimization problems is not necessarily convergent. Mathematical Programming, 2016. 155(1): p. 57-79.
  7. J.-F. Cai, E. J. Candès, and Z. Shen, “A singular value thresholding algorithm for matrix completion,” SIAM J. Optim., vol. 20, no. 4, pp. 1956–1982, 2010.
  8. J. K. Merikoski and R. Kumar, “Inequalities for spreads of matrix sums and products,” Appl. Math. E-Notes, vol. 4, pp. 150–159, Feb. 2014.
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值