笔记:Sparse and Truncated Nuclear Norm Based Tensor Completion

Han, Z. F., Leung, C. S., Huang, L. T., & So, H. C. (2017). Sparse and Truncated Nuclear Norm Based Tensor Completion. Neural Processing Letters, 45(3), 729-743.
本文是这篇 Neural Processing Letter 期刊论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。

摘要: 张量(tensor)补全的主要问题是计算其秩(rank)。最近,一种张量核范数(tensor nuclear norm),等于所有张量的展开的矩阵的核范数的加权和,已经被提出来解决这个问题。然而,在此方法中, 所有的奇异值是被同时最小化的。所以,张量的秩并没有被很好地近似。另外,许多现有的方法都忽视了张量的结构信息。此文提出了一种张量补全的算法,基于张量截断核范数(truncated nuclear norm),其优于传统的核范数方法。而且,为了保持结构的信息,一个稀疏约束项,定义于变换域,也被添加到了目标函数中。实验结果表明此文的方法能胜过一些最先进的算法,在张量补全中。

1 简介

在信号处理和机器学习的应用中,比如图像去噪,图像分类和子空间分割,需要根据已知的数据来估丢失的元素。当然,没有对数据信息的先验知识,估计丢失的元素是一个病态的问题。所以,一些假设被广泛地采用。例如,可以使用输入数据的统计或结构的信息,来建立已知数据和未知数据的关系。然而,许多方法都只关注局部联系。

另一种办法是使用输入数据的全局结构信息。许多研究表明真实的信号都存在低维的空间之中。比如,许多的自然图像都包含一些纹理区域。这些纹理的秩通常都很小。所以,许多的矩阵补全方法都研究最小化矩阵的秩。不幸的是,矩阵的秩并不是一个凸函数,意味着低秩最小化不能被有效地求解。

最近,研究表明,核范数,一个凸近似,适合低秩最小化求解。另外,核范数最小化可以通过一些数学方法有效地求解。然而,如 1 所述,使用核范数的最大限制是其不能很好地近似矩阵的秩,因为在优化过程中,所有的奇异值都被同时最小化了。在 2 中,矩阵截断核范数(truncated nunclear norm, MTNN)被提出。不像之前的核范数方法,最小化所有奇异值的和,该 MTNN 方法关注一部分最小的奇异值。经验性的研究表明此 MTNN 方法更优于其他矩阵核范数方法。

最近,作为矩阵补全的扩展,低秩张量补全越来越受关注。Liu et al. 3 首次定义了张量核范数,将矩阵补全扩展到张量补全中。另外,他们构建了两种算法,快速低秩张量补全(FaLRTC)和高精度低秩张量补全(HaLRTC)。由于张量核范数的概念是基于矩阵核范数,所以张量的秩也并没有被很好地近似。另外,这两种算法并没有考虑张量数据地结构信息。

此文定义了张量截断核范数(TTNN)方法。之后,将其应用到张量补全问题中。为了更好地提升性能,此文将 1 范数约束项加入到目标函数中,保留数据片之间的平滑性质。约束项等于多维离散余弦变换系数的和。

2 背景

2.1 符号

此文中,矩阵用大写加粗字母表示( X,Y ),其元素加下标( Xij )。Frobenius 范数定义为 ||X||F=(ij|Xij|2)12 。矩阵的内积定义为 X,Y:=ijXijYij 。张量定义为书法体的大写加粗字母( X,Y )。一个 N 模的张量,或 N 阶的张量,表示为 XRI1×I2××IN ,其中 Im 表示第 m 个维度的大小。张量中的一个元素表示为 Xi1iN 。模 N 矩阵化一个张量 X 的结果是一个矩阵,表示为 X(n) 。其过程是将除 in 之外的索引全部线性化。矩阵 X(n) 的大小为 In×Nk=1,knIk 。在解包过程中,一个元素 Xi1iN 对应着 X(n) 的位置 (in,j) ,其中

j=1+k=1,knN(ik1)Jk  with  Jk=m=1,mnk1Im.

其逆操作打包定义为 Fold(n)(X(n)):=X 。张量 X 的 Frobenius 范数定义为 ||X||F:=(i1,,iN|Xi1iN|2)12 ,类似地,两个相同大小的 tensor 的内积定义为 X,Y:=i1,,iNXi1iNYi1iN

2.2 矩阵补全

首先回顾以下矩阵补全的概念。令 MRm×n 为一个低秩的不完整的矩阵。令 Ω 为已知数据元素的集合,而 Ωc 是其补集。矩阵补全可以用如下的优化问题表示:

minX s.t.  rank(X)PΩ(X)=PΩ(M),(1)

其中 PΩ() 是映射操作,给出如下
(PΩ(M))ij={Mij,0,(i,j)Ω,(i,j)Ωc.

在优化问题中 (1) ,目标是估计 X 中的缺失的元素,使其的秩尽可能的小。一般的,矩阵的范数最小化问题是一个 NP-hard 问题。

在文献 4 中,介绍了矩阵 XRm×n 的核范数,给出如下

||X||=i=1min(m,n)σi,

其中 σi 是矩阵 X 是第 i 个最大的奇异值。使用矩阵核范数的概念,矩阵补全的问题 (1) 就转变为
minX s.t.  ||X||PΩ(X)=PΩ(M).(2)

在基于矩阵核范数的方法中,所有的奇异值都是同时被最小化的。所以,矩阵的秩没有被很好地近似 5 。为了解决这个问题,MTNN 方法被提出了。其等价于 min(m,n)r 个最小的奇异值之和,即
||X||r=i=r+1min(m,n)σi.

接着,优化问题 (2) 转变为

minX s.t.  ||X||rPΩ(X)=PΩ(M).(3)

根据文献 [5] 所述,该优化问题 (3) 可以改写为
minX s.t.  ||X||maxAAT=I,BBT=Itr(AXBT)PΩ(X)=PΩ(M),(4)

其中 ARr×m BRr×n I 是一个单位矩阵。在文献 [5] 中,作者提出了算法使用交替乘子法(alternating direction method of multipliers, ADMM)求解优化问题。基本思想是设置初始值 X(1)=PΩ(M) 。在第 t 次迭代过程中,先固定 X(t) 和进行奇异值分解(SVD)于 Xt ,即 X(t)=UΣVT ,其中 U=[u1,,um]Rm×m ΣRm×n V=[v1,,vn]Rn×n 。令 A(t)=[u1,,ur]T B(t)=[v1,,vr]T 。之后,固定 A(t) B(t) ,接着更新变量 X 基于如下形式:
minX s.t.  ||X||tr(A(t)XB(t)T)PΩ(X)=PΩ(M).(5)

基于如上两步骤,交替更新矩阵,最终会使算法收敛到局部最小值。

2.3 张量补全

张量补全是矩阵补全的一般化问题。给定一个低秩的不完整的张量 TRI1××IN ,令 Ω 对应已观测到的元素的集合,而 Ωc 是其相应的补集。在张量补全中,需要估计一个低秩的 XRI1××IN 并满足 PΩ(X)=PΩ(T) 。在文献 [3] 中,低秩张量补全问题给出如下

minX s.t.  rank(X)PΩ(X)=PΩ(T).(6)

不像矩阵的情况,很难定义一个张量的秩。许多的张量的秩的版本提出 6 7 。通过将张量转变为矩阵使用矩阵化, Liu et al. [3] 提出了基于张量补全的张量核范数,如下
||X||:=i=1nαi||X(i)||,

其中 αi0 ni=1αi=1 。低秩张量补全问题 (6) 定义如下
minX s.t.  ||X||PΩ(X)=PΩ(T).(7)

另外,Liu et al. [3] 提出了 3 种方法求解张量补全问题,包括简单版(SiLRTC),快速版(FaLRTC),和高精度版(HaLRTC)。由于矩阵核范数的内部依赖性,介绍了虚拟的矩阵作为中间变量, Mi, i=1,2,,n 。将优化问题 (7) 进行转化
minX, Mi s.t.  i=1nαi||M(i)||PΩ(X)=PΩ(T),X(i)=Mi, i=1,2,,n.(8)

然而,在 FaLRTC 中,所有的奇异值都是被同时最小化的。所以秩也没有被很好地近似。另外,结构信息通常也被忽略了。

2.4 ADMM

交替乘子法 8 是一个经典的算法,用于求解带约束的最小化问题。考虑如下的约束最小化问题:

minx, z s.t.  f(x)+g(z)Ex+Fz=c,(9)

其中 xRnx zRnz ERnc×nx FRnc×nz f() g() 均是凸函数。ADMM 算法考虑一个增广 Lagrangian 函数,如下:
L(x,z,y)=f(x)+g(z)+y,Ex+Fzc+β2||Ex+Fzc||2,

其中 y 是 Lagrangian 乘子向量。ADMM 迭代机制是:
x(k+1)z(k+1)y(k+1)=argminx L(x,z(k),y(k)),=argminz L(x(k+1),z,y(k)),=y(k)+β(Ex(k+1)+F(y(k+1))c),

其中 β 是一个正的惩罚参数。

3 张量截断核范数补全

由于 Matrix TNN 优于矩阵的核范数,此文中将 Matrix TNN 扩展到 Tensor TNN,即

||X||r:=i=1nαi||X(i)||r.

另外,空间结构信息可以用变换系数的稀疏性表征。所以,此文添加一个稀疏约束项(定义于变换域)到目标函数中,保持空间的结构信息。如此,根据之前的 TNN 的定义,可以将目标优化问题 (4) 转化为
minX, W s.t.  (i=1nαi||X(i)||αimaxAiATi=I, BiBTi=I tr(AiX(i)BTi))+λ||W||0PΩ(X)=PΩ(T), W=F(X),(10)

其中 F() 是一个正向的 n 维离散余弦变换,λ>0 是一个加权的常系数。由于 0 范数是一个非凸的函数,此文使用 1 范数来近似测量 W 的稀疏性。该约束优化问题 (10) 可以转化为
minX, W s.t.  (i=1nαi||X(i)||αimaxAiATi=I, BiBTi=I tr(AiX(i)BTi))+λ||W||1PΩ(X)=PΩ(T), W=F(X).(11)

因为 X(i) 之间有内部依赖性,所以这里需要引入一个虚拟的变量 Mi 加入目标函数 (11) 中,来分离这些有依赖的项,即
minX, W s.t.  (i=1nαi||Mi,(i)||αimaxAiATi=I, BiBTi=I tr(AiMi,(i)BTi))+λ||W||1PΩ(X)=PΩ(T), W=F(X), X=Mi, i=1,2,,n,(12)

其中 Mi,(i) Mi 的模 i 的矩阵化的结果。这里定义此文的方法 (12) 记为 TTNNL1。当忽视约束项的时候,即 λ=0 ,将方法记为 TTNN。

此算法的基本思想是给定一个当前的估计 X ,基于 SVD,可以获得 {Ai,Bi}, i=1,2,,N 。之后,可以更新 X 基于如下的优化问题

minX, W s.t.  (i=1nαi||Mi,(i)||αitr(AiMi,(i)BTi))+λ||W||1PΩ(X)=PΩ(T), W=F(X), X=Mi, i=1,2,,n.(13)

4 张量补全算法

4.1 算法

基于 (13) ,可以定义如下的增广 Lagrangian 函数

L(X,Mi,W,Yi,B)=i=1nαi||Mi,(i)||αitr(AiMi,(i)BTi)+XMi,Yi+β2||XMi||2F+WF(X),B+β2||WF(X)||2F+λ||W||1.(14)

其中 B Yi 是 Lagrange 乘子张量,其维度与 X 一致, β 是一个惩罚参数。使用 ADMM 的迭代机制,优化问题 (13) 按照如下的迭代机制求解:
1. 计算 X(k+1)
X=argminX L(X,M(k)i,(i),W(k),Y(k)i,B(k)),X(k+1)Ωc=XΩc,X(k+1)Ω=TΩ.(15)

这里后两步表示:需要保持已知的元素不变。
2. 计算 M(k+1)i
M(k+1)i=argminMi L(X(k+1),Mi,(i),W(k),Y(k)i,B(k)).(16)

3. 计算 W(k+1)
W(k+1)=argminW L(X(k+1),M(k+1)i,(i),W,Y(k)i,B(k)).(17)

4. 计算 Y(k+1)i
Y(k+1)i=Y(k)i+β(X(k+1)M(k+1)i).(18)

5. 计算 B(k+1)
B(k+1)=B(k)+β(W(k+1)F(X(k+1))).(19)

算法总结于 Algrithm 1 中。具体的更新步骤 1,2,3 后面会给出。


Algorithm 1 基于 ADMM 优化
Input: 张量数据 T , 已知元素的位置集合 Ω
Initialization: PΩ(X)=PΩ(T), Yi=0, Mi=0, Ai=0, Bi=0, W=0, B=0 , λ, β, α
while not converged do
   Step 1: 更新 X(k+1) (15)
   Step 2: 更新 M(k+1)i (16)
   Step 3: 更新 W(k+1) (17)
   Y(k+1)i=Y(k)i+β(X(k+1)M(k+1)i)
   B(k+1)=B(k)+β(W(k+1)F(X(k+1)))
end while
Output: X


4.2 计算 X(k+1)

在计算 (15) 中,需要求解如下的无约束优化问题:

X=argminX i=1nXM(k)i,Y(k)i+β2XM(k)i2F+W(k)F(X),B(k)+β2W(k)F(X)2F=argminX i=1nXM(k)i+Y(k)iβ2F+W(k)F(X)+B(k)β2F.(20)

然而,该问题并没有直接的闭式解。因为不能很容易地从 F(X) 中分离出 X 。所以,该问题需要被迭代地求解。这需要消耗很多时间,意味着需要一个有效的求解方法。Parseval 定理 9 指出信号的能量是不变的,如果是在单位变换下。根据这个定理和离散余弦变换的单位性质, (20) 中的最后一项可以改写为

W(k)F(X)+B(k)β2F=g(W(k)F(X)+B(k)β)2F=Xg(W(k)+B(k)β)2F,(21)

其中 g() 表示 n 维的反离散傅里叶变换。注意的是 Frobenius 范数的平方即为测量张量数据的能量。将 (21) 带入 (20) 中,可以得到
X=argminX i=1nXM(k)i+Y(k)iβ2F+Xg(W(k)+B(k)β)2F.(22)

该问题是一个最小二乘问题,并且有闭式解:
X=1n+1i=1nMiY(k)iβ+g(W(k)+B(k)β).(23)

4.3 计算 M(k+1)i

在计算 (16) 中,需要求解如下的无约束优化问题:

M(k+1)i=argminMi αi||Mi,(i)||αitr(AiMi,(i)BTi)+X(k+1)Mi,Y(k)i+β2X(k+1)Mi2F=argminMi αi||Mi,(i)||+β2X(k+1)Mi+Y(k)iβ2F+Mi,(i)αiAiBTi=argminMi αi||Mi,(i)||+β2MiX(k+1)+Y(k)iβ(i)αiβAiBTi2F.(24)

该问题是一般的核范数最小化问题。可以用如下的定理解决
Theorem 1 对于一个 ϵ>0 YRm×n ,矩阵的核范数可以如下求解
D1ϵ(Y)=argminX ||X||+ϵ2||XY||2F,

其中 Dτ 是一种奇异值收缩操作,基于矩阵 Y 的奇异值分解。令 UΣVT Y 的奇异值分解,其中 Σ=diag({σi}1imin(m,n)) 。该 Dτ 定义为
Dτ(Y)Dτ(Σ)=UDτ(Σ)VT,=diag({max(σiτ,0)}1imin(m,n)).

所以,从定理 1 中,可以得到 M(k+1)i,(i) 的闭式解
M(k+1)i,(i)=DαiβX(k+1)+Y(k)iβ(i)+αiβAiBTi.(25)

于是有
M(k+1)i=Fold(i)DαiβX(k+1)+Y(k)iβ(i)+αiβAiBTi.(26)

注意的是计算 M(k+1)i 的过程中,生成 (X(k+1)+Y(k)iβ)(i)+αiβAiBTi 的左、右奇异向量。他们会被矩阵更新 Ai Bi 在下一轮迭代中。使用 r 来表示 αiβ,即 MTNN 是奇异值之和,其小于 ||X||r=σi<αiβσi

4.4 计算 W(k+1)

为了更新 W ,需要计算如下优化问题:

W(k+1)=argminW λ||W||1+WF(X(k+1)),B(k)+β2WF(X(k+1))2F=argminW λ||W||1+β2WF(X(k+1))+B(k)β2F.(27)

这是一个 1 范数最小化问题,有闭式解。给定一个矩阵 Y ,对于一个 ϵ>0 ,令 Z 等于
Z=argminX ||X||1+ϵ2||XY||2F.

Z 可以如下的软阈值操作求解:
Z=S1ϵ(Y),

其中 S1ϵ() 是一个按元素的操作,定义为
S1ϵ(yi)=sgn(yi)×max{|yi|1ϵ,0}.

根据这个定义,可以将 (27) 按如下方式求解
W(k+1)=Sλβ(F(Xk+1)B(k)β).(28)

5 实验结果

略,详见原文。


  1. Hu Y, Zhang D, Ye J, Li X, He X (2013) Fast and accurate matrix completion via truncated nuclear norm regularization. IEEE Trans Pattern Anal Mach Intell 35(9):2117–2130
  2. Hu Y, Zhang D, Ye J, Li X, He X (2013) Fast and accurate matrix completion via truncated nuclear norm regularization. IEEE Trans Pattern Anal Mach Intell 35(9):2117–2130
  3. Liu J,Musialski P,Wonka P, Ye J (2013b) Tensor completion for estimating missing values in visual data. IEEE Trans Pattern Anal Mach Intell 35(1):208–220
  4. Candès E, Recht B (2009) Exact matrix completion via convex optimization. Found Comput Math 9(6):717–772
  5. Hu Y, Zhang D, Ye J, Li X, He X (2013) Fast and accurate matrix completion via truncated nuclear norm regularization. IEEE Trans Pattern Anal Mach Intell 35(9):2117–2130
  6. Kolda TG, Bader BW (2009) Tensor decompositions and applications. SIAM Rev 51(3):455–500
  7. Yang L, Huang Z-H, Shi X (2013) A fixed point iterative method for low n-rank tensor pursuit. IEEE Trans Signal Process 61(11):2952–2962
  8. Boyd S, Parikh N, Chu E, Peleato B, Eckstein J (2011) Distributed optimization and statistical learning via the alternating direction method of multipliers. Found Trends Mach Learn 3(1):1–122
  9. Merhav N, Kresch R (1998) Approximate convolution using DCT coefficient multipliers. IEEE Trans Circuits Syst Video Technol 8(4):378–385
  • 8
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值