多标签学习文献综述
《The Emerging Trends of Multi-Label Learning》-PAMI,2021.
本文系统梳理了多标签学习的发展趋势和SOTA技术。下面这张图概括了本文的研究内容。
从这张图里我们可以看出,多标签学习主要分为:
极限多标签学习(Extreme Multi-label Learning):嵌入式方法,基于树的方法,以及one-vs-all的方法,作者这里似乎漏掉了深度学习在XC上的应用。
有限监督的多标签学习(Multi-label Learning with Limited Supervision):缺值的多标签学习,半监督,Partial多标签学习(不懂)。
深度多标签学习:深度嵌入,etc
在线多标签学习
统计多标签学习
以及一些应用领域:机器视觉,自然语言处理,数据挖掘。
先码住,有时间系统阅读本文内容。
极限多标签分类
关于极限多标签分类,也可参考我先前的文章。
嵌入式方法:
说白了,就是将特征空间或者标签空间映射到低维空间,这个过程可以称之为编码(encoding)。
嵌入式方法的主要不同点在于编码和解码方法。
在嵌入式方法中SLEEC是一个经典的,且影响深远的方法。
SLEEC学习标签的低维嵌入,通过保持距离最近的标签向量的距离(比如k近邻),它可以非线性地捕获标签的相关性。
所以,SLEEC试图找到一个低维嵌入,使得在原标签空间下的标签距离在嵌入后依旧能保持,这与局部线性嵌入LLE的思想是一致的。
Z
∗
=
min
Z
∈
R
ϖ
×
n
∣
∣
P
Ω
(
Y
T
Y
)
−
P
Ω
(
Z
T
Z
)
∣
∣
F
2
Z^* = \min_{Z \in \mathbb{R}^{\varpi \times n}}||P_\Omega(Y^\textrm{T}Y) - P_\Omega(Z^\textrm{T}Z)||_F^2
Z∗=Z∈Rϖ×nmin∣∣PΩ(YTY)−PΩ(ZTZ)∣∣F2
其中
Y
∈
R
L
×
n
Y\in\mathbb{R}^{L \times n}
Y∈RL×n是原标签矩阵,
Z
∈
R
ϖ
×
n
Z\in\mathbb{R}^{\varpi \times n}
Z∈Rϖ×n是降维后的标签矩阵,
ϖ
≪
L
\varpi \ll L
ϖ≪L,
Ω
\Omega
Ω为下标对集合,存放了标签的近邻,
(
i
,
j
)
∈
Ω
(i,j) \in \Omega
(i,j)∈Ω表示样本j是样本i的邻居,注意,
(
i
,
j
)
∈
Ω
⇏
(
j
,
i
)
∈
Ω
(i, j) \in \Omega \nRightarrow (j, i) \in \Omega
(i,j)∈Ω⇏(j,i)∈Ω.
在上式中,
P
Ω
(
Y
T
Y
)
(
i
,
j
)
=
y
i
T
y
j
,
if
(
i
,
j
)
∈
Ω
,
0
otherwise
.
P_\Omega(Y^\textrm{T}Y)_{(i,j)} = y_i^\text{T}y_j, \text{ if } (i, j) \in \Omega, 0 \text{ otherwise}.
PΩ(YTY)(i,j)=yiTyj, if (i,j)∈Ω,0 otherwise.
在找出最优的
Z
Z
Z之后,SLEEC试图寻找一个regressor V拟合特征空间:
min
V
∈
R
ϖ
×
d
∣
∣
Z
∗
−
V
X
∣
∣
F
2
+
μ
∣
∣
V
∣
∣
F
2
+
λ
∣
∣
V
X
∣
∣
1
\min_{V \in \mathbb{R}^{\varpi \times d}} ||Z^* - VX||^2_F + \mu ||V||_F^2 + \lambda ||VX||_1
V∈Rϖ×dmin∣∣Z∗−VX∣∣F2+μ∣∣V∣∣F2+λ∣∣VX∣∣1
上式引入了F范数避免over-fitting,引入了
l
1
l_1
l1正则学习regressor
V
V
V的稀疏表示。但上式直接优化不可行,这是因为large-scale,SLEEC将训练集聚类为几个小的局部区域(这一过程是无监督的)。所以,具有相似标签的样本不一定被划分到同一区域,这是SLEEC存在的问题。有些其他的方法试图解决这一问题:比如AnnexML,DEFRAG等方法,这里不再介绍。
关于嵌入式方法,也有引入word2vec这种方法来学习标签的嵌入 Z Z Z (Gupta2019Distributional),随后利用SLEEC的优化方法学习regressor V V V.
基于树的方法:
我先前的博文里面总结了一些了,比如FastXML,PFastReXML,SwiftXML, CRAFTXML,PLT等等。这里不再赘述。
One-vs-all方法
One-vs-all(OVA)方法是一种比较流行的多标签学习方法. 其主要思想是为每一个类别训练一个单独的分类器.
如果将OVA方法引入到XMC问题中,就存在一些问题,主要是由于XMC的标签太多, OVA的计算代价昂贵.
为了解决此问题,出现了一些sub-linear的算法, 比如PD-Sparse, PPD-Sparse, DiSMEC, ProXML, Parabel.
标签有限的多标签学习方法-(Limited Supervision)
这一部分并非针对XMC,而是针对一般的MLC.
完全的Supervised Data通常是比较困难和代价昂贵的.此时就涉及到一个Limited Supervision的方法.
其中包含几个方面:
缺失标签的MLC- Multi-label learning with missing labels (MLML).
MLML主要有两种设置:(1) 只获取一个相关标签的子集,但不知道哪些是遗漏标签,denoted by
y
i
∈
{
−
1
,
+
1
}
L
y_i \in \{-1,+1\}^L
yi∈{−1,+1}L;其中-1表示缺失或者负标签;(2) 精确指示哪些标签是缺失的,
y
i
∈
{
−
1
,
0
,
+
1
}
L
y_i \in \{-1, 0, +1\}^L
yi∈{−1,0,+1}L,其中0表示缺失标签。这两种设置的区别见下图:
本文讨论了三种MLML方法,分别是Low-rank and Embebdding method,Grapah-based method,以及其他技术。下面分别介绍:
Low-rank and Embedding
Xu等人(Xu2013Speedup)将MLML问题看成一个利用辅助信息(i.e., the features)对Low-rank矩阵复原的问题:标签矩阵由下式进行分解:
Y
=
A
W
B
,
Y = AWB,
Y=AWB,
其中A和B是附加信息矩阵,
W
W
W假定是低秩的。Xu等人认为这里的A就是特征矩阵,而B是单位阵,因为没有针对标签的额外附加信息。因此,
W
W
W可以看成是一个线性分类器,使得
Y
=
X
W
Y=XW
Y=XW。
LEML(Yu2014Large-Scale)将上式泛化为一个经验风险极小化的问题:
W
=
arg min
W
L
(
Y
^
,
X
W
)
+
λ
r
(
W
)
,
s.t. rank
(
W
)
≤
k
.
W = \argmin_{W} \mathcal{L}(\hat{Y}, XW) + \lambda r(W), \text{ s.t. rank}(W) \leq k.
W=WargminL(Y^,XW)+λr(W), s.t. rank(W)≤k.
其中
r
r
r为正则项,
L
\mathcal{L}
L可以为任意经验风险。
为了解决长尾标签(tailed labels)可能破坏低秩属性这一问题,Xu等人(Xu2016Robust)将tailed labels看看成是离群点,标签矩阵被分解为两个矩阵的累加:
Y
^
≈
Y
1
−
Y
2
\hat{Y} \approx Y_1 - Y_2
Y^≈Y1−Y2,其中
Y
1
Y_1
Y1是低秩的,
Y
2
Y_2
Y2是稀疏的。
Y
1
,
Y
2
Y_1,Y_2
Y1,Y2可解以下优化目标得到:
min
U
,
V
,
H
∣
∣
Y
^
−
Y
1
−
Y
2
∣
∣
2
+
λ
1
∣
∣
H
∣
∣
F
2
+
λ
2
(
∣
∣
U
∣
∣
F
2
+
∣
∣
V
∣
∣
F
2
)
+
λ
3
∣
∣
X
H
∣
∣
1
.
s.t.
Y
1
=
X
U
V
,
Y
2
=
X
H
\min_{U,V,H} ||\hat{Y}-Y_1-Y_2||^2 + \lambda_1 ||H||_F^2 + \lambda_2 (||U||_F^2 + ||V||_F^2) + \lambda_3 ||XH||_1.\\ \text{ s.t. } Y_1 = XUV, Y_2 = XH
U,V,Hmin∣∣Y^−Y1−Y2∣∣2+λ1∣∣H∣∣F2+λ2(∣∣U∣∣F2+∣∣V∣∣F2)+λ3∣∣XH∣∣1. s.t. Y1=XUV,Y2=XH
关于低秩矩阵分解衍生了很多的方法,比如:
Han等人(Han2018Multi-label)研究了特征和标签都不完全的问题。他们提出了ColEmbed方法要求分类器以及复原的特征矩阵都是低秩的,同时引入了核技巧将分类器做非线性处理。
Xu等人(Xu2018Matrix)考虑了一个更复杂的设置:标签和特征都同时有缺失。他们通过迹范数(trace norm)强制连接特征矩阵和标签矩阵为低秩的(没看懂)。
ML-LRC这种方法假定标签矩阵能够通过使用相关性矩阵进行重建:
Y
=
Y
^
T
U
Y = \hat{Y}^TU
Y=Y^TU,其中
U
U
U是低秩的,损失则由
∣
∣
X
W
−
Y
U
∣
∣
F
2
||XW-YU||_F^2
∣∣XW−YU∣∣F2进行度量(没看懂)。
Graph-based methods
图模型也常被用来解决缺失标签的问题。
令一个带权图
G
=
(
V
,
E
,
W
)
G = (V,E,W)
G=(V,E,W),其中
V
=
{
x
i
}
i
=
1
n
V = \{x_i\}_{i=1}^n
V={xi}i=1n,
E
=
{
(
x
i
,
x
j
)
}
E=\{(x_i,x_j)\}
E={(xi,xj)}为边集,
W
=
[
w
i
j
]
n
×
n
W=[w_{ij}]_{n\times n}
W=[wij]n×n为权重矩阵,当
(
x
i
,
x
j
)
∉
E
(x_i,x_j)\notin E
(xi,xj)∈/E时,
w
i
j
=
0
w_{ij}=0
wij=0。当图被定义好之后,一种典型的策略是在经验风险极小化框架下添加流形正则。
Sun等人(Sun2010Multi-label)首次提出了弱标签的多标签学习问题,并构建label-specific graph,通过给每个标签单独添加流形正则解决该问题。
Wu等人(2014Multi-label)形式化定义了MLML的其他类型的设置问题,包含三种假设:
(1)标签一致性。预测标签应该和初始标签保持一致。
(2)实例级平滑性。两个样本如果相近,那么其标签向量也相近。(针对这一点,tree-based方法SwiftXML似乎有不同的观点)
(3)标签级平滑性。如果两个标签向量在语义上是相似的,那么它们的标签向量的距离也比较近。
Wu等人构建了k近邻图以满足实例级平滑性和标签级平滑性(这个k近邻图就是一个二维矩阵,其中的元素值为两个样本在特征空间上的距离
(实例级),或在标签空间上的距离
(标签级)。这里的距离定义类似于高斯核。
w
i
j
x
=
exp
(
−
∣
∣
x
i
−
x
j
∣
∣
2
2
∣
∣
x
i
−
x
h
∣
∣
2
∣
∣
x
j
−
x
h
∣
∣
2
)
,
w
i
j
y
=
exp
(
−
η
[
1
−
⟨
Y
^
i
.
Y
^
j
.
⟩
∣
∣
Y
^
i
.
∣
∣
2
∣
∣
Y
^
j
.
∣
∣
2
]
)
w_{ij}^x = \exp(-\frac{||x_i-x_j||^2_2}{||x_i-x_h||_2||x_j-x_h||_2}), w_{ij}^y = \exp(-\eta[1-\frac{\langle\hat{Y}_{i.}\hat{Y}_{j.}\rangle}{||\hat{Y}_{i.}||_2||\hat{Y}_{j.}||_2}])
wijx=exp(−∣∣xi−xh∣∣2∣∣xj−xh∣∣2∣∣xi−xj∣∣22),wijy=exp(−η[1−∣∣Y^i.∣∣2∣∣Y^j.∣∣2⟨Y^i.Y^j.⟩])
其中
Y
^
i
,
.
\hat{Y}_{i,.}
Y^i,.是第i个样本的标签向量(有缺失标签)。
Wu等人通过下式复原缺值标签向量:
min
Y
˙
∣
∣
Y
˙
−
Y
^
∣
∣
F
2
+
λ
x
2
tr
(
Y
˙
L
x
Y
˙
T
)
+
λ
y
2
tr
(
Y
˙
T
L
y
Y
˙
)
\min_{\dot{Y}} ||\dot{Y}-\hat{Y}||_F^2 + \frac{\lambda_x}{2}\text{tr}(\dot{Y}L_x\dot{Y}^T) + \frac{\lambda_y}{2}\text{tr}(\dot{Y}^TL_y\dot{Y})
Y˙min∣∣Y˙−Y^∣∣F2+2λxtr(Y˙LxY˙T)+2λytr(Y˙TLyY˙)
其中
L
x
,
L
y
L_x,L_y
Lx,Ly为
W
x
,
W
y
W^x,W^y
Wx,Wy的Laplace矩阵(不懂为啥要这么写)。
有许多基于图的方法只关注于样本级平滑性原则,比如MLMG-SL,LSML, GLOCAL等。也有基于GNN建模标签依赖的方法。这里不再赘述。
其他解决缺失标签的技术
也有一些其他技术用于MLML任务,比如co-regularized learning(不懂),binary coding embedding,概率图模型,重加权经验风险极小化,bandit-learning等。然而目前解决MLML的主流方法还是Graph-based以及Embedding-based。
半监督多标签学习
在半监督多标签学习(SS-MLC)中,数据集由两部分构成,完全标注的数据和无标注的数据。半监督多标签学习可以看成是MLML的一种特殊情况,即部分样本的标签是完全缺失的。在SS-MLC中,主流的方法也是Graph-based或者是Embedding-based.
在半监督多标签学习中有一种特殊的设置:弱监督的MLC,即数据有完全标注的,有不完全标注的,也有无标注的数据。从广义的角度来讲,有噪声的监督也可以称为弱监督。概率模型是解决弱监督多标签学习的一种流行的方法。
Partial MLC: 允许标注人员提供一个标签的超集作为候选,通常有两阶段学习方法和端到端的学习方法,这一块不再赘述。
多标签学习的其他研究方向
这里只列举,不详细描述。
有噪声标签的MLC;未知标签的MLC(标签空间可能会动态的扩张);多标签主动学习;标签分布学习;多实例的MLC。
深度学习方法
这一块并非个人的研究重点,只列举,不详细阐述。
深度嵌入方法;深度学习极限MLC;深度学习partial和弱监督MLC;深度学习解决未知标签的MLC;
除此之外,还有在线多标签学习和统计多标签学习。这和个人的研究方向不甚相关,不再赘述。