多标签学习发展趋势

多标签学习文献综述

《The Emerging Trends of Multi-Label Learning》-PAMI,2021.

本文系统梳理了多标签学习的发展趋势和SOTA技术。下面这张图概括了本文的研究内容。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9Q5PyCRM-1666701607093)(images/ML_techniques.png)]

从这张图里我们可以看出,多标签学习主要分为:
极限多标签学习(Extreme Multi-label Learning):嵌入式方法,基于树的方法,以及one-vs-all的方法,作者这里似乎漏掉了深度学习在XC上的应用。
有限监督的多标签学习(Multi-label Learning with Limited Supervision):缺值的多标签学习,半监督,Partial多标签学习(不懂)。
深度多标签学习:深度嵌入,etc
在线多标签学习
统计多标签学习
以及一些应用领域:机器视觉,自然语言处理,数据挖掘。

先码住,有时间系统阅读本文内容。

极限多标签分类

关于极限多标签分类,也可参考我先前的文章。

嵌入式方法:
说白了,就是将特征空间或者标签空间映射到低维空间,这个过程可以称之为编码(encoding)。
嵌入式方法的主要不同点在于编码和解码方法。

在嵌入式方法中SLEEC是一个经典的,且影响深远的方法。
SLEEC学习标签的低维嵌入,通过保持距离最近的标签向量的距离(比如k近邻),它可以非线性地捕获标签的相关性。
所以,SLEEC试图找到一个低维嵌入,使得在原标签空间下的标签距离在嵌入后依旧能保持,这与局部线性嵌入LLE的思想是一致的。
Z ∗ = min ⁡ Z ∈ R ϖ × n ∣ ∣ P Ω ( Y T Y ) − P Ω ( Z T Z ) ∣ ∣ F 2 Z^* = \min_{Z \in \mathbb{R}^{\varpi \times n}}||P_\Omega(Y^\textrm{T}Y) - P_\Omega(Z^\textrm{T}Z)||_F^2 Z=ZRϖ×nmin∣∣PΩ(YTY)PΩ(ZTZ)F2

其中 Y ∈ R L × n Y\in\mathbb{R}^{L \times n} YRL×n是原标签矩阵, Z ∈ R ϖ × n Z\in\mathbb{R}^{\varpi \times n} ZRϖ×n是降维后的标签矩阵, ϖ ≪ L \varpi \ll L ϖL, Ω \Omega Ω为下标对集合,存放了标签的近邻, ( i , j ) ∈ Ω (i,j) \in \Omega (i,j)Ω表示样本j是样本i的邻居,注意, ( i , j ) ∈ Ω ⇏ ( j , i ) ∈ Ω (i, j) \in \Omega \nRightarrow (j, i) \in \Omega (i,j)Ω(j,i)Ω.
在上式中,
P Ω ( Y T Y ) ( i , j ) = y i T y j ,  if  ( i , j ) ∈ Ω , 0  otherwise . P_\Omega(Y^\textrm{T}Y)_{(i,j)} = y_i^\text{T}y_j, \text{ if } (i, j) \in \Omega, 0 \text{ otherwise}. PΩ(YTY)(i,j)=yiTyj, if (i,j)Ω,0 otherwise.

在找出最优的 Z Z Z之后,SLEEC试图寻找一个regressor V拟合特征空间:
min ⁡ V ∈ R ϖ × d ∣ ∣ Z ∗ − V X ∣ ∣ F 2 + μ ∣ ∣ V ∣ ∣ F 2 + λ ∣ ∣ V X ∣ ∣ 1 \min_{V \in \mathbb{R}^{\varpi \times d}} ||Z^* - VX||^2_F + \mu ||V||_F^2 + \lambda ||VX||_1 VRϖ×dmin∣∣ZVXF2+μ∣∣VF2+λ∣∣VX1
上式引入了F范数避免over-fitting,引入了 l 1 l_1 l1正则学习regressor V V V的稀疏表示。但上式直接优化不可行,这是因为large-scale,SLEEC将训练集聚类为几个小的局部区域(这一过程是无监督的)。所以,具有相似标签的样本不一定被划分到同一区域,这是SLEEC存在的问题。有些其他的方法试图解决这一问题:比如AnnexML,DEFRAG等方法,这里不再介绍。

关于嵌入式方法,也有引入word2vec这种方法来学习标签的嵌入 Z Z Z (Gupta2019Distributional),随后利用SLEEC的优化方法学习regressor V V V.

基于树的方法:
我先前的博文里面总结了一些了,比如FastXML,PFastReXML,SwiftXML, CRAFTXML,PLT等等。这里不再赘述。

One-vs-all方法

One-vs-all(OVA)方法是一种比较流行的多标签学习方法. 其主要思想是为每一个类别训练一个单独的分类器.
如果将OVA方法引入到XMC问题中,就存在一些问题,主要是由于XMC的标签太多, OVA的计算代价昂贵.
为了解决此问题,出现了一些sub-linear的算法, 比如PD-Sparse, PPD-Sparse, DiSMEC, ProXML, Parabel.

标签有限的多标签学习方法-(Limited Supervision)

这一部分并非针对XMC,而是针对一般的MLC.

完全的Supervised Data通常是比较困难和代价昂贵的.此时就涉及到一个Limited Supervision的方法.
其中包含几个方面:

缺失标签的MLC- Multi-label learning with missing labels (MLML).

MLML主要有两种设置:(1) 只获取一个相关标签的子集,但不知道哪些是遗漏标签,denoted by y i ∈ { − 1 , + 1 } L y_i \in \{-1,+1\}^L yi{1,+1}L;其中-1表示缺失或者负标签;(2) 精确指示哪些标签是缺失的, y i ∈ { − 1 , 0 , + 1 } L y_i \in \{-1, 0, +1\}^L yi{1,0,+1}L,其中0表示缺失标签。这两种设置的区别见下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4fC3grpv-1667395895112)(images/MLML.png)]

本文讨论了三种MLML方法,分别是Low-rank and Embebdding method,Grapah-based method,以及其他技术。下面分别介绍:

Low-rank and Embedding

Xu等人(Xu2013Speedup)将MLML问题看成一个利用辅助信息(i.e., the features)对Low-rank矩阵复原的问题:标签矩阵由下式进行分解:
Y = A W B , Y = AWB, Y=AWB
其中A和B是附加信息矩阵, W W W假定是低秩的。Xu等人认为这里的A就是特征矩阵,而B是单位阵,因为没有针对标签的额外附加信息。因此, W W W可以看成是一个线性分类器,使得 Y = X W Y=XW Y=XW
LEML(Yu2014Large-Scale)将上式泛化为一个经验风险极小化的问题:
W = arg min ⁡ W L ( Y ^ , X W ) + λ r ( W ) ,  s.t. rank ( W ) ≤ k . W = \argmin_{W} \mathcal{L}(\hat{Y}, XW) + \lambda r(W), \text{ s.t. rank}(W) \leq k. W=WargminL(Y^,XW)+λr(W), s.t. rank(W)k.
其中 r r r为正则项, L \mathcal{L} L可以为任意经验风险。
为了解决长尾标签(tailed labels)可能破坏低秩属性这一问题,Xu等人(Xu2016Robust)将tailed labels看看成是离群点,标签矩阵被分解为两个矩阵的累加: Y ^ ≈ Y 1 − Y 2 \hat{Y} \approx Y_1 - Y_2 Y^Y1Y2,其中 Y 1 Y_1 Y1是低秩的, Y 2 Y_2 Y2是稀疏的。 Y 1 , Y 2 Y_1,Y_2 Y1,Y2可解以下优化目标得到:
min ⁡ U , V , H ∣ ∣ Y ^ − Y 1 − Y 2 ∣ ∣ 2 + λ 1 ∣ ∣ H ∣ ∣ F 2 + λ 2 ( ∣ ∣ U ∣ ∣ F 2 + ∣ ∣ V ∣ ∣ F 2 ) + λ 3 ∣ ∣ X H ∣ ∣ 1 .  s.t.  Y 1 = X U V , Y 2 = X H \min_{U,V,H} ||\hat{Y}-Y_1-Y_2||^2 + \lambda_1 ||H||_F^2 + \lambda_2 (||U||_F^2 + ||V||_F^2) + \lambda_3 ||XH||_1.\\ \text{ s.t. } Y_1 = XUV, Y_2 = XH U,V,Hmin∣∣Y^Y1Y22+λ1∣∣HF2+λ2(∣∣UF2+∣∣VF2)+λ3∣∣XH1. s.t. Y1=XUV,Y2=XH
关于低秩矩阵分解衍生了很多的方法,比如:
Han等人(Han2018Multi-label)研究了特征和标签都不完全的问题。他们提出了ColEmbed方法要求分类器以及复原的特征矩阵都是低秩的,同时引入了核技巧将分类器做非线性处理。
Xu等人(Xu2018Matrix)考虑了一个更复杂的设置:标签和特征都同时有缺失。他们通过迹范数(trace norm)强制连接特征矩阵和标签矩阵为低秩的(没看懂)。
ML-LRC这种方法假定标签矩阵能够通过使用相关性矩阵进行重建: Y = Y ^ T U Y = \hat{Y}^TU Y=Y^TU,其中 U U U是低秩的,损失则由 ∣ ∣ X W − Y U ∣ ∣ F 2 ||XW-YU||_F^2 ∣∣XWYUF2进行度量(没看懂)。

Graph-based methods

图模型也常被用来解决缺失标签的问题。
令一个带权图 G = ( V , E , W ) G = (V,E,W) G=(V,E,W),其中 V = { x i } i = 1 n V = \{x_i\}_{i=1}^n V={xi}i=1n E = { ( x i , x j ) } E=\{(x_i,x_j)\} E={(xi,xj)}为边集, W = [ w i j ] n × n W=[w_{ij}]_{n\times n} W=[wij]n×n为权重矩阵,当 ( x i , x j ) ∉ E (x_i,x_j)\notin E (xi,xj)/E时, w i j = 0 w_{ij}=0 wij=0。当图被定义好之后,一种典型的策略是在经验风险极小化框架下添加流形正则。
Sun等人(Sun2010Multi-label)首次提出了弱标签的多标签学习问题,并构建label-specific graph,通过给每个标签单独添加流形正则解决该问题。
Wu等人(2014Multi-label)形式化定义了MLML的其他类型的设置问题,包含三种假设:
(1)标签一致性。预测标签应该和初始标签保持一致。
(2)实例级平滑性。两个样本如果相近,那么其标签向量也相近。(针对这一点,tree-based方法SwiftXML似乎有不同的观点)
(3)标签级平滑性。如果两个标签向量在语义上是相似的,那么它们的标签向量的距离也比较近。

Wu等人构建了k近邻图以满足实例级平滑性和标签级平滑性(这个k近邻图就是一个二维矩阵,其中的元素值为两个样本在特征空间上的距离(实例级),或在标签空间上的距离(标签级)。这里的距离定义类似于高斯核。
w i j x = exp ⁡ ( − ∣ ∣ x i − x j ∣ ∣ 2 2 ∣ ∣ x i − x h ∣ ∣ 2 ∣ ∣ x j − x h ∣ ∣ 2 ) , w i j y = exp ⁡ ( − η [ 1 − ⟨ Y ^ i . Y ^ j . ⟩ ∣ ∣ Y ^ i . ∣ ∣ 2 ∣ ∣ Y ^ j . ∣ ∣ 2 ] ) w_{ij}^x = \exp(-\frac{||x_i-x_j||^2_2}{||x_i-x_h||_2||x_j-x_h||_2}), w_{ij}^y = \exp(-\eta[1-\frac{\langle\hat{Y}_{i.}\hat{Y}_{j.}\rangle}{||\hat{Y}_{i.}||_2||\hat{Y}_{j.}||_2}]) wijx=exp(∣∣xixh2∣∣xjxh2∣∣xixj22),wijy=exp(η[1∣∣Y^i.2∣∣Y^j.2Y^i.Y^j.])
其中 Y ^ i , . \hat{Y}_{i,.} Y^i,.是第i个样本的标签向量(有缺失标签)。
Wu等人通过下式复原缺值标签向量:
min ⁡ Y ˙ ∣ ∣ Y ˙ − Y ^ ∣ ∣ F 2 + λ x 2 tr ( Y ˙ L x Y ˙ T ) + λ y 2 tr ( Y ˙ T L y Y ˙ ) \min_{\dot{Y}} ||\dot{Y}-\hat{Y}||_F^2 + \frac{\lambda_x}{2}\text{tr}(\dot{Y}L_x\dot{Y}^T) + \frac{\lambda_y}{2}\text{tr}(\dot{Y}^TL_y\dot{Y}) Y˙min∣∣Y˙Y^F2+2λxtr(Y˙LxY˙T)+2λytr(Y˙TLyY˙)
其中 L x , L y L_x,L_y Lx,Ly W x , W y W^x,W^y Wx,Wy的Laplace矩阵(不懂为啥要这么写)。
有许多基于图的方法只关注于样本级平滑性原则,比如MLMG-SL,LSML, GLOCAL等。也有基于GNN建模标签依赖的方法。这里不再赘述。

其他解决缺失标签的技术

也有一些其他技术用于MLML任务,比如co-regularized learning(不懂),binary coding embedding,概率图模型,重加权经验风险极小化,bandit-learning等。然而目前解决MLML的主流方法还是Graph-based以及Embedding-based。

半监督多标签学习

在半监督多标签学习(SS-MLC)中,数据集由两部分构成,完全标注的数据和无标注的数据。半监督多标签学习可以看成是MLML的一种特殊情况,即部分样本的标签是完全缺失的。在SS-MLC中,主流的方法也是Graph-based或者是Embedding-based.
在半监督多标签学习中有一种特殊的设置:弱监督的MLC,即数据有完全标注的,有不完全标注的,也有无标注的数据。从广义的角度来讲,有噪声的监督也可以称为弱监督。概率模型是解决弱监督多标签学习的一种流行的方法。
Partial MLC: 允许标注人员提供一个标签的超集作为候选,通常有两阶段学习方法和端到端的学习方法,这一块不再赘述。

多标签学习的其他研究方向

这里只列举,不详细描述。
有噪声标签的MLC;未知标签的MLC(标签空间可能会动态的扩张);多标签主动学习;标签分布学习;多实例的MLC。

深度学习方法

这一块并非个人的研究重点,只列举,不详细阐述。
深度嵌入方法;深度学习极限MLC;深度学习partial和弱监督MLC;深度学习解决未知标签的MLC;
除此之外,还有在线多标签学习和统计多标签学习。这和个人的研究方向不甚相关,不再赘述。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值