多标签学习发展趋势

摆烂办不到

已于 2022-11-04 16:39:52 修改

阅读量1.1k

点赞数 2

分类专栏： Machine learning 文章标签：学习人工智能

于 2022-10-25 20:41:02 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/127521350

版权

Machine learning 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

多标签学习文献综述

《The Emerging Trends of Multi-Label Learning》-PAMI,2021.

本文系统梳理了多标签学习的发展趋势和SOTA技术。下面这张图概括了本文的研究内容。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9Q5PyCRM-1666701607093)(images/ML_techniques.png)]

从这张图里我们可以看出，多标签学习主要分为：
极限多标签学习（Extreme Multi-label Learning）：嵌入式方法，基于树的方法，以及one-vs-all的方法，作者这里似乎漏掉了深度学习在XC上的应用。
有限监督的多标签学习（Multi-label Learning with Limited Supervision）：缺值的多标签学习，半监督，Partial多标签学习（不懂）。
深度多标签学习：深度嵌入，etc
在线多标签学习
统计多标签学习
以及一些应用领域：机器视觉，自然语言处理，数据挖掘。

先码住，有时间系统阅读本文内容。

极限多标签分类

关于极限多标签分类，也可参考我先前的文章。

嵌入式方法：
说白了，就是将特征空间或者标签空间映射到低维空间，这个过程可以称之为编码（encoding）。
嵌入式方法的主要不同点在于编码和解码方法。

在嵌入式方法中SLEEC是一个经典的，且影响深远的方法。
SLEEC学习标签的低维嵌入，通过保持距离最近的标签向量的距离（比如k近邻），它可以非线性地捕获标签的相关性。
所以，SLEEC试图找到一个低维嵌入，使得在原标签空间下的标签距离在嵌入后依旧能保持，这与局部线性嵌入LLE的思想是一致的。
$Z^* = \min_{Z \in \mathbb{R}^{\varpi \times n}}||P_\Omega(Y^\textrm{T}Y) - P_\Omega(Z^\textrm{T}Z)||_F^2$

其中 $Y\in\mathbb{R}^{L \times n}$ 是原标签矩阵， $Z\in\mathbb{R}^{\varpi \times n}$ 是降维后的标签矩阵， $\varpi \ll L$ , $\Omega$ 为下标对集合，存放了标签的近邻， $\in \Omega$ 表示样本j是样本i的邻居，注意， $\in \Omega \nRightarrow (j, i) \in \Omega$ .
在上式中，
$P_\Omega(Y^\textrm{T}Y)_{(i,j)} = y_i^\text{T}y_j, \text{ if } (i, j) \in \Omega, 0 \text{ otherwise}.$

在找出最优的 $Z$ 之后，SLEEC试图寻找一个regressor V拟合特征空间:
$\min_{V \in \mathbb{R}^{\varpi \times d}} ||Z^* - VX||^2_F + \mu ||V||_F^2 + \lambda ||VX||_1$
上式引入了F范数避免over-fitting，引入了 $l_1$ 正则学习regressor $V$ 的稀疏表示。但上式直接优化不可行，这是因为large-scale，SLEEC将训练集聚类为几个小的局部区域（这一过程是无监督的）。所以，具有相似标签的样本不一定被划分到同一区域，这是SLEEC存在的问题。有些其他的方法试图解决这一问题：比如AnnexML，DEFRAG等方法，这里不再介绍。

关于嵌入式方法，也有引入word2vec这种方法来学习标签的嵌入 $Z$ (Gupta2019Distributional)，随后利用SLEEC的优化方法学习regressor $V$ .

基于树的方法：
我先前的博文里面总结了一些了，比如FastXML，PFastReXML,SwiftXML, CRAFTXML，PLT等等。这里不再赘述。

One-vs-all方法

One-vs-all(OVA)方法是一种比较流行的多标签学习方法. 其主要思想是为每一个类别训练一个单独的分类器.
如果将OVA方法引入到XMC问题中,就存在一些问题,主要是由于XMC的标签太多, OVA的计算代价昂贵.
为了解决此问题,出现了一些sub-linear的算法, 比如PD-Sparse, PPD-Sparse, DiSMEC, ProXML, Parabel.

标签有限的多标签学习方法-(Limited Supervision)

这一部分并非针对XMC,而是针对一般的MLC.

完全的Supervised Data通常是比较困难和代价昂贵的.此时就涉及到一个Limited Supervision的方法.
其中包含几个方面:

缺失标签的MLC- Multi-label learning with missing labels (MLML).

MLML主要有两种设置：(1) 只获取一个相关标签的子集,但不知道哪些是遗漏标签，denoted by $y_i \in \{-1,+1\}^L$ ；其中-1表示缺失或者负标签；(2) 精确指示哪些标签是缺失的， $y_i \in \{-1, 0, +1\}^L$ ，其中0表示缺失标签。这两种设置的区别见下图：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4fC3grpv-1667395895112)(images/MLML.png)]

本文讨论了三种MLML方法，分别是Low-rank and Embebdding method，Grapah-based method，以及其他技术。下面分别介绍：

Low-rank and Embedding

Xu等人(Xu2013Speedup)将MLML问题看成一个利用辅助信息（i.e., the features）对Low-rank矩阵复原的问题:标签矩阵由下式进行分解：
$Y = A W B ，$
其中A和B是附加信息矩阵， $W$ 假定是低秩的。Xu等人认为这里的A就是特征矩阵，而B是单位阵，因为没有针对标签的额外附加信息。因此， $W$ 可以看成是一个线性分类器，使得 $Y = X W$ 。
LEML（Yu2014Large-Scale）将上式泛化为一个经验风险极小化的问题：
$\argmin_{W} \mathcal{L}(\hat{Y}, XW) + \lambda r(W), \text{ s.t. rank}(W) \leq k.$
其中 $r$ 为正则项， $\mathcal{L}$ 可以为任意经验风险。
为了解决长尾标签（tailed labels）可能破坏低秩属性这一问题，Xu等人（Xu2016Robust）将tailed labels看看成是离群点，标签矩阵被分解为两个矩阵的累加： $\hat{Y} \approx Y_1 - Y_2$ ，其中 $Y_1$ 是低秩的， $Y_2$ 是稀疏的。 $Y_1,Y_2$ 可解以下优化目标得到：
$\min_{U,V,H} ||\hat{Y}-Y_1-Y_2||^2 + \lambda_1 ||H||_F^2 + \lambda_2 (||U||_F^2 + ||V||_F^2) + \lambda_3 ||XH||_1.\\ \text{ s.t. } Y_1 = XUV, Y_2 = XH$
关于低秩矩阵分解衍生了很多的方法，比如：
Han等人（Han2018Multi-label）研究了特征和标签都不完全的问题。他们提出了ColEmbed方法要求分类器以及复原的特征矩阵都是低秩的，同时引入了核技巧将分类器做非线性处理。
Xu等人（Xu2018Matrix）考虑了一个更复杂的设置：标签和特征都同时有缺失。他们通过迹范数（trace norm）强制连接特征矩阵和标签矩阵为低秩的（没看懂）。
ML-LRC这种方法假定标签矩阵能够通过使用相关性矩阵进行重建: $\hat{Y}^TU$ ，其中 $U$ 是低秩的，损失则由 $XW-YU||_F^2$ 进行度量（没看懂）。

Graph-based methods

图模型也常被用来解决缺失标签的问题。
令一个带权图 $G = (V, E, W)$ ，其中 $V = \{x_i\}_{i=1}^n$ ， $E=\{(x_i,x_j)\}$ 为边集， $W=[w_{ij}]_{n\times n}$ 为权重矩阵，当 $(x_i,x_j)\notin E$ 时， $w_{ij}=0$ 。当图被定义好之后，一种典型的策略是在经验风险极小化框架下添加流形正则。
Sun等人（Sun2010Multi-label）首次提出了弱标签的多标签学习问题，并构建label-specific graph，通过给每个标签单独添加流形正则解决该问题。
Wu等人（2014Multi-label）形式化定义了MLML的其他类型的设置问题，包含三种假设：
（1）标签一致性。预测标签应该和初始标签保持一致。
（2）实例级平滑性。两个样本如果相近，那么其标签向量也相近。（针对这一点，tree-based方法SwiftXML似乎有不同的观点）
（3）标签级平滑性。如果两个标签向量在语义上是相似的，那么它们的标签向量的距离也比较近。

Wu等人构建了k近邻图以满足实例级平滑性和标签级平滑性（这个k近邻图就是一个二维矩阵，其中的元素值为两个样本在特征空间上的距离(实例级)，或在标签空间上的距离（标签级）。这里的距离定义类似于高斯核。
$w_{ij}^x = \exp(-\frac{||x_i-x_j||^2_2}{||x_i-x_h||_2||x_j-x_h||_2}), w_{ij}^y = \exp(-\eta[1-\frac{\langle\hat{Y}_{i.}\hat{Y}_{j.}\rangle}{||\hat{Y}_{i.}||_2||\hat{Y}_{j.}||_2}])$
其中 $\hat{Y}_{i,.}$ 是第i个样本的标签向量（有缺失标签）。
Wu等人通过下式复原缺值标签向量：
$\min_{\dot{Y}} ||\dot{Y}-\hat{Y}||_F^2 + \frac{\lambda_x}{2}\text{tr}(\dot{Y}L_x\dot{Y}^T) + \frac{\lambda_y}{2}\text{tr}(\dot{Y}^TL_y\dot{Y})$
其中 $L_x,L_y$ 为 $W^x,W^y$ 的Laplace矩阵（不懂为啥要这么写）。
有许多基于图的方法只关注于样本级平滑性原则，比如MLMG-SL，LSML, GLOCAL等。也有基于GNN建模标签依赖的方法。这里不再赘述。

其他解决缺失标签的技术

也有一些其他技术用于MLML任务，比如co-regularized learning(不懂)，binary coding embedding，概率图模型，重加权经验风险极小化，bandit-learning等。然而目前解决MLML的主流方法还是Graph-based以及Embedding-based。

半监督多标签学习

在半监督多标签学习(SS-MLC)中，数据集由两部分构成，完全标注的数据和无标注的数据。半监督多标签学习可以看成是MLML的一种特殊情况，即部分样本的标签是完全缺失的。在SS-MLC中，主流的方法也是Graph-based或者是Embedding-based.
在半监督多标签学习中有一种特殊的设置：弱监督的MLC，即数据有完全标注的，有不完全标注的，也有无标注的数据。从广义的角度来讲，有噪声的监督也可以称为弱监督。概率模型是解决弱监督多标签学习的一种流行的方法。
Partial MLC: 允许标注人员提供一个标签的超集作为候选，通常有两阶段学习方法和端到端的学习方法，这一块不再赘述。