极限多标签学习之SwiftXML

摆烂办不到

已于 2022-09-19 15:52:44 修改

阅读量528

点赞数

分类专栏： Machine learning 文章标签：算法机器学习

于 2022-09-16 21:53:01 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/126898355

版权

Machine learning 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

极限多标签学习之SwiftXML

原文：《Extreme Multi-label Learning with label features for warm-start tagging, Ranking & Recommendation》-WSDM

创新点：

FastXML是对特征空间进行划分，本文进一步拓展了PfastreXML以同时支持特征空间和标签空间。
将标签空间表征为word2vec embedding.

动机：

FastXML和PFastreXML只针对text features，但是没有利用tag features（有问题，FastXML是监督学习方法，自然要利用tag features）。
如果针对样本 $\mathbf{x}_i,\mathbf{x}_j$ ，其标签 $\mathbf{y}_i,\mathbf{y}_j$ 只share很少的tags，那么这两个样本将会被视为非常不同的。这里举了个Einstein和Newton的例子，本文说SwiftXML可以从word2vec embedding学习到Einstein和Newton这两篇文章是相似的（从标签空间来衡量，并不从文章角度衡量）。
Note. 什么是word2vec embedding? 将一个word（比如：“king”）转化为一个实数向量。
SwiftXML可以学习标签之间的相关性，而已有的方法将每个标签视作独立？

核心工作

SwiftXML分别在特征空间和标签空间（文章里面说的是user/item feature space）学习两个决策边界，也是randomized trees和递归划分。
这里提到，标签特征编码了关于文章透露的标签偏好的语义信息。
没有直接使用标签向量，而是encode label vector以抽取标签特征。
第i个样本的标签特征定义如下：
$\mathbf{z}_i = \frac{\sum_j y_{ij}^r \mathbf{x}_j'}{||\sum_j y_{ij}^r \mathbf{x}_j'||}$
其中 $\mathbf{y}_i^r = [y_{i1}^r, \dots, y_{iL}^r]$ ，文中并没有解释这个为什么有个上标 $r$ ，推断就是一个denotion。 $r$ 是revealed的缩写，就是被观测到的标签向量（含有missing labels）。关于被观测到的标签向量和真实的标签向量，可参考：https://blog.csdn.net/wuyanxue/article/details/126860961?spm=1001.2014.3001.5501

$\mathbf{x}_j' \in \mathbb{R}^{D'}$ 是第j个标签的特征向量（这个符号看的相当难受）,后面根本就没有对 $\mathbf{x}_j'$ 的进一步解释。
推断 $\mathbf{x}_j'$ 其实就是第j个标签的word2vec embedding.

为什么要将标签特征按照上式进行定义？
保证具有重叠标签的样本在标签空间上是相似的。正好对应动机的第2点。
因为如果直接采用标签向量，那么即使两个标签向量有重叠，它们也不一定相似，采用了word2vec这种方法可以提取出标签向量之间的相似性。(这大概是本文的核心创新点了)。

拓展思考: $\mathbf{z}_i$ 可以利用一般的距离度量方法考查相似性。

优化过程就是在PfastReXML的基础上，加入 $\mathbf{z}_i$ 的决策边界的学习。

$\begin{aligned} \min & \quad ||\mathbf{w}_x||_1 + \sum_i C_x \log(1 + \exp(-\delta_i\mathbf{w}_x^\text{T}\mathbf{x}_i)) \\ & + ||\mathbf{w}_z||_1 + \sum_i C_z \log(1 + \exp(-\delta_i\mathbf{w}_z^\text{T}\mathbf{z}_i)) \\ & - C_r \sum_i \frac{1}{2}(1 + \delta_i) \mathcal{L}_{\text{PSnDCG@}L}(\mathbf{r}^+, \mathbf{y}_i^r) \\ & - C_r \sum_i \frac{1}{2}(1 - \delta_i) \mathcal{L}_{\text{PSnDCG@}L}(\mathbf{r}^-, \mathbf{y}_i^r) \end{aligned}$
Note: $\mathbf{x}_i$ 和 $\mathbf{x}_i'$ 不一样，前者表示第 $i$ 个文章（样本），后者表示第 $i$ 个标签的word2vec。

上述目标的优化过程和FastXML类似，不赘述。

问题：当学习器学到了 $\mathbf{w}_x,\mathbf{w}_z$ 之后，怎么预测样本 $\mathbf{x}$ 。
本文采用了一种常规方法，两个的线性组合作为划分超平面：
$C_x\mathbf{w}_x^\text{T}\mathbf{x} + C_z\mathbf{w}_z^\text{T}\mathbf{z} > 0 ? \text{left} : \text{right}$