极限多标签之FastXML

摆烂办不到

已于 2022-10-20 16:15:21 修改

阅读量1k

点赞数 1

分类专栏： Machine learning 文章标签：算法机器学习人工智能

于 2022-09-12 17:51:02 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/126820250

版权

Machine learning 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

本文介绍了FastXML，一种针对大规模多标签学习的快速、准确且稳定的随机森林分类器。它直接优化nDCG指标，通过在特征空间划分样本，避免了1-vs-all方法的时间复杂问题。文章详细解析了优化目标、过程和算法特点，包括nDCG@L的使用、交替优化策略和决策边界的学习。

摘要由CSDN通过智能技术生成

《FastXML：A Fast, Accurate and Stable Tree-classifier for eXtreme Multi-label Learning》阅读笔记

References:
原文以及：
https://blog.csdn.net/minfanphd/article/details/126793499?spm=1001.2014.3001.5502

核心创新点：

直接优化 $n D CG$ ；
该模型训练一个随机森林manner的分类器；时间复杂度低；并且能implicitly learns balanced partitions?.

Key notations	Description
$\mathbf{x}_i \in \mathbb{R}^D$	an instance with sparsity $O(\hat{D})$ , $\hat{D} \leq D$
$\mathbf{y}_i \in \{0, 1\}^L$	the ground-truth label vector
$L$	The number of labels
$D$	The number of features/dimensions of data
$\mathbf{w}$	Decision boundary for each node
$\mathbf{r}^{\pm}, \delta$	Learning Parameters

Related works (由于不甚了解XC的问题，故给出一些前人研究工作):
如果假定训练一个线性01分类器的代价是 $O(N\hat{D})$ ，那么1-vs-all基线分类器的训练代价为 $O(LN\hat{D})$ ，预测代价为 $O(L\hat{D})$ 。
但是1-vs-all分类器infeasible，当 $\sim 10^5 - 10^6$ 。

嵌入式(Embedding)方法一般在计算复杂度方面优于一般的1-vs-all的分类器。不过该文说嵌入式方法并不优于1-vs-all方法（as to 2014），当 $\hat{L} \approx \log(L)$ 。

在嵌入式方法由于标签非常稀疏，通常压缩标签数量为 $\rightarrow \hat{L}$ 。
低维嵌入方法: $\hat{\mathbf{y}} = \mathbf{P}\mathbf{y}$ ，其中 $P$ 是一个 $\hat{L}\times L$ 的投影矩阵。
如果在压缩后的标签上应用1-vs-all分类器，那么时间代价将降低至：training: $O(\hat{L}N\hat{D})$ ；prediction: $O(\hat{L}\hat{D})$ 。

嵌入式方法需要引入额外的开销 $O(\hat{L}L)$ ，以将压缩后的标签逆变换回 $L$ 。

另外一种嵌入式方法压缩特征 $\hat{\mathbf{x}} = \mathbf{R}\mathbf{x} \in \mathbb{R}^{\hat{L}}$ ，类似于压缩标签那样。

本文比较的两个关键工作：
LPSR: 训练1-vs-all基线分类器，在此基础上，训练一个二叉树状的层次结构。样本将递归地pass down这个树。
MLRF:学习一个随机森林进行决策.

###本文工作

FastXML学习一个层次,并不是在label space上(一些传统multi-class会这样做),而是在feature space上.
Note: 原文是将样本空间进行了划分,实际上是将在特征空间上相近的样本有监督地划分到一个子空间.在特征空间上的相似是根据 $\mathbf{w}^\text{T}\mathbf{x}>0?$ 来决定的. 所以说这里是feature space,大概是这个意思吧.

如Algorithm 1, FastXML训练一组randomized tree (like random forest), 从根节点开始(包含所有样本), 递归地对节点进行划分, 每次划分会将一部分样本划分到左子树,将另外一部分样本划分到右子树. 核心方法是SPLIT_NODE,它决定了如何划分样本,并学习当前节点的线性决策向量 $n.\mathbf{w}$ .
当叶子节点的样本数 $\text{MaxLeaf}$ ,其中 $\text{MaxLeaf}$ 是一个超参数-叶子节点的最大样本数.

在这里插入图片描述

如Alogrithm 3, 在预测阶段, 给定一个样本 $\mathbf{x}$ , 该样本将递归地按照决策边界 $n.\mathbf{w}^{\text{T}}\mathbf{x}$ 决定被分配到左子树还是右子树,直到达到leaf node.
最后获取当前样本在每颗树的叶子节点的top-k score (i.e., $n.\mathbf{P}$ )取平均. 再求得 $\text{rank}_k$ ,作为最终的预测.

Note: 这个top-k score就是叶子节点所包含的所有样本标签的均值的top-k.
在这里插入图片描述

核心工作

令 $\mathbf{rank}_k(\mathbf{y}) = [i_1^{desc},\dots, i_k^{desc}]^{\text{T}}$ , 令 $\Pi(1, L)$ 为 $\{1,\dots, L\}$ 的所有排列组合构成的集合, 令 $\mathbf{r} \in \Pi(1, L)$ .
定义
$\mathcal{L}_{\text{DCG@}k}(\mathbf{r}, \mathbf{y}) = \sum_{l=1}^k \frac{y_{r_l}}{\log (1 + l)}$
$\mathcal{L}_{\text{nDCG@}k}(\mathbf{r}, \mathbf{y}) = I_k(\mathbf{y}) \sum_{l=1}^k \frac{y_{r_l}}{\log (1 + l)}$
其中 $I_k(\mathbf{y}) = \frac{1}{\sum_{l = 1}^{\min(k, \mathbf{1}^\text{T}\mathbf{y})} \frac{1}{\log(1 + l)}}$ .

FastXML为每一个节点定义优化目标(核心目标):
$\begin{aligned} \min ||\mathbf{w}||_1 & + \sum_i C_\delta(\delta_i) \log(1 + \exp(-\delta_i\mathbf{w}^\text{T}\mathbf{x}_i)) \\ & - C_r \sum_i \frac{1}{2}(1 + \delta_i) \mathcal{L}_{\text{nDCG@}L}(\mathbf{r}^+, \mathbf{y}_i) \\ & - C_r \sum_i \frac{1}{2}(1 - \delta_i) \mathcal{L}_{\text{nDCG@}L}(\mathbf{r}^-, \mathbf{y}_i) \end{aligned}$

其中 $\in \mathbb{R}^D, \delta_i \in \{-1, 1\}$ (原文写错了), $\mathbf{r}^+, \mathbf{r}^- \in \Pi(1, L)$ .
$C_\delta, C_r$ 为代价(user defined).

之所以将优化目标定义成这样,有几点原因:

剥离 $\delta, \mathbf{r}^{\plusmn}$ 是为了更高效地优化. (并未将这两个参数表征为 $\mathbf {w}$ 的函数)
Dr. Min认为使用 $\text{nDCG}@L$ 而不是 $k$ 是为了避免在根节点做太重要的决定,从而导致大量信息丢失?
实际上 $\text{nDCG}@p$ 这里的 $p$ 对所有的根和内部节点都是相同的.
原文说明了根据所有标签进行优化是为了保证局部优化不短视.
原文进一步说明: 采用 $L$ 而不是 $k$ 是有好处的,尽管最后预测的时候仍然采用 $k << L$ .
例如，在维基百科数据集的根节点上对k=5的nDCG进行优化，就相当于找到一个分离器，使所有分配给正面分区的几十万维基百科文章都能准确地被贴上正面分区中出现频率最高的五个维基百科类别的标签，对于负面分区也是如此。似乎如此做会导致travial solution?
Dr. Min认为相同的标签可能在正负簇同时出现, 这是正常的. 一个簇里面更可能包含的是相似的标签,不同簇里面更可能包含的是不相似的标签. 并不能保证在不同簇里就一定没有相同的标签.
原文作者认为,起作用的是少量特征(不同的节点这些特征大概不同),因此采用 $\ell_1$ 范数保证稀疏性(相比于 $\ell_2$ )和易优化(相比于 $\ell_0$ ).
为什么采用 $\text{nDCG}$ 而不是 $\text{DCG}$ -尺度问题.

####优化过程

问题的限制: 肯定不能使用SGD,也不能使用次梯度下降. (次梯度下降可用于不可微凸问题的优化,这个问题不是凸问题).

本文采用了交替优化算法(作者居然证明了,厉害):
先优化 $\mathbf{r}^{\plusmn}$ ,再优化 $\delta_i$ ,最后优化 $\mathbf{w}$ ,之所以是这样的优化顺序,是因为优化目标的各个项的影响顺序是 $\mathbf{r}^{\plusmn} \rightarrow \delta_i \rightarrow \mathbf{w}$ .
本文并非完全采用三者交替优化的方法，这是因为针对 $\mathbf{w}$ 的优化过程很慢，本文采用了一种策略是先完全优化 $\mathbf{r}$ 和 $\delta$ ，当这两者中的 $\delta$ 不变的时候，再优化 $\mathbf{w}$ 。

优化 $\mathbf{r}^{\plusmn}$

固定 $\mathbf{w}$ 和 $\delta$ , 优化 $\mathbf{r}^{\plusmn}$ , 显然问题可转化为:
$\max_{\mathbf{r}^{\plusmn} \in \Pi(1, L)} \sum_{i} (1 + \delta_i) \mathcal{L}_{\text{nDCG@}L}(\mathbf{r}^+, \mathbf{y}_i) + \sum_{i}(1 - \delta_i) \mathcal{L}_{\text{nDCG@}L}(\mathbf{r}^-, \mathbf{y}_i)$

如何优化呢?结合 $\mathcal{L}_{\text{nDCG@}L}$ 的公式可以得到:
$\max_{\mathbf{r}^{\plusmn} \in \Pi(1, L)} \sum_{i} (1 + \delta_i) I_L(\mathbf{y}_i) \sum_{l=1}^L \frac{y_{ir_l^{+}}}{\log (1 + l)} + \sum_{i}(1 - \delta_i) I_L(\mathbf{y}_i) \sum_{l=1}^L \frac{y_{ir_l^{-}}}{\log (1 + l)}$
两个独立的问题(因为本身 $\mathbf{r}^{+}$ 和 $\mathbf{r}^-$ 是独立的):
$\max_{\mathbf{r}^{+} \in \Pi(1, L)} \sum_{i: \delta_i = 1} I_L(\mathbf{y}_i) \sum_{l=1}^L \frac{y_{ir_l^{+}}}{\log (1 + l)}$
$\max_{\mathbf{r}^{-} \in \Pi(1, L)} \sum_{i: \delta_i = -1} I_L(\mathbf{y}_i) \sum_{l=1}^L \frac{y_{ir_l^{-}}}{\log (1 + l)}$

原文整合到一块了:
$\begin{aligned} & \max_{\mathbf{r}^{\plusmn} \in \Pi(1, L)} \sum_{i: \delta_i = \plusmn1} I_L(\mathbf{y}_i) \sum_{l=1}^L \frac{y_{ir_l^{\plusmn}}}{\log (1 + l)} \\ \equiv & \max_{\mathbf{r}^{\plusmn} \in \Pi(1, L)} \sum_{l=1}^L \sum_{i: \delta_i = \plusmn 1} \frac{I_L(\mathbf{y}_i)y_{il}}{\log (1 + r_l^{\plusmn})} \\ \equiv & \max_{\mathbf{r}^{\plusmn} \in \Pi(1, L)} (\sum_{i: \delta_i = \plusmn 1} I_L(\mathbf{y}_i) \mathbf{y}_i)^{\text{T}}\mathbf{d}^{\plusmn} \end{aligned}$
其中 $\mathbf{d}^{\plusmn} = [\frac{1}{\log(1 + r_l^{\plusmn})}]_{l=1}^L$ .
第二步容易理解,第三步里面 $\mathbf{d}^{\plusmn}$ 独立于 $i$ ,因此可以拆解出来表示为两个向量的内积.
为了取极大:
$\mathbf{r}^{\plusmn *} = \text{rank}_L(\sum_{i: \delta_i = \plusmn 1} I_L(\mathbf{y}_i) \mathbf{y}_i)$
容易理解. 比如两个向量 $\in \mathbb{R}^n$ 和 $\in \Pi(1, n)$ ,A和B的内积要最大,那么必然可排序A向量使得最小的分量对应1,次小的分量对应2,…,最大的分量对应n.

优化 $\delta$

等价于极小化
$\begin{aligned} \min_{\delta_i \in \{-1, 1\}}& C_\delta(\delta_i) \log(1 + \exp(-\delta_i\mathbf{w}^\text{T}\mathbf{x}_i)) \\ & - C_r \frac{1}{2}(1 + \delta_i) \mathcal{L}_{\text{nDCG@}L}(\mathbf{r}^+, \mathbf{y}_i) \\ & - C_r \frac{1}{2}(1 - \delta_i) \mathcal{L}_{\text{nDCG@}L}(\mathbf{r}^-, \mathbf{y}_i) \end{aligned}$
由于 $\delta_i \in \{-1, 1\}$ ,因此对每个 $\mathbf{x}_i$ , 取两个的极小就可以了. 导出
$\begin{aligned} & \delta_i^* = \text{sign}(v_i^- - v_i^+), \\ & v_i^{\pm} = C_\delta(\plusmn1)\log(1 + \exp(\mp \mathbf{w}^\text{T}\mathbf{x}_i)) - C_r I_L(\mathbf{y}_i)\sum_{l=1}^L\frac{y_{ir_l^\pm}}{\log(1 + l)} \end{aligned}$

优化 $\mathbf{w}$

等价于
$\min_{\mathbf{w}\in \mathbb{R}^D} ||\mathbf{w}||_1 + \sum_i C_\delta(\delta_i) \log(1 + \exp(-\delta_i\mathbf{w}^\text{T}\mathbf{x}_i))$
通过newGLM-Net算法进行优化, newGLM-Net专门解决 $\ell_1$ 正则的Logistic regression(不懂).

作者给出了优化算法的伪代码,也就是节点划分方法:
在这里插入图片描述

总结

本文提出了一个解决XMC的算法,训练阶段:(1) 建立randomized trees; (2) 每棵树递归地生成节点(top-down); (3)样本划分基于每个阶段训练出的决策边界 $n.\mathbf{w}$ ; (4) $n.\mathbf{w}$ 由一个优化目标给出; (5)该优化目标直接针对 $\text{nDCG}$ .
预测阶段: 给定一个新样本 $\mathbf{x}$ ,在每颗树上,按照 $n.\mathbf{w}^\text{T}\mathbf{x}$ 是否大于0被划分到左子树/右子树,直到叶子节点. 通过每颗树达到的叶子节点的top-k scores平均, 就预测出了样本的 $\text{rank}_k$ 标签.
内涵: 将特征空间上相近的样本划分到相同的簇, 相近是根据 $\mathbf{w}^\text{T}\mathbf{x}>0?$ 决定的(监督学习).
优缺点分析: 优点:不需要训练1-vs-all分类器,训练性能高(样本空间划分 --> 特征空间划分), Bagging降低了variance, 创新性强. 缺点(强行说): 没有对标签空间和特征空间进行降维, 如果降维,计算复杂度有可能进一步降低,但降维可能带来信息损失; Bagging通常不鼓励使用,因为任何机器学习算法都可以从模型平均中大幅获益; 实现比较复杂; 不一定全局最优.