极限多标签之-PfastreXML

摆烂办不到

已于 2022-09-19 15:52:23 修改

阅读量334

点赞数 1

分类专栏： Machine learning 文章标签：算法机器学习

于 2022-09-14 21:39:54 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/126860961

版权

Machine learning 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

PfastreXML阅读笔记

《Extreme Multi-label loss functions for recommendation, tagging, ranking & Other missing label applications》阅读笔记

本文的核心：设计了Propensity-score的XC损失函数。也就是搞出了PSP，PSDCG，PSnDCG等指标。

动机

relevant labels.
精确预测相关的标签为1比预测不相关的标签为0更重要。而传统的HammingLoss赋予相关标签和不相关标签相同的惩罚。
missing labels.
在XC问题中，这是必然存在的现象，由于标签数很多，annotator不可能through所有的标签。
missing labels并不是指不知道这个标签的值，而是这个标签应该为1，但在数据集中却为0，也就是被annotator遗漏的标签。
传统Hamming损失会惩罚对missing label的预测。因为实际上missing labels的值和irrelevant labels都是0.
PS. missing labels和irrelevant labels在标签上是无法区分的。而在传统的multi-label问题中，一种场景是missing labels是未知的，学习者并不知道missing labels应该为0还是1. 在这种情况下，missing labels通常被赋予一个不同的值，比如-1。
Tailed labels.
标签在数据集中出现的次数服从幂律分布。i.e., 尽管Wikipedia和Amazon的数据量非常大，但是有非常多的标签occur不到5次。

符号：

Key notations	Meaning
$\mathbf{y}^*$	完全的真实标签（省略了样本下标i），不可获得
$\mathbf{y}$	观测到的真实标签
$\hat{\mathbf{y}}$	估计的标签
$p_l$	标签 $l$ 的倾向性（省略了样本下标i）

Propensity-score losses

本文说的是损失，其实就指标而言，它们是越大越好。
重点是设计了以下几种损失 $-\mathcal{L}(\mathbf{y},\hat{\mathbf{y}})$ ：
$(\text{Propensity-score Precision}) \text{ PSP}@k := \frac{1}{k} \sum_{l\in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l}$
$\text{PSDCG}@k := \sum_{l \in \text{rank}_k(\hat{\mathbf{y}})} \frac{\mathbf{y}_l}{p_l\log(l+1)}$
$\text{PSnDCG}@k := \frac{\text{PSDCG@$k$}}{\sum_{l=1}^{k} \frac{1}{\log(l+1)}}$

另外也拓展了Propensity-score的 $\text{Recall}@k$ , $\text{MRR}$ , $\text{ADG}$ , $F_\beta \text{ score}$ ，但这些损失依赖 $\mathbf{y}^*$ ，本文没有重点讨论它们。

令 $\mathcal{L}^*(\mathbf{y}^*, \hat{\mathbf{y}})$ 为真实的损失，但是它根本就没办法计算，因为 $\mathbf{y}^*$ 不可获得。

所以本文提出了它的无偏估计 $-\mathcal{L}(\mathbf{y},\hat{\mathbf{y}})$ 使得
$\mathbb{E}_\mathbf{y}[\mathcal{L}(\mathbf{y},\hat{\mathbf{y}})] = \mathbb{E}_\mathbf{y^*}[\mathcal{L}^*(\mathbf{y}^*,\hat{\mathbf{y}})]$
只看懂了这一个定理。本文还提出了其他的定理以支持那些依赖 $\mathbf{y}^*$ 的损失，根本看不懂。

$p_l$ 是啥？

对于一个样本 $\mathbf{x}_i$ ，它在标签 $l$ 上的倾向性被定义为：
$p_{il} \equiv P(y_{il} = 1 | y^*_{il} = 1)$
从形式上看，它是针对样本 $\mathbf{x}_i$ 在相关的标签 $l$ 上被观测到的边缘概率。
也就是说， $\mathbf{x}_i$ 和 $l$ 相关，但它不一定被观测到。
~~比如：假设 $\mathbf{x}_i$ 与20个标签相关，但annotator只标注了其中5个，那么 $p_{il} = 0.25$~~ （这句话是错误的，理解偏差）。
另外本文假设没有错误标注，也就是
$P(y_{il} = 1 | y^*_{il} = 0) = 0$

意思就是说，标签的噪声只来源于遗漏，而不存在错误(one sided)。
为了表示方便，本文用 $p_l$ 表示 $p_{il}$ 。
注意到， $p_l$ 在损失中作为分母的一部分。
也就是说，如果 $p_l$ 越大，就表示 $l$ 的重要性越低，因为 $p_l$ 越大表示标签 $l$ 越不容易被遗漏。
而本文偏爱那些更容易被遗漏的标签，赋予其更高的重要性。
所以我们在https://blog.csdn.net/wuyanxue/article/details/126805190?spm=1001.2014.3001.5502这篇文章里面的最后提到：Propensity-score强调在tail labels上的表现，而对预测head labels提供微弱的奖励。

$p_l$ 能不能精确得到？显然不能。因此只能做出估计。

估计 $p_l$

本文估计 $p_l$ 的方法比较原始：
$p_l = \frac{N_l}{N_l^*}$
其中 $N_l$ 是标签 $l$ 在观测数据集中出现的次数。而 $N_l^*$ 是 $l$ 在真实数据集中应该出现的次数。 $N_l^*$ 也是通过估计得到。
针对Wikipedia数据，作者假设一个标签如果是相关的，那么其所有祖先标签也都是相关的（Wikipedia的标签应该是具有层次结构）。
所以，令 $\Downarrow(l)$ 是 $l$ 的所有descendant标签，本文估计 $N_l^* = N_l + \sum_{l' \in \Downarrow(l)}N_{l'}$ iff $|\Downarrow(l)| > 4$ .
作者绘制出了 $p_l$ 和 $log(N_l)$ 关系的散点图，发现散点图符合sigmoidal趋势。因此给出了 $p_l$ 的一般化估计公式（A=0.5,B=0.4）：
$p_l \equiv P(y_l = 1 | y_l^* = 1) = \frac{1}{1 + C\exp(-A\log(N_l+B))}$
其中 $C = (\log N - 1)(B+1)^A$ 。
不满足 $|\Downarrow(\uparrow(l))| > 4$ 这个条件的 $p_l$ 通过上式进行估计。

针对Amazon数据，也是上述公式，不过参数 $A, B$ 有所不同。

优化目标

和FastXML类似，不过本文的核心优化目标是直接优化 $\text{PSnDCG}@k$ ：
$\begin{aligned} \min ||\mathbf{w}||_1 & + \sum_i C_\delta(\delta_i) \log(1 + \exp(-\delta_i\mathbf{w}^\text{T}\mathbf{x}_i)) \\ & - C_r \sum_i \frac{1}{2}(1 + \delta_i) \mathcal{L}_{\text{PSnDCG@}L}(\mathbf{r}^+, \mathbf{y}_i) \\ & - C_r \sum_i \frac{1}{2}(1 - \delta_i) \mathcal{L}_{\text{PSnDCG@}L}(\mathbf{r}^-, \mathbf{y}_i) \end{aligned}$

令 $\mathbf{P}_{\text{pf}}(\mathbf{y}^*|\mathbf{x}) = \frac{\sum_{t=1}^T \mathbf{P}_t^{\text{leaf}}(\mathbf{x})}{T}$ 为树型分类器得出的结果，其中 $\mathbf{P}_t^{\text{leaf}}(\mathbf{x})$ 为第 $t$ 颗树得到的样本 $\mathbf{x}$ 的预测结果，和FastXML类似，就是第 $t$ 颗树的top-k score（这里有点小问题，why top-k，FastXML也是top-k）。

不过本文认为，直接利用FastXML中的树型分类器会导致仍然以低概率预测tailed labels。因为内部节点的分区错误不成比例地减少了tailed labels在叶子节点分布中的支持（看不懂）。
不过猜测是由于tailed labels太少了，在叶子节点中分布也就太少而且散。一旦一个tailed labels分区错了，其预测的准确性就会受到比较大的影响。

为了对tailed labels做出更准确的预测，本文还训练了一个针对tail label的分类器 $P(y_l^* = 1 | \mathbf{x})$ 。

最终得到的预测结果是树型分类器与tail label分类器的加权对数平均：
$s_l = \alpha \log P_{\text{pf}}(y_l^*|\mathbf{x}) + (1 - \alpha)\log P(y_l^* = 1 | \mathbf{x})$
$s_l$ 就代表标签 $l$ 的最终得分（越大越好）。

Tail label classifier

本文将tail label classifier设定为一个超球面分类器（不懂，但还是写下来吧）：
$P(y_{il}^*|\mathbf{x}_i) = 1 / (1 + v_{il}^{2y_{il}^*-1})$
其中 $v_{il} = \exp(\frac{\gamma}{2}||\mathbf{x}_i - \pmb{\mu}_l||_2^2)$ 。
利用MLE独立地求解每个标签的 $\pmb{\mu}_l^*$ , prod --> log sum。
本文原本打算采用SGD进行迭代，但发现代价昂贵。所以采用了一种近似策略求解 $\pmb{\mu}_l^*$ ，同时保证了其稀疏性。