极限多标签学习之-PLT

摆烂办不到

已于 2022-09-19 22:29:09 修改

阅读量388

点赞数

分类专栏： Machine learning 文章标签：机器学习

于 2022-09-17 22:23:22 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/126911719

版权

Machine learning 专栏收录该内容

28 篇文章 5 订阅

订阅专栏

《Probabilistic label trees for extreme multi-label classification》

核心思想：根据XC的树状层次结构，将所有训练样本赋给树中的所有结点，并判断样本 $\mathbf{x}$ 在结点 $v$ 上是正例还是负例。
判断依据是，样本 $\mathbf{x}$ 在结点 $v$ 的所有叶子结点上的标签是否包含1，如果包含，那么其在 $v$ 上就是正例，否则为负例。
这样每个结点就有了一个训练样本集（只有正例和负例），然后为每一个结点训练一个binary分类器。

问题定义

符号系统：

Key notations	Meaning
$\mathcal{X}$	instance space
$\mathcal{L} = \{1, \dots, m\}$	Label set
$\mathcal{Y} = \{0, 1\}^m$	Label space
$\mathbf{x} \in \mathcal{X}$	an instance
$\mathbf{y} \in \mathcal{Y}$	a label corresponding to $\mathbf{x}$
$\mathcal{L}_\mathbf{x} \subseteq \mathcal{L}$	relevant(positive) labels, otherwise irrelevant(positive) labels. $y_j = 1 \Leftrightarrow j \in \mathcal{L}_\mathbf{x}$
$R(\cdot)$	The expected loss, or risk
$\mathbf{P}(\mathbf{x},\mathbf{y})$	观测 $(\mathbf{x},\mathbf{y})$ 的概率分布, 假定每个观测独立采样
$\ell(\mathbf{y},\hat{\mathbf{y}})$	Loss
$T$	The tree
$L_T$	leaf set; $l_j \in L_T$ 对应 $\in \mathcal{L}$
$V_T$	the set of all nodes
$L_v \subseteq L_T$	内节点 $v$ 的所有叶子
$\mathcal{L}_v \subseteq \mathcal{L}$	内节点 $v$ 对应的所有叶子的标签集合
$\uparrow(v), \downarrow(v)$	父节点，直接孩子节点集合
$\text{Path}(v)$	从 $v$ 到根节点的路径
$\text{len}_v$	路径长度
$\text{deg}_v$	节点 $v$ 的度

本文作者的问题定义写的很好，读起来很通畅。先前也看了一些XC的文章，都没有将问题定义描述的很好（或者压根没有问题定义）。

极限多标签分类问题可定义为（类似于多标签分类问题的定义）：寻找一个分类器 $\mathbf{h}(\mathbf{x}) = (h_1(\mathbf{x}),\dots,h_m(\mathbf{x})) \in \mathcal{H}^m:\mathcal{X}\mapsto \mathbb{R}^m$ ，使得期望损失极小：
$R_\ell(\mathbf{h}) = \mathbb{E}_{(\mathbf{x}, \mathbf{y}) \sim \mathbf{P}(\mathbf{x},\mathbf{y})}(\ell(\mathbf{y},\mathbf{h}(\mathbf{x})))$
一般地， $m\geq 10^5,|\mathcal{L}_\mathbf{x}| \ll m$ 。那么在损失 $\ell$ 上的最优分类器为：
$\mathbf{h}_\ell^* = \argmin_{\mathbf{h}} R_\ell(\mathbf{h})$
文中定义了一个分类器 $\mathbf{h}$ 针对损失 $\ell$ 的遗憾(regret)：
$\text{reg}_\ell(\mathbf{h}) = R_\ell(\mathbf{h}) - R_\ell(\mathbf{h}_\ell^*) = R_\ell(\mathbf{h}) - R_\ell^*$
当然它越小越好。
模型希望 $L_1$ 估计误差最小：
$|P(y_j=1|\mathbf{x}) - \hat{P}(y_j=1|\mathbf{x})|$
令 $\ell_\text{log}$ 为交叉熵损失，其在样本 $\mathbf{x}$ 上的条件风险（也就是期望损失）为：
$\mathbb{E}_\mathbf{y}\ell_{\text{log}}(\mathbf{y},\mathbf{h}(\mathbf{x})) = \sum_{j=1}^m R_\text{log}(h_j(\mathbf{x})|\mathbf{x})$
那么最优预测为
$h_j^*(\mathbf{x}) = \argmin_\mathbf{h}R_\text{log}(h_j(\mathbf{x})|\mathbf{x})$
当然，交叉熵损失函数实际上只对应一般的（文章中用了一个似乎比较地道的词：vanilla）1-vs-all方法。
而更加流行的评价指标就有 $P @ k, n D CG @ k, PSP @ k$ 等，也就是人们通常只关心top-k。

PLT model

什么是标签树？如果标签结构有层次关系，那么标签树可以自然导出（不一定是如下图所示的二叉结构）。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0jUaOGeR-1663573740332)(images/006.png)]

文章定义了一个 $\mathbf{z}$ 向量。对任意一个 $\mathbf{y} \in \mathcal{Y}$ ， $\mathbf{z} = \{z_{v_1}, z_{v_2}, \dots\}$ ，其中的分量对应标签树中的节点，比如对节点 $v$ ：
$z_{v} = 1 \text{ if } \sum_{j \in \mathcal{L}_v} y_j \geq 1, 0 \text{ otherwise}.$
其中 $\mathcal{L}_v$ 为节点 $v$ 下的所有叶子节点标签集合。
根据链式法则，有
$P(z_v = 1 | \mathbf{x}) = \prod_{v' \in \text{Path}(v)} P(z_{v'} = 1 | z_{\uparrow(v')} = 1, \mathbf{x}) = P(z_v = 1 | z_{\uparrow(v)}=1, \mathbf{x}) P(z_{\uparrow(v)} = 1 | \mathbf{x})$

作者提出了一个Proposition: 对任意一个 $\mathbf{P}(\mathbf{y}|\mathbf{x})$ ，以及一个内节点 $v\in V_T \setminus L_T$ ，都有下式成立
$\sum_{v'\in \downarrow(v)} P(z_{v'}=1 | z_{v}=1, \mathbf{x}) \geq 1$
这个Proposition说明了：如果对于一个节点 $v$ ，它存在至少一个叶子上的标签为1，那么其子节点条件概率之和应该要大于等于1。之所以是大于等于而不是等于，考虑是multi-label场景不存在mutual exclusive；如果在multi-class场景下，那么上式应该只能是等于符号。

且 $P(z_v = 1 | \mathbf{x})$ 满足
$\max\{P(z_{v'}=1|\mathbf{x}) : v' \in \downarrow(v)\} \leq P(z_v = 1 | \mathbf{x}) \leq \min \{1, \sum_{v'\in \downarrow(v)} P(z_{v'}=1 | \mathbf{x})\}$
上式很好理解：任意一个节点的无条件概率应该总是大于其子节点的无条件概率（这被称为Hierarchical constraint，在层次多标签分类问题里面是一种常见的约束），且应该总是小于其子节点概率之和。

训练阶段：为所有树中的节点训练分类器。
在这里插入图片描述

这里Algorithm2表示，将一个样本赋给树中的每一个节点Negative/Positive。
意思就是，如果一个样本在某一个标签上的值为1，那么该样本在对应的节点和祖先节点上都是positive的，否则为negative。
Algorithm1就是将每一个样本按照positive/negative的方式赋给每一个节点，这样树中的每一个节点都有了一些正例和负例样本，进而为每一个节点训练binary分类器。

所以什么是PLT？就是一棵树，其中每个结点对应一个binary分类器用以预测一个样本在当前结点的概率。

算法部分看起来相当简单，但非常的novel！PLT将多标签分类问题转化成了在树结构结点上的若干二分类问题，在预测阶段就可以剪枝了！

预测阶段：很显然，要能搜索这颗标签树（每个结点的分类器得到测试样本的估计概率），以得到预测结果。
文中采用了两种策略，一种是根据给定的概率阈值决定是否剪枝（算法3第5行），树的搜索过程采用栈结构就可以了。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-37Jrlr1i-1663573740333)(images/008.png)]