论文阅读 (91)：Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact Supervision

本文链接：https://blog.csdn.net/weixin_44575152/article/details/131112093

文章目录

1 要点
2 方法
3 实验
- 3.1 实验设置
- - 3.1.1 数据集

1 要点

1.1 概述

名称：多示例偏标签学习：探索面向对偶不确切监督信息的学习范式 (multi-instance partial-label learning: towards exploiting dual inexact supervision)
官方说明：https://mp.weixin.qq.com/s/PlQZ_WybtE1cQBGZeT3UeQ
背景：不确切监督学习包括多示例学习 (MIL) 和偏标签学习 (PLL)。在不确切监督情形中，确切的实例与标签之间的对应关系未知，例如图1(a)中，MIL未区分正包中的正实例；如图1(b)所示，PLL中存在伪正标签，这些都是不确切监督信息的来源。

图1：不同的弱监督学习框架，其中灰色多边形表示错误正标签

问题：在很多应用场景中，不确切监督信息同时存在于实例空间和标签空间，即对偶不确切监督信息，如图2所示。在此场景下，MIL和PLL均只能得到次优解。

图2：多示例偏标签 (MIPL) 的潜在应用，其中红色表示真实标签

方法：本文提出基于高斯过程的多示例偏标签学习 (MIPLGP)：
1. 提出标签增广策略，为每个MIPL实例的候选标签集增加一个负类别标签，以保证候选标签集中包含真实标签；
2. 提出Dirichlet消歧策略，使得模型可以从候选标签集中推断出真实标签，以及满足多输出高斯过程回归模型的求解条件；
3. 设计MIPLGP算法解决MIPL问题。

1.2 代码及数据集

代码：http://palm.seu.edu.cn/zhangml/files/MIPLGP.rar
数据集：http://palm.seu.edu.cn/zhangml/Resources.htm#MIPL_data

1.3 引用

@article{Tang:2023:128,
author		=	{Wei Tang and Wei Jia Zhang and Min-Ling Zhang},
title		=	{Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact Supervision},
journal		=	{Science China Information Science},
pages 		=	{1--28},
year		=	{2023},
url			=	{https://arxiv.org/pdf/2212.08997}
}

2 方法

MIPLGP为第一个处理MIPL问题的算法，首先介绍其符号系统。

令 $\mathcal{X}=\mathbb{R}^d$ 表示实例空间， $\mathcal{Y}=\{ l_1,l_2,\dots,l_q \}$ 表示标签空间，其中 $q$ 是类别数量。MIPL的目标是基于训练数据集 $\{ (\boldsymbol{X}_i,\boldsymbol{y}_i) | 1\leq i\leq m \}$ 和相应的候选标签集习得一个分类器 $h$ ： $2^\mathcal{X}\to\mathcal{Y}$ ，其中 $m$ 表示包的数量。特别地，MIPL的单个样本表示为 $(\boldsymbol{X}_i,\boldsymbol{y}_i)$ ，其中 $\boldsymbol{X}_i=[\boldsymbol{x}_i^1,\boldsymbol{x}_i^2,\dots,\boldsymbol{x}_i^{z_i}]$ 是包含 $z_i$ 个实例的包、 $\boldsymbol{x}_i^j\in\mathcal{X}$ ，以及 $\boldsymbol{y}_i=[y_i^1,y_i^2,\dots,y_i^q]\in\{ 0,1 \}^q$ 是候选标签集，其中 $y_i^c=1$ 表示第 $c$ 个标签是候选标签之一。

2.1 标签增广

在MIL中，仅有包标签可用，而实例标签未知。为了处理这个问题，一个简单的方法就是将包的标签简单的视作实例的虚拟标签。显然这样会给正包中的负实例分配错位的标签。相应地，在MIPL中，如果包级别候选标签集直接应用在包内实例上，大部分实例的真实标签将不存在于候选标签集中，这将违背PLL设置。

为了处理以上问题，我们引入增广标签空间 $\tilde{\mathcal{Y}}=\{ l_1,l_2,\dots,l_q,l_{neg} \}$ ，其中类别数为 $\tilde{q}=q+1$ ，即将不属于标签空间 $\mathcal{Y}$ 的实例分配给增强负类 $l_{neg}$ 。例如，给定一个MIL包 $\boldsymbol{X}_i$ ，其候选标签集为 $\boldsymbol{y}_i=[y_i^1,y_i^2,\dots,y_i^q]^\top$ ，每个实例的增广候选标签集为 $\tilde{\boldsymbol{y}}_i=[y_i^1,y_i^2,\dots,y_i^q,y_i^{neg}]^\top$ ，其中 $y_i^{neg}=1$ 。

令 $\mathbf{X}=[\boldsymbol{x}_1^1,\boldsymbol{x}_1^2,\dots,\boldsymbol{x}_1^{z_1},\boldsymbol{x}_2^1,\boldsymbol{x}_2^2,\dots,\boldsymbol{x}_m^1,\dots,\boldsymbol{x}_m^{zm}]^\top\in\mathbb{R}^{n\times d}$ 表示包含包中所有实例的特征句子，其中 $\tilde{\mathbf{Y}}=[\tilde{\boldsymbol{y}}_1^1,\tilde{\boldsymbol{y}}_1^2,\dots,\tilde{\boldsymbol{y}}_1^{z_1},\tilde{\boldsymbol{y}}_2^1,\tilde{\boldsymbol{y}}_2^2,\tilde{\boldsymbol{y}}_m^1,\tilde{\boldsymbol{y}}_m^{z_m}]^\top{T}\in\mathbb{R}^{n\times \tilde{q}}$ ，以及 $n=\sum_{i = 1}^m z_i$ 是实例总数。

2.2 Dirichlet消歧

受PLL中消歧策略的启发，本文构建了一个用于MIPL的Dirichlet消歧策略。

给定增强MIPL训练数据集 $(\mathbf{X},\tilde{\mathbf{Y}})$ ，单个实例及其候选标签集科研表示为 $(\boldsymbol{x}_i^j,\tilde{\boldsymbol{y}}_i^j)$ 。当上下文清晰时，为了简介，我们省略了实例的索引，即有 $(\boldsymbol{x}_i,\tilde{\boldsymbol{y}}_i)$ 。直观上，可以使用类别分布 $\text{Cat}(\boldsymbol{\theta}_i)$ 来推断实例的真实标签，其中类别概率 $\boldsymbol{\theta}_i=[\theta_i^1,\theta_i^2,\dots,\theta_i^q,\theta_i^{neg}]$ 是一个多值连续随机变量、 $\sum_{c=1}^{\tilde{q}}\theta_i^c=1$ ，以及 $\theta_i^c\leq0$ 。为了建立类别分布的类别概率，本文使用Dirichlet分布，其是一个到类别分布的先验共轭，可以降低计算困难。具体地，使用一个带有注意力参数 $\boldsymbol{\alpha}_i=[\alpha_i^1,\alpha_i^2,\dots,\alpha_i^q,\alpha_i^{neg}]$ 的Dirichlet分布 $\text{Dir}(\boldsymbol{\alpha}_i)$ 来度量 $\boldsymbol{\theta}_i$ 。综上，似然模型给定为：
$\tag{1} p(\tilde{\boldsymbol{y}}_i|\boldsymbol{\alpha}_i)=\text{Cat}(\boldsymbol{\theta}_i),\boldsymbol{\theta}_i\sim\text{Dir}(\boldsymbol{\alpha}_i).$ 为了从Dirichlet分布中获取系数 $\boldsymbol{\theta}_i$ ， $\boldsymbol{\alpha}_i$ 的准确值变得至关重要。再监督学习中，每个实例都对应一个真实标签，因此一个厂里权重可以被直接附加给真实标签所对应的索引。例如，给定一个观察 $\boldsymbol{y}_i=[y_i^1,y_i^2,\dots,y_i^q]^\top$ ，其满足 $y_i^c=1$ 且 $y_i^j=0(\forall j\neq c)$ ，我们有 $\alpha_i^c=\omega+\alpha_\epsilon$ 和 $\alpha_i^j=\alpha_\epsilon$ ，其中 $0<\alpha_\epsilon\ll1$ 是Dirichlet先验。然而，在MIPL中直接添加一个常量权重是不合适的，因为候选标签集被虚假正标签污染了。为了克服这个问题，本文将Dirichlet分布与迭代消歧策略协同作用，以从受污染的候选标签集中识别真实标签。为了实现消歧策略， $\alpha_i^c,c\in\{1,2,\dots,q,neg\}$ 被初始化为均匀权重：
$\tag{2} \alpha_i^c=\left\{\begin{aligned} &\frac{1}{|\tilde{\boldsymbol{y}}_i|}+\alpha_\epsilon&\text{if}y_i^c=1,\\ &\alpha_\epsilon&\text{otherwise}, \end{aligned}\right.$ 其中 $0<\alpha_\epsilon\ll1$ ，以及 $|\tilde{\boldsymbol{y}}_i|$ 是增强候选标签集 $\tilde{\boldsymbol{y}}_i$ 中非零元素的数量。分类器输出的softmax值 $\tilde{\boldsymbol{h}}_i=\tilde{\boldsymbol{h}}(\boldsymbol{x}_i)=[h_i^1,h_i^2,\dots,h_i^q,h_i^{neg}]$ 表示每个候选标签属于真实标签的概率。因此，在每次迭代中，我们利用softmax值来逐步消除虚假正标签和鉴定真实标签：
$\tag{3} \alpha_i^c=\left\{\begin{aligned} &\frac{\text{exp}(h_i^c)}{\sum_{y_i^t=1}\text{exp}(h_i^t)}+\alpha_\epsilon&\text{if}y_i^c=1,\\ &\alpha_\epsilon&\text{otherwise}. \end{aligned}\right.$ 接下来的问题变成如何从Dirichlet分布中采样。考虑到生成的质量与代价，设计了一个两阶段过程来从 $\tilde{\boldsymbol{q}}$ 个独立Gamma分布随机变量中生成Dirichlet采样：

从Gamma分布 $\text{Gamma}(\alpha_i^c,1)$ 中生成 $\tilde{\boldsymbol{q}}$ 个Gamma分布随机变量 $\{\gamma_i^1,\gamma_i^2,\dots,\gamma_i^q,\gamma_i^{neg}\}$ ；
标准化Gamma分布随机变量：
$\tag{4} \theta_i^c=\frac{\gamma_i^c}{\sum_{j=1}^{\tilde{q}}\gamma_i^j},\qquad\gamma_i^c\sim\text{Gamma}(\alpha_i^c,1).$

$\text{Gamma}(\alpha_i^c,1)$ 的概率密度函数为 $\frac{\gamma^{\alpha_i^c-1}\text{exp}(-\gamma)}{\Gamma(\alpha_i^c)}$ ，其中 $\alpha_i^c>0$ 被称为形状参数，以及 $\Gamma(\cdot)$ 是Gamma函数。

为了使用确切的高斯过程模型来准确推测 $\alpha_i^c$ ，使用来自对数正态分布 $\text{LogNormal}(\dot{y}_i^c,\dot{\sigma}_i^c)$ 的随机变量 $\dot{x}_i^c$ ，通过矩匹配来近似 $\gamma_i^c$ ，即均值匹配 $\mathbb{E}[\gamma_i^c]=\mathbb{E}[\dot{x}_i^c]$ 和方差匹配 $\mathbb{V}[\gamma_i^c]=\mathbb{V}[\dot{x}_i^c]$ ：
$\tag{5} \alpha_i^c=\text{exp}(\dot{y}_i^c+\frac{\dot{\sigma_i^c}}{2}),\\ \alpha_i^c=(\exp(\dot{\sigma}_i^c)-1)\exp(2\dot{y}_i^c+\dot{\sigma}_i^c)$ 基于Milios的工作，以上近似是合理的。 $\operatorname{LogNormal}\left(\dot{y}_i^c, \dot{\sigma}_i^c\right)$ 的参数可以通过求解公式5推到:
$\tag{6} \begin{gathered} \dot{\sigma}_i^c=\log \left(\frac{1}{\alpha_i^c}+1\right), \\ \dot{y}_i^c=\log \alpha_i^c-\frac{\dot{\sigma}_i^c}{2}=\frac{3}{2} \log \alpha_i^c-\frac{1}{2} \log \left(\alpha_i^c+1\right), \end{gathered}$ 其中 $\dot{y}_i^c$ 是对数空间中的连续标签，以及 $\dot{\sigma}_i^c$ 是与 $\dot{y}_i^c$ 相关的变量。基于以上Dirichlet消歧策略，原始样本 $(\boldsymbol{x}_i,\tilde{\boldsymbol{y}}_i)$ 被转换为 $(\boldsymbol{x}_i,\dot{\boldsymbol{y}}_i)$ ，其中 $\dot{\boldsymbol{y}}_i$ 是具有连续标签的候选标签集。此外，一个高斯似然在对数空间中构建。给定一个MIPL训练集 $(\mathbf{X},\tilde{\mathbf{Y}}$ ，我们将候选标签集重塑为按行拼接 $\dot{\mathbf{Y}}=\left[\dot{\boldsymbol{y}}_1^1 ; \dot{\boldsymbol{y}}_1^2 ; \cdots ; \dot{\boldsymbol{y}}_1^{z_1} ; \dot{\boldsymbol{y}}_2^1 ; \dot{\boldsymbol{y}}_2^2 ; \cdots ; \dot{\boldsymbol{y}}_m^1, \cdots ; \dot{\boldsymbol{y}}_m^{z_m}\right] \in \mathbb{R}^{\tilde{q} n}$ 。

2.3 高斯过程回归模型

基于连续候选标记集矩阵 $\dot{\mathbf{Y}}$ ，可以将MIPL从一个多分类问题转换为有 $\tilde{q}$ 个输出的高斯过程回归过程。为了准确地评估 $\boldsymbol{\alpha}_i$ ，我们基于对数空间中的高斯似然开发了一个用于MIPL的多输出高斯过程回归模型。

对于多输出高斯过程回归模型，首先引入关于 $n$ 个训练实例的 $\tilde{\boldsymbol{q}}$ 个潜在函数 $\left\{f^1(\cdot), f^2(\cdot), \cdots, f^q(\cdot), f^{\text {neg }}(\cdot)\right\}$ 的向量： $\mathbf{F}=$ $\left[f^1, f^2, \cdots, f^{\text {neg }}\right]^{\top}=\left[f_1^1, \cdots, f_n^1, f_1^2, \cdots, f_n^2, \cdots, f_1^{\text {neg }}, \cdots, f_n^{\text {neg }}\right]^{\top}$ ，其中潜在变量 $\mathbf{F}$ 的长度为 $\tilde{q} n$ 。 $\mathbf{F}$ 的分布通过一个先验均值函数 $\mu=0$ 和一个协方差函数，即一个先验核 $k(\cdot, \cdot): \mathbb{R}^d \times \mathbb{R}^d \rightarrow \mathbb{R}$ 定义，其被选择为Mat $\stackrel{\prime}{e}$ rn核。 $\forall c, c^{\prime} \in\{1,2, \cdots, q$ , neg $\}$ ，任意实例对 $x$ and $x^{\prime}$ 输出的相关性可以表示为：
$\tag{7} \operatorname{Cov}\left[f^c(x), f^{c^{\prime}}\left(x^{\prime}\right)\right]=k^c\left(x, x^{\prime}\right)=\left\{\begin{array}{cc} \frac{2^{1-\nu}}{\Gamma(\nu)}\left(\frac{\sqrt{2 \nu} d}{\ell}\right)^\nu K_\nu\left(\frac{\sqrt{2 \nu} d}{\ell}\right) & \text { if } c=c^{\prime} \\ 0 & \text {otherwise.} \end{array}\right.$ 一般而言， $\nu$ 是一个平滑参数，可以取值为 ${0.5,1.5,2.5\}$ 。 $\ell$ 是一个正参数、 $d$ 是两个实例 $x$ 和 $\boldsymbol{x}^{\prime}$ 之间的欧式距离，以及 $K_\nu$ 是修改后的Bessel函数。最终，协方差矩阵 $\mathbf{K} \in \mathbb{R}^{\tilde{q} n \times \tilde{q} n}$ 是由形状为 $n\times n$ 的矩阵 $\mathbf{K}^1, \mathbf{K}^2, \cdots, \mathbf{K}^{\tilde{q}}$ 构成的块对角矩阵。高斯过程将高斯先验置于潜在变量 $\mathbf{F} \sim \mathcal{G} \mathcal{P}(\mathbf{0}, \mathbf{K})$ ，即 $P(\mathbf{F} \mid \mathbf{X})=\mathcal{N}(\mathbf{0}, \mathbf{K})$ 之上，以及对数空间中的高斯似然是 $P(\dot{\mathbf{Y}} \mid \mathbf{F})=\mathcal{N}(\mathbf{F}, \Sigma)$ ，其中 $\Sigma$ 是 $\log \operatorname{Normal}\left(\dot{y}_i^c, \dot{\sigma}_i^c\right)$ 中 $\dot{\sigma}_i^c$ 的矩阵形式。基于Bayes规则，后验分布 $P(\mathbf{F} \mid$ $\mathbf{X}, \dot{\mathbf{Y}}) \propto P(\mathbf{F} \mid \mathbf{X}) P(\dot{\mathbf{Y}} \mid \mathbf{F})$ 以及边缘似然 $P(\dot{\mathbf{Y}} \mid \mathbf{X})=\int_F P(\mathbf{F} \mid \mathbf{X}) P(\dot{\mathbf{Y}} \mid \mathbf{F})$ 都是高斯分布。

以上似然均基于实例级特征和标签。然而，在MIL中，不可避免的一个问题是如何汇聚实例标签为包标签。这个问题在MIPL中同样存在，且由于多分类设置，其将更困难。一个可行的方式是将包标签设置为所有实例类别标签概率的最大值。令 $\widetilde{\boldsymbol{\Theta}}_i=\left[\boldsymbol{\theta}_i^1, \boldsymbol{\theta}_i^2, \cdots, \boldsymbol{\theta}_i^{z_i}\right]^{\top} \in \mathbb{R}^{z_i \times \bar{q}}\left(\boldsymbol{\theta}_i^j=\left[\theta_i^1, \theta_i^2, \cdots, \theta_i^q, \theta_i^{\text {neg }}\right]^{\top}\right.$ for $\left.j=1,2, \cdots, z_i\right)$ 表示实例的类别概率，我们将 $\widetilde{\boldsymbol{\Theta}}_i$ 裁剪为 $\Theta_i=\left[\hat{\boldsymbol{\theta}}_i^1, \hat{\boldsymbol{\theta}}_i^2, \cdots, \hat{\boldsymbol{\theta}}_i^{z_i}\right]^{\top} \in \mathbb{R}^{z_i \times q}$ ，其中 $\hat{\boldsymbol{\theta}}_i^j=\left[\theta_i^1, \theta_i^2, \cdots, \theta_i^q\right]^{\top}$ 。最终，汇聚的包标签为：
$\tag{8} Y_i=\psi\left(\Theta_i\right),$ 其中 $\psi\left(\boldsymbol{\Theta}_i\right)$ 用于查询 $\Theta_i$ 列索引的最大值。MIPLGP的板块图如图3所示，其中灰色圈表示观测变量，即特征和包标签，白色圈表示潜在变量。

在训练阶段，模型参数 $\Phi$ 通过最小化负对数边缘似然习得：
$\tag{9} \mathcal{L}=-\log P(\dot{\mathbf{Y}} \mid \mathbf{X}, \Phi) \propto \log |\mathbf{K}|+\dot{\mathbf{Y}}^{\top} \mathbf{K}^{-1} \dot{\mathbf{Y}},$ 其导数为：
$\tag{10} \frac{\partial \mathcal{L}}{\partial \Phi} \propto \operatorname{Tr}\left(\mathbf{K}^{-1} \frac{\partial \mathbf{K}}{\partial \Phi}\right)-\dot{\mathbf{Y}}^{\top} \mathbf{K} \frac{\partial \mathbf{K}^{-1}}{\partial \Phi} \mathbf{K} \dot{\mathbf{Y}}$ 其中 $\operatorname{Tr}(\cdot)$ 是矩阵的迹操作。对于高斯过程， $\mathbf{K}^{-1}$ 的Gholesky过程通常需要消耗 $\mathcal{O}\left(\tilde{q} n^3\right)$ 。而在GPU加速下，时间复杂度可以降为 $\mathcal{O}\left(\tilde{q} n^2\right)$ 。此外，一个预处理器被用于进一步加速计算。

给定一个无表情包 $\boldsymbol{X}_*=\left[x^1, x^2, \cdots, x^{z_*}\right]$ ，GP模型首先生成预测分布 $P\left(\mathbf{F}^* \mid \mathbf{X}, \dot{\mathbf{Y}}, x^{i_*}\right)\left(i_*=1,2, \cdots, z_*\right)$ ，其中 $\mathbf{F}^*=\left[f^{* 1}, f^{* 2}, \cdots, f^{* \tilde{q}}\right]^{\top}$ 是相应的潜在变量。类别标签的Dirichlet厚颜通过预测分布获取，因此类别概率的期望为：
$\tag{11} \mathbb{E}\left[\theta_{i_*}^c \mid \mathbf{X}, \dot{\mathbf{Y}}, x^{i_*}\right]=\int_{\mathbf{F}^*} \frac{\exp \left(f^{* c}\left(x^{i_*}\right)\right)}{\sum_{j=1}^{\tilde{q}} \exp \left(f^{* j}\left(x^{i *}\right)\right)} P\left(f^{* c}\left(x^{i_*}\right) \mid \mathbf{X}, \dot{\mathbf{Y}}, x^{i *}\right),$ 其中 $P\left(f^{* c}\left(x^{i_*}\right) \mid \mathbf{X}, \dot{\mathbf{Y}}, x^{i_*}\right)$ 是用于 $f^{* c}(\cdot, \cdot)$ 的预测分布。令实例 $\boldsymbol{x}^{i_*}$ 的类别概率为 $\boldsymbol{\theta}_*^{i_*}=\left[\theta_{i_*}^1, \theta_{i_*}^2, \cdots, \theta_{i_*}^q, \theta_{i_*}^{\text {neg }}\right]$ ，且令 $\widetilde{\Theta}_*=\left[\boldsymbol{\theta}_*^1, \boldsymbol{\theta}_*^2, \cdots, \boldsymbol{\theta}_*^{z_*}\right]^{\top} \in \mathbb{R}^{z_* \times \tilde{q}}$ 表示测试包 $\boldsymbol{X}_*$ 中所有实例的类别概率。然后，去除类别 $l_{\text {neg }}$ ，得到 $\Theta_* \in \mathbb{R}^{z * \times q}$ 。最终包的预测概率为:
$\tag{12} Y_*=\psi\left(\Theta_*\right)$ 算法1总结了MIPLGP的完整过程。

3 实验

3.1 实验设置

3.1.1 数据集

目前并没有严格意义上的MIPL数据集，对此，我们合成了五个MIPL数据集，包括MNIST-MIPL、FMNIST-MIPL、Newsgroups-MIPL、Birdsong-MIPL，以及SIVAL-MIPL。

表1总结了这些数据集的特点，其中表头从第二列开始依次表示包的数量、实例的数量、最大包的大小、最小包的大小、实例的维度、对应数据集的目标类别数量、MIPL中目标类标签的数量、保留类标签的数量，以及每个数据集中正实例的百分比。

为了合成带有候选标签集的MIL包，我们从目标类别中选择正实例，负实例则从保留类中选择。此外，在没有替换的情况下从目标类中采样虚假正标签。为了更全面的性能评估，虚假正标签的数量依赖于控制参数 $r(|\boldsymbol{y}_i|=r+1)$ 。