各种监督学习范式（强监督、半监督、多标记、偏标记、多示例、多示例多标记、标记分布...）

云端FFF

已于 2024-08-05 10:14:16 修改

阅读量3k

点赞数 6

分类专栏： # 监督学习文章标签：半监督多示例学习多标记学习标记分布学习监督学习范式

于 2021-09-29 20:30:20 首次发布

本文链接：https://blog.csdn.net/wxc971231/article/details/120552796

版权

监督学习专栏收录该内容

10 篇文章 6 订阅

订阅专栏

参考
1. 张敏灵.偏标记学习研究综述[J].数据采集与处理,2015,30(01):77-87.
2. 季荣姿. 标记分布学习及其应用[D]. 东南大学.
3. 周志华张敏灵 MIML：多示例多标记学习
本文介绍监督学习的七种范式

1. 强监督学习（单示例单标记）

传统监督学习框架在建模时采用强监督假设，即对象的类别标记信息是单一、明确的
学习系统的目标是预测未见对象的标记
标准的强监督学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间， $\pmb{\mathcal{Y}}$ 为标记空间，学习任务是从数据集 $\mathcal{D} = \{(\pmb{x}_i,y_i)|1\leq i\leq m\}$ 中学得映射 $\pmb{\mathcal{X}} \to \pmb{\mathcal{Y}}$ ，其中 $\pmb{x}_i\in\pmb{\mathcal{X}}$ 是一个示例， $y_i \in\pmb{\mathcal{Y}}$ 为示例 $xi \pmb{x}_i$ 所属的类别标记

2. 半监督学习（单示例部分单标记）

半监督学习范式中，训练集中仅有少量样本语义标记已知，而大量样本语义标记未知，学习系统从训练集中可获取的监督信息十分有限
学习系统的目标是预测未见对象的标记（和强监督一样）
半监督学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间， $\pmb{\mathcal{Y}}$ 为标记空间，给定 $L$ 个已标记的训练样本 $\{(\pmb{x}_i,y_i)|1\leq i\leq L\}$ 以及 $U$ 个未标记训练样本 $\{\pmb{x}_i|L+1\leq i\leq L+U\}$ ，其中 $\pmb{x}_i\in\pmb{\mathcal{X}}(1\leq i\leq L+U)$ ， $y_i \in\pmb{\mathcal{Y}}(1\leq i\leq L)$ 且 $L << U$ 。学习任务是从 $L\cup u$ 中学得映射 $\pmb{\mathcal{X}} \to \pmb{\mathcal{Y}}$

3. 多示例学习（多示例单标记）

多示例学习训练集中的每个样本采用示例包的表示形式，样本的语义标记定义在包层次而非示例层次，包为正包当且仅当包中含有正例。因此，学习系统从训练集中获取的监督信息较为有限，即正包中虽然包含正例但并未被明确标识，难以与包中的伪正例加以区分
学习系统的目标是预测未见示例包的标记
多示例学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间， $\pmb{\mathcal{Y}}$ 为标记空间，给定数据集 $\mathcal{D} = \{(\pmb{X}_i,y_i)|1\leq i\leq m\}$ ，其中 $\pmb{X}_i\subset\pmb{\mathcal{X}}$ 为一组示例 $\{\pmb{x}_{i1},\pmb{x}_{i2},...,\pmb{x}_{in_i}\}, \pmb{x}_{ij} \in\pmb{\mathcal{X}}(j=1,2,...,n_i)$ ， $y_i \in\pmb{\mathcal{Y}}$ 为示例 $Xi \pmb{X}_i$ 所属的类别标记。 $n_i$ 代表 $Xi \pmb{X}_i$ 中所包含的示例个数。目标是学得映射 $2^{\bm{\mathcal{X}}} \to \pmb{\mathcal{Y}}$ （集合放在2的指数位置代表幂集，即集合的所有子集之集合）
示例：对图像来说，如果使用某种技术将图像划分为若干个区域，那么每个区域都可以用一个示例来描述，这样，一幅图像就可表示成多个示例组成的一个集合

4. 多标记学习（单示例多标记）

在多标记学习框架下，每个对象可同时具有多个正确的语义标记，学习系统的目标是预测未见对象的标记集合。从形式化的角度看，如果将每种可能的标记集合看作一个类别，则多标记学习在本质上对应于一个多类学习问题，其输出空间的大小（即包含的类别数）具有指数规模。面对如此庞大的输出空间，学习系统从训练样本中获取的监督信息将显得十分有限，许多标记集合在训练集中仅对应于少量样本、甚至从未出现。
学习系统的目标是预测未见示例的标记集合
多标记学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间， $\pmb{\mathcal{Y}}$ 为标记空间，给定数据集 $\mathcal{D} = \{(\pmb{x}_i,\pmb{Y}_i)|1\leq i\leq m\}$ ，其中 $\pmb{x}_i \in\pmb{\mathcal{X}}$ 为一个示例， $\pmb{Y}_i\subseteq\pmb{\mathcal{Y}}$ 为 $xi \pmb{x}_i$ 的一组合适类别标记 $\{y_{i1},y_{i2},...,y_{il_i}\}, y_{ik} \in\pmb{\mathcal{Y}}(k=1,2,...,l_i)$ 。 $l_i$ 代表 $Yi \pmb{Y}_i$ 中所包含的示例个数。目标是学得映射 $\pmb{\mathcal{X}} \to 2^{\bm{\mathcal{Y}}}$ （集合放在2的指数位置代表幂集，即集合的所有子集之集合）

给定大小为 $c$ 标记空间 $\pmb{\mathcal{Y}}$ 和某个样例 $\pmb{x}$ ，如果用 0（1）表示某个标记 $y$ 在（不在） $\pmb{x}$ 标记集中，可以把输出看做一个二进制编码，易见任意样例 $\pmb{x}$ 的输出空间大小为 $2^c-1$
示例：以下图像，既可认为它属于“大象”这个类别，也可认为它属于“狮子”、“草地”、甚至“热带”、“非洲”

5. 多示例多标记学习（多示例多标记）

多义性对象往往具有复杂的内涵，只用一个示例（即一个特征向量）来进行表示是一种过度简化，在表示阶段就丢失了有用的信息，后续的学习阶段将面临极大的困难。事实上，一个多义性对象往往可以用多个示例来描述。于是可以把多实例学习和多标记学习相结合
学习系统的目标是预测未见示例包的标记集合
多示例多标记学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间， $\pmb{\mathcal{Y}}$ 为标记空间，给定数据集 $\mathcal{D} = \{(\pmb{X}_i,\pmb{Y}_i)|1\leq i\leq m\}$ ，其中 $\pmb{X}_i \subseteq\pmb{\mathcal{X}}$ 为一组示例 $\{\pmb{x}_{i1},\pmb{x}_{i2},...,\pmb{x}_{in_i}\}, \pmb{x}_{ij} \in\pmb{\mathcal{X}}(j=1,2,...,n_i)$ ，而 $\pmb{Y}_i\subseteq\pmb{\mathcal{Y}}$ 为 $Xi \pmb{X}_i$ 的一组合适类别标记 $\{y_{i1},y_{i2},...,y_{il_i}\}, y_{ik} \in\pmb{\mathcal{Y}}(k=1,2,...,l_i)$ 。 $n_i$ 代表 $Xi \pmb{X}_i$ 中所包含的示例个数， $l_i$ 代表 $Yi \pmb{Y}_i$ 中所包含的示例个数。目标是学得映射 $2^{\mathcal{X}} \to 2^{\bm{\mathcal{Y}}}$ （集合放在2的指数位置代表幂集，即集合的所有子集之集合）

6. 偏标记学习（单示例真标记伪标记）

在偏标记学习框架下，每个对象可同时获得多个语义标记，和多标记学习不同之处在于，其中仅有一个标记反应了对象的真实语义，该形式的学习场景在现实世界问题中广泛存在
学习系统的目标是预测未见对象的标记（和强监督一样）
偏标记学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间， $\pmb{\mathcal{Y}}$ 为标记空间，给定数据集 $\mathcal{D} = \{(\pmb{x}_i,\pmb{S}_i)|1\leq i\leq m\}$ ，其中 $\pmb{x}_i \in\pmb{\mathcal{X}}$ 为一个示例， $\pmb{S}_i\subseteq\pmb{\mathcal{Y}}$ 为与 $xi \pmb{x}_i$ 对应的候选标记集合， $xi \pmb{x}_i$ 的真实标记 $y_i$ 未知但满足条件 $y_i \in \pmb{S}_i$ 。目标是学得映射 $\pmb{\mathcal{X}} \to {\mathcal{Y}}$
示例：在医疗诊断中，医生虽然可以排除病人患有某些疾病的可能，却往往难以从若干症状相似的疾病中给予确诊；在互联网应用中，用户可以自由地为各种在线对象提供标注，但对象获得的多个标注中可能仅有一个是正确的

7. 标记分布学习（单示例分布标记）

多标记学习能够很好地对 “用哪些标记来描述样本” 这一不确定性问题进行建模，但它不能很好处理 “标记描述示例的程度" 这一更加一般的不确定性问题，比如说，标记集中的每一个标记的描述样本的准确度是多少。一种更加自然地去标记一个示例 $\pmb{x}$ 的方式，是为它的每一个可能的标记 $y$ ，分配一个实数 $d_x^y$ （称之为描述度），用以表示该标记描述示例的程度。进一步假设实例能够由标记分布中的标记完全描述，即有 $\sum_y d_x^y=1$ 对一个特定的示例，它标记集合中所有标记的描述度构建了一个类似于概率分布的数据形式。所以，我们称之为标记分布(label distribution)。传统的单标记强监督学习和多标签学习都是标记分布学习的特殊形式
更具灵活性意味着更大的输出空间，从单标记到多标记再到标记分布，学习任务的输出空间逐渐增大。具体的，对于有 $c$ 个不同标记的问题，在单标记学习中有 $c$ 种不同的输出，在多标记学习中有 $2^c-1$ 种不同的输出，然而在标记分布中，有无数种可能的输出，只要其满足描述度非负且和为1的约束。只有两个标记的情况下，三种学习范式不同的特征空间决策域如下图所示
学习系统的目标是预测未见对象的所有可能标记及其描述度，或者说一个标记分布 $\pmb{D}$ ，由分布律（离散标记集）或条件概率密度函数（连续标记集）表示
标记分布学习框架示意如下
令 $\pmb{\mathcal{X}}$ 为示例空间（特征空间）， $\pmb{\mathcal{Y}} = \{y_1,y_2,...,y_L\}$ 为有限标记空间，给定数据集 $\mathcal{S} = \{(\pmb{x}_i,\pmb{D}_i)|1\leq i\leq m\}$ ，其中 $\pmb{x}_i \in\pmb{\mathcal{X}}, \pmb{D}_i=[d_i^1,d_i^2,...,d_i^L]$ 是样本对应的真实标记分布（其中 $L$ 是每个标记分布中标记的数量，为固定值）。目标是学得条件概率密度函数 $p(y|\pmb{x})$ 表示的样本标记分布

说明： $d_i^j$ 并不表示 $y_i$ 对 $xi \pmb{x}_i$ 正确描述的概率，其表达的是在完全描述 $xi \pmb{x}_i$ 的标记集 $\pmb{\mathcal{Y}}$ 中，标记 $y_j$ 描述程度所占的比例

在这里插入图片描述

示例：电影评分预测任务中，由于电影评分由多个个体进行标注，不同的分数表达了对电影的不同感受，对这些分数取平均得到最终评分并不是非常恰当的方法，因为某些电影的评分存在两极分化，平均得分不能反映人们对于电影的真实评价，而通过预测分布可以很好的解决这个问题。当然，如果把评分的表达程度中高于某个阈值的评分当作正确的标记，那么该问题可以转化为单标记学习或者多标记学习。但是这种转化会丢失人们对于评分的表达强度这个重要信息