第13章半监督学习

最新推荐文章于 2024-03-18 21:16:36 发布

CharlesVan

最新推荐文章于 2024-03-18 21:16:36 发布

阅读量231

点赞数

分类专栏： Machine Learning 文章标签：生成式方法 TSVM算法迭代式标记传播算法协同训练算法约束k均值算法

本文链接：https://blog.csdn.net/williananjhon/article/details/96360124

版权

Machine Learning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

第13章半监督学习

13.1 未标记样本

有标记样本：样本的类别标记已知

未标记样本：样本的类别标记未知

主动学习的目标是使用尽量少的查询来获得尽量号的性能

半监督学习(semi-supervised learning)：让学习器不依赖外界交互，自动地利用未标记样本来提升学习性能

聚类假设(cluster assumption)：假设数据存在簇结构，同一簇的样本属于同一类别

流形假设(manifold assumption)：假设数据分布在一个流形结构上，邻近的样本拥有相似的输出值。

纯半监督学习：假定训练数据中的未标记样本并待预测的数据

直推学习：假定学习过程中所考虑的未标记样本恰是待预测数据

13.2 生成式方法

生成式方法(generative methods)是直接基于生成式模型的方法。假设所有数据都是由同一潜在的模型生成的。这个假设通过潜在模型的参数将未标记数据与学习目标联系起来，而未标记数据的标记可看作模型的缺失参数。

给定样本x，其真实类别标记为 $y\mathcal{\in Y}$ ，其中 $\mathcal{Y} = \left\{ 1,2,\ldots,N \right\}$ 为所有可能的类别，则概率密度生成

$p\left( x \right) = \sum_{i = 1}^{N}{\alpha_{i}*p\left( x \middle| \mu_{i},\Sigma_{i} \right)}$

其中混合系数 $\alpha_{i} \geq 0,\sum_{i = 1}^{N}{\alpha_{i} = 1;p\left( x \middle| \mu_{i},\Sigma_{i} \right)}$ 是样本 $x$ 属于第 $i$ 个高斯混合成分的概率； $\mu_{i}$ 和 $\Sigma_{i}$ 为该高斯混合成分的参数

令 $f\left( x \right)\mathcal{\in Y}$ 表示模型 $f$ 对 $x$ 的预测标记， $\Theta = \left\{ 1,2,\ldots,N \right\}$ 表示样本 $x$ 隶属的高斯混合成分。由最大化后验概率可知
在这里插入图片描述

其中

$p\left( \Theta = i \middle| x \right) = \frac{\alpha_{i}*p\left( x \middle| \mu_{i},\Sigma_{i} \right)}{\sum_{i = 1}^{N}{\alpha_{i}*p\left( x \middle| \mu_{i},\Sigma_{i} \right)}}$

为样本 $x$ 由第 $i$ 个高斯成分生成的后验概率， $p\left( y = j \middle| \Theta = i,x \right)$ 为 $x$ 由第 $i$ 个高斯成分生成且其类别为 $j$ 的概率

给定有标记样本集 $D_{l} = \left\{ \left( x_{1},y_{1} \right),\left( x_{2},y_{2}\right),\ldots,\left( x_{l},y_{l} \right) \right\}$ 和未标记样本集 $D_{u} =\left\{ x_{l + 1},x_{l + 2},\ldots,x_{l + u} \right\},l \ll u,l + u =m$ ，假设所有样本独立同分布，且都是由同一高斯混合模型生成的。用极大似然法来估计高斯混合模型的参数 $\left\{ \alpha_{i},\mu_{i},\Sigma_{i} \middle| 1 \leq i \leq N \right\},D_{l} \cup D_{u}$ 的对数似然为

$\text{LL}\left( D_{l} \cup D_{u} \right) = \sum_{\left( x_{j},y_{j} \right) \in D_{l}}^{}{\ln\left( \sum_{i = 1}^{N}{\alpha_{i}*p\left( x_{j} \middle| \mu_{i},\Sigma_{i} \right)}*p\left( y_{j} \middle| \Theta = i,x \right) \right)} + \sum_{x_{j} \in D_{u}}^{}{\ln\left( \sum_{i = 1}^{N}{\alpha_{i}*p\left( x_{j} \middle| \mu_{i},\Sigma_{i} \right)} \right)}$

上式由两项组成：基于有标记数据 $D_{l}$ 的有监督项和基于未标记数据 $D_{u}$ 的无监督项

高斯混合模型参数估计可用EM算法求解，迭代更新式如下：

E步：根据当前模型参数计算未标记样本 $x_{j}$ 属于各高斯混合成分的概率

$\gamma_{\text{ji}} = \frac{\alpha_{i}*p\left( x_{j} \middle| \mu_{i},\Sigma_{i} \right)}{\sum_{i = 1}^{N}{\alpha_{i}*p\left( x_{j} \middle| \mu_{i},\Sigma_{i} \right)}}$

M步：基于 $\gamma_{\text{ji}}$ 更新模型参数，其中 $l_{i}$ 表示第 $i$ 类的有标记样本数目

$\mu_{i} = \frac{1}{\sum_{x_{j} \in D_{u}}^{}{\gamma_{\text{ji}} + l_{i}}}\left( \sum_{x_{j} \in D_{u}}^{}{\gamma_{\text{ji}}x_{j}} + \sum_{\left( x_{j},y_{j} \right) \in D_{l} \land y_{j} = i}^{}x_{j} \right)$

$\Sigma_{i} = \frac{1}{\sum_{x_{j} \in D_{u}}^{}{\gamma_{\text{ji}} + l_{i}}}\left( \sum_{x_{j} \in D_{u}}^{}{\gamma_{\text{ji}}\left( x_{j} - \mu_{i} \right)}\left( x_{j} - \mu_{i} \right)^{T} + \sum_{\left( x_{j},y_{j} \right) \in D_{l} \land y_{j} = i}^{}{\left( x_{j} - \mu_{i} \right)\left( x_{j} - \mu_{i} \right)^{T}} \right)$

$\alpha_{i} = \frac{1}{m}\left( \sum_{x_{j} \in D_{u}}^{}{\gamma_{\text{ji}} + l_{i}} \right)$

13.3 半监督SVM

半监督支持向量机(Semi-Supervised Support Vector Machine,S3VM)是支持向量机在半监督学习上的推广。

TSVM(Transductive Support Vector Machine)试图考虑对未标记样本进行各种可能的标记指派(label assignment)。

给定 $D_{l} = \left\{ \left( x_{1},y_{1} \right),\ldots,\left( x_{l},y_{l} \right) \right\}$ 和 $D_{u} = \left\{ x_{l + 1},\ldots,x_{l + u} \right\}$ ，其中 $y_{i} \in \left\{ - 1, + 1 \right\},l \ll u,l + u = m$ 。TSVM的学校目标是为 $D_{u}$ 中的样本给出预测标记 $\hat{y} = \left\{ {\hat{y}}_{l + 1},{\hat{y}}_{l + 2},..,{\hat{y}}_{l + u} \right\},{\hat{y}}_{i} \in \left\{ - 1, + 1 \right\}$ ，使得

在这里插入图片描述

其中 $\left( \omega,b \right)$ 确定一个划分超平面； $\xi$ 为松弛向量， $\xi_{i}\left( i = 1,2,\ldots,l \right)$ 对应于有标记样本， $\xi_{i}\left( i = l + 1,l + 2,\ldots,m \right)$ 对应于未标记样本； $C_{l}$ 和 $C_{u}$ 是由樱花指定的用于平衡模型复杂度、有标记样本与未标记样本重要程度的折中参数

13.4 图半监督学习

给定 $D_{l} = \left\{ \left( x_{1},y_{1} \right),\ldots,\left( x_{l},y_{l} \right) \right\}$ 和 $D_{u} = \left\{ x_{l + 1},x_{l + 2},\ldots,x_{l + u} \right\},l \ll u,$
$l + u = m$ ，先基于 $D_{l} \cup D_{u}$ 构建一个图 $\left( V,E \right)$ ，其中结点集 $\left\{ x_{1},\ldots,x_{l},x_{l + 1},\ldots,x_{l + u} \right\}$ ，边集 $E$ 可表示为一个亲和矩阵(affinity matrix)，长基于高斯函数定义为
在这里插入图片描述

其中 $\in \left\{ 1,2,\ldots,m \right\},\sigma >0$ 是用户指定的高斯函数带宽参数。

假定从图 $\left( V,E \right)$ 将学得一个实值函数 $f:V\mathbb{\rightarrow R}$ ，其对于的分类规则为 $y_{i} = \operatorname{sign}\left( f\left( x_{i} \right) \right),y_{i} \in \left\{ - 1. + 1 \right\}$ 。关于 $f$ 的能量函数

$E\left( f \right) = \frac{1}{2}\sum_{i = 1}^{m}{\sum_{j = 1}^{m}{\left( W \right)_{\text{ij}}\left( f\left( x_{i} \right) - f\left( x_{j} \right) \right)^{2}}}$

$\frac{1}{2}\left( \sum_{i = 1}^{m}{d_{i}f^{2}\left( x_{i} \right)} + \sum_{j = 1}^{m}{d_{j}f^{2}\left( x_{j} \right)} - 2\sum_{i = 1}^{m}{\sum_{j = 1}^{m}\left( W \right)_{\text{ij}}}f\left( x_{i} \right)f\left( x_{j} \right) \right)$

$\sum_{i = 1}^{m}{d_{i}f^{2}\left( x_{i} \right)} - \sum_{i = 1}^{m}{\sum_{j = 1}^{m}\left( W \right)_{\text{ij}}}f\left( x_{i} \right)f\left( x_{j} \right) = \mathbf{f}^{\mathbf{T}}\left( \mathbf{D - W} \right)\mathbf{f}$

其中 $\mathbf{f}\mathbf{=}\left( \mathbf{f}_{l}^{T}\mathbf{;}\mathbf{f}_{u}^{T} \right)\mathbf{,}\mathbf{f}_{l}\mathbf{=}\left( f\left( x_{1} \right),f\left( x_{2} \right),\ldots,f\left( x_{l} \right) \right)$ ， $\mathbf{f}_{u}\mathbf{=}\left( f\left( x_{l + 1} \right),f\left( x_{l + 2} \right),\ldots,f\left( x_{l + u} \right) \right)$ ，分别为 $f$ 在有标记样本和未标记样本上的预测结果， $\mathbf{D} = \text{di}\text{ag}\left( d_{1},d_{2},\ldots,d_{l + u} \right)$ 是对角矩阵，其对角元素 $d_{i} = \sum_{j = 1}^{l + u}\left( W \right)_{\text{ij}}$ 为矩阵 $\mathbf{W}$ 的第 $i$ 行元素之和。

具有最小能量的函数 $f$ 在有标记样本上满足 $f\left( x_{i} \right) = y_{i}\left( i = 1,2,..,l\right)$ ，在未标记样本上满足 $\mathbf{\bigtriangleup}\mathbf{f}\mathbf{= 0}$ ，其中 $\mathbf{\bigtriangleup}\mathbf{=}\mathbf{D -W}$ 为拉普拉斯矩阵(Laplacian matrix)，以第l行于第l列为界，采用分块矩阵表示方法 $\mathbf{W}\mathbf{=}\begin{bmatrix} \mathbf{W}_{\text{ll}} & \mathbf{W}_{\text{lu}} \\ \mathbf{W}_{\text{ul}} & \mathbf{W}_{\text{uu}} \\ \end{bmatrix}$ ，则上式为

$E\left( f \right) = \left( \mathbf{f}_{l}^{T}\mathbf{;}\mathbf{f}_{u}^{T} \right)\left( \begin{bmatrix} \mathbf{D}_{\text{ll}} & \mathbf{D}_{\text{lu}} \\ \mathbf{D}_{\text{ul}} & \mathbf{D}_{\text{uu}} \\ \end{bmatrix}\mathbf{-}\begin{bmatrix} \mathbf{W}_{\text{ll}} & \mathbf{W}_{\text{lu}} \\ \mathbf{W}_{\text{ul}} & \mathbf{W}_{\text{uu}} \\ \end{bmatrix} \right)\begin{bmatrix} \mathbf{f}_{l} \\ \mathbf{f}_{u} \\ \end{bmatrix}$

$\mathbf{f}_{l}^{T}\left( \mathbf{D}_{\text{ll}}\mathbf{-}\mathbf{W}_{\text{ll}} \right)\mathbf{f}_{l}\mathbf{-}2\mathbf{f}_{u}^{T}\mathbf{W}_{\text{ul}}\mathbf{f}_{l}\mathbf{+}\mathbf{f}_{u}^{T}\left( \mathbf{D}_{\text{uu}}\mathbf{-}\mathbf{W}_{\text{uu}} \right)\mathbf{f}_{u}$

由 $\frac{\partial E\left( f \right)}{\partial\mathbf{f}_{u}} = 0$ ，得

$\mathbf{f}_{u}\mathbf{=}\left( \mathbf{D}_{\text{uu}}\mathbf{-}\mathbf{W}_{\text{uu}} \right)^{- 1}\mathbf{W}_{\text{ul}}\mathbf{f}_{l}$

令

$\mathbf{P} = \mathbf{D}^{- 1}\mathbf{W}\mathbf{=}\begin{bmatrix} \mathbf{D}_{\text{ll}}^{- 1} & \mathbf{D}_{\text{lu}} \\ \mathbf{D}_{\text{ul}} & \mathbf{D}_{\text{uu}}^{- 1} \\ \end{bmatrix}\begin{bmatrix} \mathbf{W}_{\text{ll}} & \mathbf{W}_{\text{lu}} \\ \mathbf{W}_{\text{ul}} & \mathbf{W}_{\text{uu}} \\ \end{bmatrix}\mathbf{=}\begin{bmatrix} \mathbf{D}_{\text{ll}}^{- 1}\mathbf{W}_{\text{ll}} & {\mathbf{D}_{\text{ll}}^{- 1}\mathbf{W}}_{\text{lu}} \\ \mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{ul}} & \mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{uu}} \\ \end{bmatrix}$

即 $\mathbf{P}_{\text{uu}} = \mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{uu}}\mathbf{,}\mathbf{P}_{\text{ul}} = \mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{ul}}$ ，则

$\mathbf{f}_{u}\mathbf{=}\left( \mathbf{D}_{\text{uu}}\left( \mathbf{I}\mathbf{-}\mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{uu}} \right) \right)^{- 1}\mathbf{W}_{\text{ul}}\mathbf{f}_{l}\mathbf{=}\left( \mathbf{I}\mathbf{-}\mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{uu}} \right)\mathbf{D}_{\text{uu}}^{- 1}\mathbf{W}_{\text{ul}}\mathbf{f}_{l}\mathbf{=}\left( \mathbf{I -}\mathbf{P}_{\text{uu}} \right)^{\mathbf{-}1}\mathbf{P}_{\text{ul}}\mathbf{f}_{l}$

定义一个 $\left( l + u \right) \times \left| \mathcal{Y} \right|$ 的非负标记矩阵 $\left( F_{1}^{T},F_{2}^{T},\ldots,F_{l + u}^{T} \right)^{T}$ ，其中第 $i$ 行元素 $F_{i} = \left( \left( F \right)_{i1},\left( F \right)_{i2},\ldots,\left( F \right)_{i\left| \mathcal{Y} \right|} \right)$ 为示例 $x_{i}$ 的标记向量，相应的分类规则为
在这里插入图片描述
对 $1,2,\ldots,m,j = 1,2,\ldots,\left| \mathcal{Y} \right|$ ，将F初始化为

$F\left( 0 \right) = \left( Y \right)_{\text{ij}} = \left\{ \begin{matrix} 1,if\left( 1 \leq i \leq l \right) \land \left( y_{i} = j \right) \\ 0,otherwise \\ \end{matrix} \right.\$

基于W构造一个传播矩阵 $D^{- \frac{1}{2}}WD^{- \frac{1}{2}}$ ，其中 $D^{- \frac{1}{2}} = \text{diag}\left( \frac{1}{\sqrt{d_{1}}},\frac{1}{\sqrt{d_{2}}},\ldots,\frac{1}{\sqrt{d_{l + u}}} \right)$ ，有迭代计算式

$F\left( t + 1 \right) = \alpha SF\left( t \right) + \left( 1 - \alpha \right)Y$

其中 $\alpha \in \left( 0,1 \right)$ 为用户指定的参数，用于对标记传播 $\text{SF}\left( t \right)$ 与初始化项Y的重要性进行折中，上式迭代至收敛可得
在这里插入图片描述

该算法对应于正则化框架

其中 $\mu > 0$ 为正则化参数

13.5 基于分歧的方法

基于分歧的方法(disagreement-based methods)使用多学习器，而学习器直接的分歧对未标记数据的利用至关重要。

协同训练正是很好地利用了多视图的相容互补性。

充分：每个视图都包含足以产生最优学习器的信息。

条件独立：在给定类别标记条件下两个视图独立。
在这里插入图片描述

13.6 半监督聚类

聚类任务中获得监督信息的类型，第一种类型是必连和勿连约束；第二种类型的监督信息则是少量的有标记样本

约束k均值算法是利用第一类监督信息。给定样本集 $\left\{ x_{1},x_{2},\ldots,x_{m} \right\}$ 以及必连关系集合 $\mathcal{M}$ 和勿连关系集合 $\mathcal{C,}\left( x_{i},x_{j} \right)\mathcal{\in M}$ 表示 $x_{i}$ 和 $x_{j}$ 必属于同簇， $\left( x_{i},x_{j} \right) \in \mathcal{C}$ 表示 $x_{i}$ 和 $x_{j}$ 必不属于同簇。
在这里插入图片描述
给定样本集 $\left\{ x_{1},x_{2},\ldots,x_{m} \right\}$ ，假定少量的有标记样本集为 $\bigcup_{j = 1}^{k}{S_{j} \subset D}$ ，其中 $S_{j} \neq \varnothing$ 为隶属第 $j$ 个聚类簇的样本。