周志华机器学习笔记-C13

Guy Black

于 2024-10-03 15:47:39 发布

阅读量96

点赞数 2

分类专栏：周志华《机器学习》笔记文章标签：机器学习笔记支持向量机

本文链接：https://blog.csdn.net/weixin_61986755/article/details/142692647

版权

周志华《机器学习》笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

半监督学习

介于监督学习与无监督学习的学习方法，旨在通过将未标记训练数据生成标记等方式充分利用数据监督学习、或基于额外信息作无监督的约束。

一、未标记样本

1、基于未标记样本的学习：考虑样本集中同时存在有标记样本与无标记样本，有标记样本数目远小于无标记者。若引入外部信息，可以先基于有标记样本训练出一个样本，再“查询”无标记样本的标记，若这样的样本比较典型，则查询较少次数即可。但是也可以直接利用未标记数据本身的特点给出其标记，用于训练，这样让学习器不依赖外界交互、自动利用未标记样本提升学习性能的方法及半监督学习。

2、半监督学习基本假设：相似样本拥有相似输出，相似可能是基于聚类或流形邻近给出的判断。

3、半监督学习分类：纯半监督：未标记样本不是待预测数据，全部都可用以提升泛化性能；直推学习：未标记样本本身就是待预测的。

二、半监督学习典型算法

1、生成式方法：认为所有数据都由同一潜在模型生成（如混合高斯的），未标记数据也可以合理应用，只需将其缺失标签视为模型的缺失参数，最终目的是充分利用数据训练出生成模型的参数。不同生成手段产生不同方法，下主要基于混合高斯生成。

假设数据样本由混合高斯生成，混合系数为x属于第i个高斯混合成分的概率。基于此的分类算法是使得y=j后验概率最大化的j分类。

考虑到此表达后半部分无需知道标签，可将表达拆分为有无标记的2部分后利用EM算法求解模型参数。

2、S3VM半监督SVM：S3VM是SVM在半监督学习上的推广，试图找到将两类有标记样本分开，且穿过“低密度区”（即可能的聚类边界）的超平面。典型算法为TSVM算法，它考虑对未标记样本进行可能的标记指派。

3、图半监督学习：一种形象的算法，即数据集中每个样本对应图的一个结点，用结点之间的带权边表征两点之间的相关程度，设想有标记样本对应一个染色点，标记指定即该染色在图上的扩散。

构建图集，包括点集与边集，点集前l个为有标记，后u个无标记。定义边集为亲和矩阵。

考虑二元分类f，它作用与点集的前l分量即前l标记。根据相似样本有相似标记，定义f的能量函数并令其取极小。

代入即可计算未标记数据的分类标签fu。

4、基于分歧的方法（协同学习）：上述方法均仅采用单学习器，此时采用多学习器交互协同训练。即对一个有多属性集（如电影的声音特征（含音高、频率等）、图像特征）而预测同一目标的数据集（如预测电影分类），可基于不同属性集的已标记数据分别训练学习器，再用其对未标记数据进行标记，对最有把握的数据赋以伪标签并用于对方学习器的新一轮学习，直到满足要求。训练出的学习器，再投入数据时将不同属性集数据分别投入两个学习器给出分类结果并综合。

5、半监督聚类：前述任务均是基于有监督学习的任务，无标签被认为是未知的预测，对聚类这种无监督任务，少量的有标签数据是一种额外信息或者“约束”。常给的额外数据信息有两种：一种是指定某样本子集必属于同一聚类或不同聚类，另一种是给定了少量的标记信息（如标记了某数据必属于某聚类）。

前一种信息下的典型算法是约束k均值算法。它以k均值算法为基础，每次迭代检验是否违反约束条件，违反则报错。

后一种较为简便，直接让给定的数据作为聚类种子，即同一类数据均值作为原型向量，并且在后续保持不动即可。称约束种子k均值。