一、简介
1.平滑假设
如果高密度区域中两个点x1、x2距离较近,那么对应的输出y1、y2也应该接近。
2.聚类假设(平滑性假设的一个特例)
如果两个点在同一个簇,那么他们很有可能属于同一个类别。
3.流形假设
高维数据大致会分布在一个低维的流形上。流形上邻近的样本拥有相似的输出。
二、半监督学习算法
1.自我训练
自学习算法:
- 假设:输出的高度置信的预测是正确的
- 自学习算法:1.从学习f。2.对,计算预测结果f(x)。3.把(x,f(x))加入到标注数据。4.重复上述过程。
- 自学习的变体:1.加入一些置信度最高的(x, f(x))到标注数据集2. 把所有(x, f(x))加到标注数据3. 把所有(x, f(x))加到标注数据,为每条数据按置信度赋予权重
自我训练的优缺点
优点:1.最简单的半监督学习方法,效果不错。2.这是一种wrapper方法,可以应用到已有的(复杂)分类器上。缺点:1.早期的错误会强化——>启发式的缓解方案:如果数据的置信分数低于某个阈值再把它的标签去掉。2.在收敛性方面没有保障。——>但是也有特例,自我训练等价于EM算法。有部分存在封闭解的特殊情况。
2.多视角学习
1.协同训练:一个对象的两个视角
- 假设:1.特征可分裂。2.x(1)或x(2)单独对于训练一个好的分类器是充分的。3.x(1)和x(2)在给定类别后是条件独立的。
- 算法:1.训练两个分类器:从学习f(1),从 学习f(2)。2.用f(1)和f(2)分别对Du分类3.把f(1)的k个置信度最高的预测结果当做f(2)的标注数据。4. 把f(2)的k个置信度最高的预测结果当做f(1)的标注数据。5.重复上述过程。
- 优缺点:优点:简单的wrapper方法,可以被用到已有的各种分类器;相比较于自我训练,对于错误不那么敏感。缺点:自然的特征分裂可能不存在;使用全部特征的模型可能效果更好。
2.多视角学习
半监督学习中一类通用的算法,基于数据的多个视角,一致正则化。多个分类器在无标注数据应该达成一致,其中M为学习器的数目,L()是原来的损失函数,为模型的正则项。
3.构造view
在标注数据上训练多个模型。
- 相同数据,不同结构的神经网络或不同的学习算法
- 对有标签数据进行Bootstrap采样,对每个Bootstrap训练一个模型
- 对数据(标注数据和无标签数据)增加噪声
多个模型分别对无标签数据进行预测,若多个模型的结果一致,则将该无标签的数据的标签标位模型的预测结果并视为有标签数据,只将该数据加入到不一致的那些模型(view)中。
3.生成式模型
假设所有数据(带标签&不带标签)都由一个潜在的模型生成:模型参数将无标记数据与学习目标联系起来。无标记数据的标记可视为模型的缺失参数,通常可基于EM算法进行极大似然估计求解,
模型参数
高斯混合模型:
分类:
- 生成模型假设:完全的生成式模型
- 生成模型用于半监督学习:
- 寻找的极大似然估计,或最大后验估计(贝叶斯估计)
例子:高斯混合模型(GMM)、混合多项分布(朴素贝叶斯)、隐马尔科夫模型(HMM)
优点:清晰,基于良好理论基础的概率框架;如果模型接近真实的分布,将会非常有效。缺点:验证模型的正确性比较困难;模型可辨别问题;EM局部最优;如果生成模型是错误,无监督数据会加重错误。
4.半监督支持向量机(S3VMs)
最大化“所有数据的间隔”
优点:可以被用在任何SVMs可被应用 的地方,清晰的数学框架。缺点:优化困难,可能陷入局部最优,收益可能较小相比于生成模型和基于图的方法使用更弱的假设。
假设:来着不同类别的无标记数据之间会被较大的间隔隔开
思想:1.遍历所有2的U次方种可能的标注。2.为每一种标注构建一个标准的SVM(包含XL)。3.选择间隔最大的SVM。
目标函数:
类别平衡限制:
算法:
- 输入:权重
- 求解优化问题求
- 通过sign(f(x))分类新的测试点x
用于S3VM训练的优化方法:精确方法:混合整数规划、分支定界。近似方法:自启发式、梯度下降。
1. :局部组合搜索策略,分配一“硬”标签到无标注数据,外层循环:C2从0开始向上退火,内层循环:成对标签切换。,
其中
2.分支定界
能找到精确的全局最优解,但只能处理数百个无标注的点。组合优化问题,在上构建一颗部分标注的树:根节点:无标注,子节点:比父节点多一个数据被标注,叶子节点:所有被标注。部分标注有一个非减的S3VM目标函数
- 在树上进行深度优先搜索
- 记录一个到当前为止的完整目标函数值
- 如果它比最好的目标函数差,就进行剪枝(包括它的子树)
5.基于图的算法
优点:清晰的数学框架。缺点:图质量差的时候性能差,对图的结构和权重敏感,存储需求大。
假设:假定的标在有标注和无标注数据上存在一个图,图中被“紧密”连接的点趋向于有相同签。
在图上标签的变化应该是平滑的。邻近结点应该有相似的标签,称之为标签传播。
构造相似图:
- 节点:
- 边:权重是基于特征来计算相邻节点之间的相似度,例如K最近邻图、权重;全连接图、权重随距离衰减;半径图。
- 想要的结果:通过所有的路径来推导相似度。
标签传播:
- 标签沿图传播:标注数据影响其邻居
- 图上标签的变化是平滑的:邻近节点应该有相似的标签