模式识别与机器学习第十章半监督学习

一、简介

1.平滑假设

        如果高密度区域中两个点x1、x2距离较近,那么对应的输出y1、y2也应该接近。

2.聚类假设(平滑性假设的一个特例)

        如果两个点在同一个簇,那么他们很有可能属于同一个类别。

3.流形假设

        高维数据大致会分布在一个低维的流形上。流形上邻近的样本拥有相似的输出。

二、半监督学习算法

        1.自我训练

        自学习算法:

  • 假设:输出的高度置信的预测是正确的
  • 自学习算法:1.从学习f。2.对,计算预测结果f(x)。3.把(x,f(x))加入到标注数据。4.重复上述过程。
  • 自学习的变体:1.加入一些置信度最高的(x, f(x))到标注数据集2. 把所有(x, f(x))加到标注数据3. 把所有(x, f(x))加到标注数据,为每条数据按置信度赋予权重

        自我训练的优缺点

        优点:1.最简单的半监督学习方法,效果不错。2.这是一种wrapper方法,可以应用到已有的(复杂)分类器上。缺点:1.早期的错误会强化——>启发式的缓解方案:如果数据的置信分数低于某个阈值再把它的标签去掉。2.在收敛性方面没有保障。——>但是也有特例,自我训练等价于EM算法。有部分存在封闭解的特殊情况。

        2.多视角学习

        1.协同训练:一个对象的两个视角

  • 假设:1.特征可分裂。2.x(1)或x(2)单独对于训练一个好的分类器是充分的。3.x(1)和x(2)在给定类别后是条件独立的。
  • 算法:1.训练两个分类器:从学习f(1),从 学习f(2)。2.用f(1)和f(2)分别对Du分类3.把f(1)的k个置信度最高的预测结果当做f(2)的标注数据。4. 把f(2)的k个置信度最高的预测结果当做f(1)的标注数据。5.重复上述过程。
  • 优缺点:优点:简单的wrapper方法,可以被用到已有的各种分类器;相比较于自我训练,对于错误不那么敏感。缺点:自然的特征分裂可能不存在;使用全部特征的模型可能效果更好。

        2.多视角学习

        半监督学习中一类通用的算法,基于数据的多个视角,一致正则化。多个分类器在无标注数据应该达成一致,其中M为学习器的数目,L()是原来的损失函数,为模型的正则项。

        3.构造view

         在标注数据上训练多个模型。

  • 相同数据,不同结构的神经网络或不同的学习算法
  • 对有标签数据进行Bootstrap采样,对每个Bootstrap训练一个模型
  • 对数据(标注数据和无标签数据)增加噪声

         多个模型分别对无标签数据进行预测,若多个模型的结果一致,则将该无标签的数据的标签标位模型的预测结果并视为有标签数据,只将该数据加入到不一致的那些模型(view)中。

        3.生成式模型

         假设所有数据(带标签&不带标签)都由一个潜在的模型生成:模型参数将无标记数据与学习目标联系起来。无标记数据的标记可视为模型的缺失参数,通常可基于EM算法进行极大似然估计求解,

        模型参数

        高斯混合模型

        分类

  • 生成模型假设:完全的生成式模型
  • 生成模型用于半监督学习:
  • 寻找的极大似然估计,或最大后验估计(贝叶斯估计)

         例子:高斯混合模型(GMM)、混合多项分布(朴素贝叶斯)、隐马尔科夫模型(HMM)

         优点:清晰,基于良好理论基础的概率框架;如果模型接近真实的分布,将会非常有效。缺点:验证模型的正确性比较困难;模型可辨别问题;EM局部最优;如果生成模型是错误,无监督数据会加重错误。

        4.半监督支持向量机(S3VMs)

         最大化“所有数据的间隔”

        优点:可以被用在任何SVMs可被应用 的地方,清晰的数学框架。缺点:优化困难,可能陷入局部最优,收益可能较小相比于生成模型和基于图的方法使用更弱的假设。

        假设:来着不同类别的无标记数据之间会被较大的间隔隔开

        思想:1.遍历所有2的U次方种可能的标注。2.为每一种标注构建一个标准的SVM(包含XL)。3.选择间隔最大的SVM。

        目标函数

        类别平衡限制: 

        算法

  • 输入:权重
  • 求解优化问题求
  • 通过sign(f(x))分类新的测试点x

        用于S3VM训练的优化方法:精确方法:混合整数规划、分支定界。近似方法:自启发式、梯度下降。

      1.  :局部组合搜索策略,分配一“硬”标签到无标注数据,外层循环:C2从0开始向上退火,内层循环:成对标签切换。

其中

        2.分支定界

        能找到精确的全局最优解,但只能处理数百个无标注的点。组合优化问题,在上构建一颗部分标注的树:根节点:无标注,子节点:比父节点多一个数据被标注,叶子节点:所有被标注。部分标注有一个非减的S3VM目标函数

  • 在树上进行深度优先搜索
  • 记录一个到当前为止的完整目标函数值
  • 如果它比最好的目标函数差,就进行剪枝(包括它的子树)

        5.基于图的算法

        优点:清晰的数学框架。缺点:图质量差的时候性能差,对图的结构和权重敏感,存储需求大。

        假设:假定的标在有标注和无标注数据上存在一个图,图中被“紧密”连接的点趋向于有相同签。

        在图上标签的变化应该是平滑的。邻近结点应该有相似的标签,称之为标签传播。

        构造相似图

  • 节点:
  • 边:权重是基于特征来计算相邻节点之间的相似度,例如K最近邻图、权重;全连接图、权重随距离衰减;半径图。
  • 想要的结果:通过所有的路径来推导相似度。

        标签传播

  • 标签沿图传播:标注数据影响其邻居
  • 图上标签的变化是平滑的:邻近节点应该有相似的标签

        6.半监督聚类

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值