机器学习主要类型(三):半监督学习

机器学习主要类型(三):半监督学习 Semi-Supervised Learning

让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能

未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建立模型将大有裨益
在这里插入图片描述
半监督学习可进一步划分为纯(pure)半监督学习直推学习 (transductive learning),前者假定训练数据中的未标记样本并非待预测的数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能

换言之,纯半监督学习是基于"开放世界"假设,希望学得模型能适用于训练过程中未观察到的数据;而直推学习是基于"封闭世界"假设,仅试图对学习过程中观察到的未标记数据进行预测
在这里插入图片描述

3.1生成式方法

直接基于生成式模型的方法,假设所有数据(无论是否有标记)都是同一个潜在的模型“生成”的。这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作作模型的缺失参数,通常可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。
在这里插入图片描述
在这里插入图片描述
→ 方法简单,易于实现,在有标记数据极少的情形下往往比其他方法性能更好

但是,模型假设必须准确,否则利用未标记数据反而会降低泛化性能(现实任务中往往很难做到)

3.2半监督SVM,S3VM

支持向量机在半监督学习上的推广

试图找到能将两类有标记样本分开,且穿过数据低密度区域划分超平面

低密度分隔low-density separation
在这里插入图片描述
TSVM(Transductive Support Vector Machine)
也是针对二分类的学习方法,试图考虑对未标记样本进行各种可能的标记指派,即尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个在所有样本上间隔最大化的划分超平面。一旦划分超平面得以确定,未标记样本的最终标记指派就是其预测结果。
在这里插入图片描述
↑ 尝试未标记样本的各种标记指派是一个穷举过程,仅当未标记样本很少时才有可能直接求解,在一般情形下必须考虑更高效的优化策略

→采用局部搜索来迭代地寻找式(13.9)的近似解
在这里插入图片描述
在这里插入图片描述
类别不平衡问题如何解决?
将优化目标中的Cu项拆分为Cu+、Cu-两项,分别对应基于伪标记而当作正、反例使用的未标记样本,并在初始化时令在这里插入图片描述,其中u+、u-为基于伪标记而当作正、反例使用的未标记样本数
在这里插入图片描述
TSVM算法中的搜寻标记指派可能出错的每一对未标记样本并调整,涉及巨大计算开销,故半监督SVM研究的一个重点是如何设计出高效的优化求解策略,发展出基于图核函数梯度下降的LDS基于标记均值估计的meanS3VM等方法。

3.3图半监督学习

给定一个数据集,可映射为一个图,数据集中每个样本对应于图中的一个结点,若两样本之间的相似度很高,则对应结点之间存在一条边,边的“强度”正比于样本之间的相似度,可将有标记样本对应的结点想象为染过色,未标记样本对应的结点未染色,于是,半监督学习就对应于颜色在图上扩散或传播的过程

一个图对应一个矩阵,则可基于矩阵运算来进行半监督学习算法的推导与分析

→针对二分类问题标记传播label propagation:
在这里插入图片描述
(详情可见《机器学习》p302)

→适用于多分类问题的标记传播:
在这里插入图片描述
在这里插入图片描述
→概念上相当清晰,且易于通过对所涉矩阵运算的分析探索法性质

缺陷:存储开销大(样本数O(m),则算法中涉及的矩阵规模O(m²)),很难直接处理大规模数据;构图过程仅能考虑训练样本集,难以判知新样本在图中的位置(接收到新样本时,①加入原数据集对图进行重构并重新进行标记传播②引入额外的预测机制,如把Dl和已经标记传播得到标记的Du合并为训练集,另外训练一个学习器如SVM来对新样本进行预测)

3.4基于分歧的方法 disagreement-based methods

生成式方法、半监督SVM、图半监督学习:基于单学习器利用未标记数据
基于分歧的方法:使用多学习器集成学习和半监督学习联系起来

多视图数据:一个数据对象同时拥有多个属性集,每个属性集构成一个视图 (<x1,x2>,y)这样的数据就是多视图数据

不同视图具有相容性compatibility:包含的关于输出空间y的信息是一致的,不同视图信息则有互补性,给学习期的构建带来很多便利

协同训练co-training:
假设数据拥有两个充分(每个视图都包含足以产生最优学习器的信息)且条件独立(在给定类别标记条件下两个视图独立)视图,在每个视图上基于有标记样本分别训练出一个分类器,然后互相提供伪标记样本,不断迭代,直到两个分类器都不再发生变化或达到预先设定的迭代轮数为止
在这里插入图片描述

3.5半监督聚类 semi-supervised clustering

聚类任务中获得的监督信息有两种类型:①必连约束②勿连约束

约束k均值算法Constrained k-means:
利用第一类监督信息,k均值算法的扩展
在这里插入图片描述
在这里插入图片描述
约束种子k均值算法Constrained Seed k-means:
利用第二类监督信息,少量有标记样本作为种子,初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系
在这里插入图片描述
在这里插入图片描述

_ _ _ _ _ _ 未完待续,喜欢的朋友可以关注后续文章 _ _ _ _ _ _

《机器学习主要类型》系列文章往期回顾:
机器学习主要类型(一):监督学习
机器学习主要类型(二):无监督学习

参考书目:
周志华.《机器学习》
邱锡鹏.《神经网络与深度学习》

  • 1
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值