Task12第13章 半监督学习

1. 章节主要内容

在前边的学习过程中,我们知道了监督学习和无监督学习的区别。前者是在标注好了的训练集上训练学习器,并用训练好的学习器去对新的样本进行预测,朴素贝叶斯、决策树、神经网络等都属于这类机器学习算法。后者是在未标注的数据集上根据数据本身的分布情况来对数据进行分类,各种聚类算法就是这类的机器学习算法。

从上边的定义来看,一个机器学习算法“监督”与否取决于用来计算的数据有无被“标注”好!那以此来推理,我们这章学习的“半监督学习”算法就是即使用了标注好了的数据,又使用了未标注的数据来训练学习器!

可是,既然已经有了标注好的数据集了,我们为什么还要费心去使用未标注的数据来辅助学习呢?原来在实际场景下,标注好了的数据集往往只是未标注数据集的千万分之一。想想互联网上每天产生多少PB的数据,其中拥有标注的数据真是少之又少。没有足够的标注训练集,监督学习算法训练出来的学习器往往泛化能力不佳,而且那么多的未标注数据不去利用,其中包含的信息就被浪费了!

一个最简单的办法是找来一堆人一个个的为未标注数据进行标注。显然,这种方法比较“笨”,需耗费大量的时间和精力

一个稍微省力的办法是,先用标注好的数据来进行训练,然后利用训练好的学习器找出未标注数据中能对性能改善最大的数据来询问“专家”。这样只需要专家标注比较少的数据就能得到较强的学习器了。

上边的方法被称为“主动学习”(active learning),这种方法引入了额外的专家知识,还需要外部的介入来辅助学习。如果我们不想再增加额外的人力了,想让机器自己的对未标注数据进行分析来提高泛化性能,可行吗?

答案是可行,半监督学习就是这样的算法!

事实上,未标记样本虽未直接包含标记信息,但若他们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建立模型将大有裨益。

下图给出了一个直观的示例。若仅基于图中的一个正例和反例,则由于待判别样本恰位于两者正中间,大体上只能随机猜测;若能观察到图中的为标记样本,则将很有把握的判别为正例。

 

让学习器不依赖外界交互、自动地利用为标记样本来提升学习性能,就是半监督学习(semi-supervised learning)。

半监督学习还可细分为纯(pure)半监督学习和直推学习,前者假定训练数据中的为标记数据并非待预测数据,而后者则假定学习过程中所考虑的为标记样本恰是待预测数据。下图直观的显示出主动学习、纯监督学习和直推学习的区别。

 

半监督学习要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记想联系的假设,其本质是“相似的样本拥有相似的输出”

针对未标记样本的假设的不同会形成不同的半监督学习算法,下边我们将一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值