半监督学习

介绍
监督学习:
训练数据中,每一组数据输入 x r x^{r} xr都有对应的输出 y r y^{r} yr相对应。
半监督学习:
训练数据中,部分数据没有标签,只有输入 x r x^{r} xr
通常情况下无标签的数据量远大于有标签的数据量。
半监督学习可以分为两种情况:
1、传导性学习(Transductive Learning):未标记的数据是测试数据。
即把测试数据当作无标签的训练数据使用,适用于实现已经知道测试数据的情况。这种方法使用的仅仅是测试数据的特征,不是标签,因此不会出现直接对测试数据做训练而产生作弊的效果。
2、归纳性学习(Inductive Learning):未知的数据不是测试数据。
即不把测试数据的特征拿给机器训练,适用于事先并不知道测试数据的情况。
半监督的适用情况:不缺少数据,但是缺少有标签的数据。
半监督的有效性:
未标记的数据也可以提供一定的信息.
以下图为例,只有标签数据的情况下,红线是二元分类的界限:
在这里插入图片描述
当我们加入unlabeled data的时候,由于特征分布发生了变化,分界线也随之改变:
在这里插入图片描述
半监督的使用伴随着假设,假设的合理性决定了结果的好坏程度,如上图所示,未标记的数据,他是一只狗,但是却被与猫划分为一类,很可能由于两张图片的背景都是绿色导致的。
半监督的生成模型:
监督性生成模型:
假设类别1和类别2的分布分别为: m e a n 1 = μ 1 , c o n v a r i a n c e 1 = ∑ , m e a n 2 = μ 2 , c o n v a r i a n c e 2 = ∑ mean_{1} = \mu ^{1},convariance_{1} = \sum ,mean_{2} = \mu ^{2},convariance_{2} = \sum mean1=μ1,convariance1=,mean2=μ2,convariance2=的高斯分布,计算出先验概率后,再根据贝叶斯公式可以推算出新生的x所属的类别。
在这里插入图片描述
半监督性生成模型:
如果在原先的数据下多了无标记数据(下图绿色),他就会影响最终的决定,原先的 u , ∑ u,\sum u,显然是不合理的,新的 u , ∑ u,\sum u,需要使得样本点的分布更接近下图虚线圆所标出的范围,除此外,右侧的先验概率会给人一种比左侧大的感觉(右侧样本点“变多”了)。
此时,无标记点对 P ( C 1 ) , P ( C 2 ) , u 1 , u 2 , ∑ P(C_{1}),P(C_{2}),u^{1},u^{2},\sum P(C1),P(C2),u1,u2,都产生了一定的影响,划分为两个类别的决策边界。
在这里插入图片描述
具体推导(假设做二元分类):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值