介绍
监督学习:
训练数据中,每一组数据输入
x
r
x^{r}
xr都有对应的输出
y
r
y^{r}
yr相对应。
半监督学习:
训练数据中,部分数据没有标签,只有输入
x
r
x^{r}
xr。
通常情况下无标签的数据量远大于有标签的数据量。
半监督学习可以分为两种情况:
1、传导性学习(Transductive Learning):未标记的数据是测试数据。
即把测试数据当作无标签的训练数据使用,适用于实现已经知道测试数据的情况。这种方法使用的仅仅是测试数据的特征,不是标签,因此不会出现直接对测试数据做训练而产生作弊的效果。
2、归纳性学习(Inductive Learning):未知的数据不是测试数据。
即不把测试数据的特征拿给机器训练,适用于事先并不知道测试数据的情况。
半监督的适用情况:不缺少数据,但是缺少有标签的数据。
半监督的有效性:
未标记的数据也可以提供一定的信息.
以下图为例,只有标签数据的情况下,红线是二元分类的界限:
当我们加入unlabeled data的时候,由于特征分布发生了变化,分界线也随之改变:
半监督的使用伴随着假设,假设的合理性决定了结果的好坏程度,如上图所示,未标记的数据,他是一只狗,但是却被与猫划分为一类,很可能由于两张图片的背景都是绿色导致的。
半监督的生成模型:
监督性生成模型:
假设类别1和类别2的分布分别为:
m
e
a
n
1
=
μ
1
,
c
o
n
v
a
r
i
a
n
c
e
1
=
∑
,
m
e
a
n
2
=
μ
2
,
c
o
n
v
a
r
i
a
n
c
e
2
=
∑
mean_{1} = \mu ^{1},convariance_{1} = \sum ,mean_{2} = \mu ^{2},convariance_{2} = \sum
mean1=μ1,convariance1=∑,mean2=μ2,convariance2=∑的高斯分布,计算出先验概率后,再根据贝叶斯公式可以推算出新生的x所属的类别。
半监督性生成模型:
如果在原先的数据下多了无标记数据(下图绿色),他就会影响最终的决定,原先的
u
,
∑
u,\sum
u,∑显然是不合理的,新的
u
,
∑
u,\sum
u,∑需要使得样本点的分布更接近下图虚线圆所标出的范围,除此外,右侧的先验概率会给人一种比左侧大的感觉(右侧样本点“变多”了)。
此时,无标记点对
P
(
C
1
)
,
P
(
C
2
)
,
u
1
,
u
2
,
∑
P(C_{1}),P(C_{2}),u^{1},u^{2},\sum
P(C1),P(C2),u1,u2,∑都产生了一定的影响,划分为两个类别的决策边界。
具体推导(假设做二元分类):
半监督学习
最新推荐文章于 2024-03-08 16:36:00 发布