半监督学习

最新推荐文章于 2024-03-08 16:36:00 发布

weixin_45540546

最新推荐文章于 2024-03-08 16:36:00 发布

阅读量357

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45540546/article/details/109603295

版权

本文介绍了半监督学习的概念及其应用场景，对比了监督学习和半监督学习的区别，并详细解释了半监督学习中的传导性学习和归纳性学习。同时，还探讨了半监督学习的有效性和假设条件，以及如何利用未标记数据来提高分类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍
监督学习：
训练数据中，每一组数据输入 $x^{r}$ 都有对应的输出 $y^{r}$ 相对应。
半监督学习：
训练数据中，部分数据没有标签，只有输入 $x^{r}$ 。
通常情况下无标签的数据量远大于有标签的数据量。
半监督学习可以分为两种情况：
1、传导性学习（Transductive Learning）：未标记的数据是测试数据。
即把测试数据当作无标签的训练数据使用，适用于实现已经知道测试数据的情况。这种方法使用的仅仅是测试数据的特征，不是标签，因此不会出现直接对测试数据做训练而产生作弊的效果。
2、归纳性学习（Inductive Learning）：未知的数据不是测试数据。
即不把测试数据的特征拿给机器训练，适用于事先并不知道测试数据的情况。
半监督的适用情况：不缺少数据，但是缺少有标签的数据。
半监督的有效性：
未标记的数据也可以提供一定的信息.
以下图为例，只有标签数据的情况下，红线是二元分类的界限：
在这里插入图片描述
当我们加入unlabeled data的时候，由于特征分布发生了变化，分界线也随之改变：

半监督的使用伴随着假设，假设的合理性决定了结果的好坏程度，如上图所示，未标记的数据，他是一只狗，但是却被与猫划分为一类，很可能由于两张图片的背景都是绿色导致的。
半监督的生成模型：
监督性生成模型：
假设类别1和类别2的分布分别为： $mean_{1} = \mu ^{1},convariance_{1} = \sum ,mean_{2} = \mu ^{2},convariance_{2} = \sum$ 的高斯分布，计算出先验概率后，再根据贝叶斯公式可以推算出新生的x所属的类别。
在这里插入图片描述
半监督性生成模型：
如果在原先的数据下多了无标记数据（下图绿色），他就会影响最终的决定，原先的 $u,\sum$ 显然是不合理的，新的 $u,\sum$ 需要使得样本点的分布更接近下图虚线圆所标出的范围，除此外，右侧的先验概率会给人一种比左侧大的感觉（右侧样本点“变多”了）。
此时，无标记点对 $P(C_{1}),P(C_{2}),u^{1},u^{2},\sum$ 都产生了一定的影响，划分为两个类别的决策边界。
在这里插入图片描述
具体推导（假设做二元分类）：