监督，自监督，半监督

最新推荐文章于 2024-07-10 17:16:29 发布

口可口可

最新推荐文章于 2024-07-10 17:16:29 发布

阅读量245

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43585541/article/details/104787366

版权

笔记专栏收录该内容

0 篇文章 0 订阅

订阅专栏

监督学习：给小朋友一本有课后答案的习题册，让小朋友自己做题，并自己校对答案；

无监督学习：比如参加一些开放性的竞赛（比如：数学建模竞赛），出题人只给出题目。参赛者，需要根据题目找出结构和规则，才能解题。（在没有老师的情况下，学生自学的过程。学生在学习的过程中，自己对知识进行归纳、总结。无监督学习中，类似分类和回归中的目标变量事先并不存在。要回答的问题是“从数据X中能发现什么”。）

半监督学习：家教，家教老师给学生讲一两道例题思路，然后给学生布置没有答案的课后习题，让学生课后自己完成。

正经回答：

a) 监督学习是最常见的一种机器学习，它的训练数据是有标签的，训练目标是能够给新数据（测试数据）以正确的标签。

例如，想让AI知道什么是猫什么是狗，一开始我们先将一些猫的图片和狗的图片（带标签）一起进行训练，学习模型不断捕捉这些图片与标签间的联系进行自我调整和完善，然后我们给一些不带标签的新图片，让该AI来猜猜这些图片是猫还是狗。

经典的算法：支持向量机、线性判别、决策树、朴素贝叶斯

b) 无监督学习常常被用于数据挖掘，用于在大量无标签数据中发现些什么。它的训练数据是无标签的，训练目标是能对观察值进行分类或者区分等。相对于监督学习，无监督学习使用的是没有标签的数据。机器会主动学习数据的特征，并将它们分为若干类别，相当于形成「未知的标签」。

非监督性学习是只给特征，没有给标签，就是高考前的一些模拟试卷，是没有标准答案的，也就是没有参照是对还是错，但是我们还是可以根据这些问题之间的联系将语文、数学、英语分开。

通常无监督学习是指不需要人为注释的样本中抽取信息。例如word2vec。

经典的算法：k-聚类、主成分分析等；

c)半监督学习介于两者之间。算法上，包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。隐藏在半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的分类结果。（此处大量忽略细节）

例如：很多实际问题中，只有少量的带有标记的数据，因为对数据进行标记的代价有时很高。比如找到照片并给照片上的猫标上标签（lable）很麻烦，但是猫的各种姿势的猫片网上一搜一大堆。那我们能不能手动标记一部分猫片，然后让AI学习训练，然后再剩下没标记的猫片上做实验呢？

经典算法：SVMs半监督支持向量机

1.从数据设置上看：

监督学习任务：从已标记的训练数据来训练模型。主要分为：分类任务、回归任务、序列标注任务。
无监督学习任务：从未标记的训练数据来训练模型。主要分为：聚类任务、降维任务。
半监督学习任务：用大量的未标记训练数据和少量的已标记数据来训练模型。

2.典型方法：
无监督学习：k-聚类、主成分分析等；
监督学习：支持向量机、线性判别；
半监督学习：S3VM、S4VM、CS4VM、TSVM；

半监督学习的方法的例子举得不恰当，毕竟半监督学习的方法有很多的分类，我具的几个例子[2]都是将半监督学习思想引用到SVM算法发展起来的咯。