【参考文章】
笔记:https://blog.csdn.net/oldmao_2001/article/details/91285039
生成模式:https://blog.csdn.net/wistonty11/article/details/120365719
EM算法:https://zhuanlan.zhihu.com/p/40991784
文章目录
2021.10.22
LeeML-Notes(2017):P23
<--------感谢评论、答疑、指正!--------->
<--------【疑问1处】--------->
1. 关于半监督学习
1.1 定义
-
监督学习
( x r , y ^ r ) r = 1 R {(x^r,\hat{y}^r)}_{r=1}^R (xr,y^r)r=1R
- 一个R个数据
- 从r=1开始,到R个结束都有一对 ( x r , y ^ r ) (x^r,\hat{y}^r) (xr,y^r)
- y ^ \hat{y} y^是标签
-
非监督学习
( x r , y ^ r ) r = 1 R , ( x u ) u = R R + U {(x^r,\hat{y}^r)}_{r=1}^R,{(x^u)}_{u=R}^{R+U} (xr,y^r)r=1R,(xu)u=RR+U
- 有一小部分数据1~R是有标签的
- 一大部分数据R~U+R 是没标签的
- 通常U>>R
1.2 分类
根据我们在训练模型有没有使用到testing data的数据部分,可分为:Transductive learning、Inductive learning。
用哪种方法要取决于比赛或者应用有没有把test set放出来。
-
Transductive learning
训练的过程中使用了testing data的feature(不看label)
-
Inductive learning
训练的过程中没有使用了testing data的feature(不看label)
1.3 半监督学习原因
- 现实中,收集数据很容易,收集有标签的数据很难,也就是大部分数据都是没标签的
- 我们如果只用非常少量的有标签的数据来进行训练模型,那么对大量没标签数据进行了浪费。
2. 半监督生成式模型(Semi-Supervised Generative Model)
生成模式是从概率分布统计的角度来分析的,详看【10.4-10.5】:https://blog.csdn.net/wistonty11/article/details/120365719
2.1 步骤
-
第一步:先初始化参数
- 我们通常用有标签的数据进行初始化
- 初始化过程参考【