Semi-supervised learning
- unlabeled data 数据量远大于labeled data
- 直推学习(transductive learning): 无标签值的数据是测试数据
- inductive learning:无标签数据集不是测试集
1、why semi-supervised learning?
- 收集数据容易,但收集有目标得data很不容易
2、why semi-supervised learning helpful
尽管unlabeled data只有input,但他的分布也有一些意义
3、semi-supervised learning for generative model
3.1 supervised generative model
在拥有训练集数据下,已知它数据c1,c2两个类别,给定两个类别的高斯分布以及两个类别在数据集上的占比,输入新的数据,可以预测在给定新的样本数据下,它属于c1这个类别的概率。
3.2 Semi-supervised generative model
绿色样本点为unlabeled data,所以当前高斯分布的mean和variance是不合理的
即unlabeled data会影响对mean和variance的预测,从而影响decision boundary。
3.3 Re-estimation
d代表的是每一个在unlabeled data中样本点是属于c1的概率做累加。
3.3 Why this EM step?
maximum likelihood with labelled data
maximum likelihood with labelled data + unlabeled data
> 不知道对于unlabeled data的一个样本点是来自哪个类别,所以默认它的生成是由c1和c2两个类别共同产生的。
Solved iteratively , 通过不断循环使迭代收敛,最后负对数似然函数收敛在了局部最小值的点。
4、Low-density separation assumption
非黑即白
4.1 self-training
对于self-training 简单的总结:使用有标签的数据集训练出一个模型,用该模型预测无标签数据集的目标值,然后拿出一部分无标签数据集的值,把它们add到原有labeled data中
如果应用在regression上,output一个real number再放入training data 对原有的
f ⋆