深度学习(8): semi-supervised learning & word embedding

最新推荐文章于 2024-03-18 21:16:36 发布

weixin_51182518

最新推荐文章于 2024-03-18 21:16:36 发布

阅读量300

点赞数 1

文章标签：机器学习神经网络 python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51182518/article/details/112748024

版权

本文深入探讨了半监督学习，包括为什么使用半监督学习、生成模型的应用，以及低密度分离和平滑假设。同时，介绍了词嵌入的概念，通过上下文和预测方法生成词向量，提升表示能力。

摘要由CSDN通过智能技术生成

Semi-supervised learning

在这里插入图片描述

unlabeled data 数据量远大于labeled data
直推学习(transductive learning): 无标签值的数据是测试数据
inductive learning：无标签数据集不是测试集

1、why semi-supervised learning？

收集数据容易，但收集有目标得data很不容易

2、why semi-supervised learning helpful

在这里插入图片描述

尽管unlabeled data只有input，但他的分布也有一些意义

3、semi-supervised learning for generative model

3.1 supervised generative model

在这里插入图片描述

在拥有训练集数据下，已知它数据c1，c2两个类别，给定两个类别的高斯分布以及两个类别在数据集上的占比，输入新的数据，可以预测在给定新的样本数据下，它属于c1这个类别的概率。

3.2 Semi-supervised generative model

在这里插入图片描述

绿色样本点为unlabeled data，所以当前高斯分布的mean和variance是不合理的
即unlabeled data会影响对mean和variance的预测，从而影响decision boundary。

3.3 Re-estimation

在这里插入图片描述

d代表的是每一个在unlabeled data中样本点是属于c1的概率做累加。

在这里插入图片描述

3.3 Why this EM step？

maximum likelihood with labelled data

maximum likelihood with labelled data + unlabeled data
> 不知道对于unlabeled data的一个样本点是来自哪个类别，所以默认它的生成是由c1和c2两个类别共同产生的。

Solved iteratively ，通过不断循环使迭代收敛，最后负对数似然函数收敛在了局部最小值的点。

4、Low-density separation assumption

非黑即白

4.1 self-training

在这里插入图片描述

对于self-training 简单的总结：使用有标签的数据集训练出一个模型，用该模型预测无标签数据集的目标值，然后拿出一部分无标签数据集的值，把它们add到原有labeled data中

如果应用在regression上，output一个real number再放入training data 对原有的

最低0.47元/天解锁文章

weixin_51182518

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
深度学习(8): semi-supervised learning & word embedding

Semi-supervised learningunlabeled data 数据量远大于labeled data直推学习(transductive learning): 无标签值的数据是测试数据inductive learning：无标签数据集不是测试集1、why semi-supervised learning？收集数据容易，但收集有目标得data很不容易2、why semi-supervised learning helpful尽管unlabeled data只有input
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。