自监督学习

最新推荐文章于 2024-08-28 18:49:37 发布

Icevivina

最新推荐文章于 2024-08-28 18:49:37 发布

阅读量401

点赞数 8

文章标签：学习机器学习人工智能

本文链接：https://blog.csdn.net/zhouhong0284/article/details/135888543

版权

自监督学习指的是不依赖标注数据，模型直接从无标注的大量数据中进行学习。【属于无监督学习的一部分，它在训练过程中有正负样本，但是正负样本不是人工标号得来的，而是通过自己产生的。】
自监督学习总体分成两类：生成式自监督学习和判别式自监督学习。
其中生成式自监督学习的代表是VAE和GAN，他们利用一个生成器来学习真实的样本分布，不需要提供负样本就可以学习到一个生成器。
判别式监督模型的任务难度要低一些，典型的代表是对比学习。其指导思想是「通过自动构造相似实例和不相似实例，通过一个表示学习模型，使得相似实例在投影空间中比较接近，不相似实例在投影空间中距离比较远。」

对比学习（判别式监督模型）

对比学习最开始是从CV领域发展来的，典型的模型是MOCO和simCLR，主要是解决图像表示的问题。对比学习的目标是学习一个编码器，此编码器对同类数据进行相似的编码，并使不同类的数据的编码结果尽可能的不同。
那怎么定义相似实例和不相似实例呢？这通常通过一个代理任务来实现，也就是通过规则来产生，数据增强就是一种常见的代理任务。
对比学习的典型范式就是代理任务+目标函数。常见的一种选择是代理任务用数据增强，目标函数用infoNCE。

SimCSE:Simple Contrastive Learning of Sentence Embeddings

GAN（生成式自监督学习）

GAN主要的优化不再学习原始的分布函数（最大化似然函数），而是用一个生成模型（MLP）来近似真实分布，这个分布生成的结果与实际图片用判别模型无法判别。
数据集：对生成器随机初始化，直接输出假的样本集，同时我们有真实的样本集，这样就得到了真假样本。
训练方式：迭代训练。先固定生成器不变，对判别器进行训练，训练任务是一个有监督的二分类任务。接着固定判别器参数不变，对生成器进行训练，训练任务是给生成器一个随机输入，损失函数是判别器的结果是否为真。经过这一轮迭代，生成器的造假能力得到提升，然后再继续迭代判别器和生成器，直到收敛。最终拿到一个好的生成器，它生成的结果在判别器中难以区分真假。

Icevivina

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
自监督学习

自监督学习指的是不依赖标注数据，模型直接从无标注的大量数据中进行学习。【属于无监督学习的一部分，它在训练过程中有正负样本，但是正负样本不是人工标号得来的，而是通过自己产生的。自监督学习总体分成两类：生成式自监督学习和判别式自监督学习。其中生成式自监督学习的代表是VAE和GAN，他们利用一个生成器来学习真实的样本分布，不需要提供负样本就可以学习到一个生成器。判别式监督模型的任务难度要低一些，典型的代表是对比学习。
复制链接

扫一扫