自监督学习

自监督学习指的是不依赖标注数据,模型直接从无标注的大量数据中进行学习。【属于无监督学习的一部分,它在训练过程中有正负样本,但是正负样本不是人工标号得来的,而是通过自己产生的。】
自监督学习总体分成两类:生成式自监督学习和判别式自监督学习。
其中生成式自监督学习的代表是VAE和GAN,他们利用一个生成器来学习真实的样本分布,不需要提供负样本就可以学习到一个生成器。
判别式监督模型的任务难度要低一些,典型的代表是对比学习。其指导思想是「通过自动构造相似实例和不相似实例,通过一个表示学习模型,使得相似实例在投影空间中比较接近,不相似实例在投影空间中距离比较远。」

对比学习(判别式监督模型)

对比学习最开始是从CV领域发展来的,典型的模型是MOCO和simCLR,主要是解决图像表示的问题。对比学习的目标是学习一个编码器,此编码器对同类数据进行相似的编码,并使不同类的数据的编码结果尽可能的不同。
那怎么定义相似实例和不相似实例呢?这通常通过一个代理任务来实现,也就是通过规则来产生,数据增强就是一种常见的代理任务。
对比学习的典型范式就是代理任务+目标函数。常见的一种选择是代理任务用数据增强,目标函数用infoNCE。

SimCSE:Simple Contrastive Learning of Sentence Embeddings

GAN(生成式自监督学习)

GAN主要的优化不再学习原始的分布函数(最大化似然函数),而是用一个生成模型(MLP)来近似真实分布,这个分布生成的结果与实际图片用判别模型无法判别。
数据集:对生成器随机初始化,直接输出假的样本集,同时我们有真实的样本集,这样就得到了真假样本。
训练方式:迭代训练。先固定生成器不变,对判别器进行训练,训练任务是一个有监督的二分类任务。接着固定判别器参数不变,对生成器进行训练,训练任务是给生成器一个随机输入,损失函数是判别器的结果是否为真。经过这一轮迭代,生成器的造假能力得到提升,然后再继续迭代判别器和生成器,直到收敛。最终拿到一个好的生成器,它生成的结果在判别器中难以区分真假。

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值