图-自监督对比学习-预训练的学习参考

最新推荐文章于 2024-06-27 14:56:45 发布

李子树下mini

最新推荐文章于 2024-06-27 14:56:45 发布

阅读量583

点赞数 2

分类专栏：深度学习入门文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/weixin_46021869/article/details/120505268

版权

深度学习入门专栏收录该内容

7 篇文章

订阅专栏

无监督学习在缺乏大量标签数据时提供了一种有效的方法，自监督学习则是其一种形式，通过构建内部监督信号来学习数据的特征。预训练模型，特别是基于自监督的图神经网络预训练，通过对比学习或生成式方法从无标注图数据中学习通用特征，然后在特定下游任务上进行微调。这种方法已在自然语言处理、计算机视觉和语音识别等多个领域取得成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读｜浅谈图上的自监督学习——对比学习：https://zhuanlan.zhihu.com/p/187247235

图神经网络的预训练：https://zhuanlan.zhihu.com/p/214245325

无监督学习

大多数情况下，我们很难获得大量标签数据，所以有监督的机器学习方法很难施展其强大的学习能力。而我们可以相对容易地获取海量的原始无标注数据，比如互联网上的文本、图像、关系型或结构化数据。那么，是否可以从大规模无标注数据中创造伪标签作为监督信号？比如以部分输入数据预测剩余部分的数据？这就是无监督学习的主要思想[14,15]。

自监督学习

从高层面来看，输入数据是完全无标注的，所以属于无监督学习的范畴；但具体到模型的学习过程，其利用了部分输入数据构造监督信号，对模型进行有监督学习，从而有效地学习到数据中的潜在特征和信息。经典的语言模型、自编码器等生成模型，都属于自监督学习的范畴。以BERT掩码语言模型为例，对于输入的无标记信息的句子，通过随机掩盖15%的单词作为监督信号来训练底层的模型。

预训练模型的动机

**由于自监督学习直接作用于无标签数据，通常情况下得到的模型为通用的预训练模型。当需要解决具体的下游任务时，我们可以直接使用预训练模型来进行微调，从而避免为每一个下游任务从零开始训练全新的模型。**由于预训练模型可以从大规模无标签数据中学习到数据中的通用规律，其在自然语言处理[10,16]、视觉[11,13]、语音[12]等领域取得了广泛的成功。

图神经网络的预训练

从方法论的角度，目前主流的自监督学习方法可以分为基于生成式的和基于对比学习的两大主要类别[14]。基于生成式的自监督学习方法通过让模型对输入数据进行生成重建学习到数据的潜在特征；基于对比学习的方法则主要是从输入数据中构造出正负样本，让模型在隐式表示空间对正负样本进行判别[15]。这两种思路是通过不同方式从无标记的输入数据中构建预训练任务，即监督信号。