论文阅读|浅谈图上的自监督学习——对比学习:https://zhuanlan.zhihu.com/p/187247235
图神经网络的预训练:https://zhuanlan.zhihu.com/p/214245325
无监督学习
大多数情况下,我们很难获得大量标签数据,所以有监督的机器学习方法很难施展其强大的学习能力。而我们可以相对容易地获取海量的原始无标注数据,比如互联网上的文本、图像、关系型或结构化数据。那么,是否可以从大规模无标注数据中创造伪标签作为监督信号?比如以部分输入数据预测剩余部分的数据?这就是无监督学习的主要思想[14,15]。
自监督学习
从高层面来看,输入数据是完全无标注的,所以属于无监督学习的范畴;但具体到模型的学习过程,其利用了部分输入数据构造监督信号,对模型进行有监督学习,从而有效地学习到数据中的潜在特征和信息。经典的语言模型、自编码器等生成模型,都属于自监督学习的范畴。以BERT掩码语言模型为例,对于输入的无标记信息的句子,通过随机掩盖15%的单词作为监督信号来训练底层的模型。
预训练模型的动机
**由于自监督学习直接作用于无标签数据,通常情况下得到的模型为通用的预训练模型。当需要解决具体的下游任务时,我们可以直接使用预训练模型来进行微调,从而避免为每一个下游任务从零开始训练全新的模型。**由于预训练模型可以从大规模无标签数据中学习到数据中的通用规律,其在自然语言处理[10,16]、视觉[11,13]、语音[12]等领域取得了广泛的成功。
图神经网络的预训练
从方法论的角度,目前主流的自监督学习方法可以分为基于生成式的和基于对比学习的两大主要类别[14]。基于生成式的自监督学习方法通过让模型对输入数据进行生成重建学习到数据的潜在特征;基于对比学习的方法则主要是从输入数据中构造出正负样本,让模型在隐式表示空间对正负样本进行判别[15]。这两种思路是通过不同方式从无标记的输入数据中构建预训练任务,即监督信号。
基于对比学习的预训练
该思路主要是从输入数据中构造出不同的样本,通过引导预训练模型在隐式表示空间对正负样本进行判别来学习输入数据中的特征。