人工智能咨询培训老师叶梓 转载标明出处
在人工智能驱动的药物设计和发现领域,获取具有信息量的分子表示是一个至关重要的前提。近年来,研究者们将分子抽象为图,并利用图神经网络(GNNs)进行分子表示学习,展现出了巨大的潜力。然而,实际应用中GNNs面临着两个主要问题:一是用于监督训练的标记分子数据不足;二是模型对新合成分子的泛化能力较差。
为了解决这些问题,腾讯AI Lab的研究人员提出了一种名为GROVER(Graph Representation frOm self-superVised mEssage passing tRansformer)的新框架。该框架通过在节点、边和图级别上设计精心的无监督学习任务,能够从大量未标记的分子数据中学习丰富的结构和语义信息。
GROVER预训练框架
在大规模无标记数据上进行预训练,GROVER模型能够学习分子的丰富结构和语义信息。该模型基于Transformer构建,使用特制的图神经网络(GNNs)作为自注意力机制的构建块。这种设计使得模型不仅能够捕获图数据中的结构信息,还能在节点和边的消息传递路径上实现信息流动。
GROVER由两个模块组成:节点GNN转换器(node GNN transformer)和边GNN转换器。为了便于说明,本文只详细描述节点GNN转换器(简称node GTransformer),其结构如图1所示。
主要组件包括(图1)&#x