自监督学习与药物发现

原文参考链接

药物发现是图神经网络一个比较成功的应用。本文研究分子图的自监督表示学习,并且取了一个很响亮的名字,GraphMVP。本文的主要思路是在3D几何信息帮助下预训练一个2D拓扑编码器,然后进行下游任务的微调。

1.引入

使用机器学习方法来进行药物发现的两大挑战
1.如何为分子图设计一个公共的潜在空间(即设计一个合适的编码器)
2.如何构造一个目标函数来监督训练(即定义一个学习目标)
本论文属于第二类:利用三维几何和二维拓扑之间的一致性来研究自我监督的分子表征学习

分子性质可以通过3D几何更好地预测的启发但立体化学结构的获取通常非常昂贵。为了解决这个问题,我们提出了GraphMulti-View预训练(GraphMVP)框架,其中 2D分子编码器使用3D几何知识进行预训练,然后在没有3D信息的情况下对下游任务进行微调。在预训练期间,我们的学习范式将3D分子几何知识注入2D分子图编码器,这样即使没有3D信息可用,下游任务也可以受益于隐含的3D几何信息

我们通过利用3D和2D分子图上的两个前置任务实现上述目标:一个对比任务和一个生成任务。
1.对比型SSL(自监督学习)在分子间水平上产生监督信号:如果3D和2D图形对来自同一分子,则为正,否则为负;然后对比SSL将对齐正对,同时对比负对。
2.生成型SSL(自监督学习)以一种跨分子的方式获得监督信号:它学习一种2D/3D表示方法,可以为每个分子本身重建其3D/2D对应视图。

为了应对在分子三维和二维空间测量重建质量的挑战,我们进一步提出了一种新的替代目标函数,称为变异表示重构VRR用于生成SSL任务,可以在连续表示空间中有效地计算这种质量。

本文的主要贡献:
(1)据我们所知,我们是第一个将3D几何信息整合到图形SSL中的人
(2) 我们提出了一个对比和一个生成的SSL任务用于预训练。然后,我们阐述了它们之间的差异,并通过实证验证了两者的结合可以带来更好的代表性
(3) 我们提供了理论见解和案例研究,证明为什么添加三维几何体是有益的
(4) 我们在所有SSL基线中实现了SOTA性能(算法(模型)的性能在当前是最优的)

2.正文前书页

每个分子都有两个自然视图:2D图包含由邻接定义的拓扑结构,而3D图可以更好地反映几何和空间关系。从化学的角度来看,三维几何图形侧重于能量,而二维图形侧重于拓扑信息;因此,他们可以组成学习更多的信息表示在GraphMVP。下面简要介绍如何表示分子图的这两个视图:

二维分子图:
将分子表示为2D图形,原子表示为节点,键表示为边
我们将其表示为g2d=(X,E),其中X是原子属性矩阵,E是键属性矩阵。请注意,此处也包括键连接性。然后我们将在拓扑图上应用一个变换函数。给定2D分子图G2D,可通过2D图形神经网络(GNN)模型获得其代表性H2D:
在这里插入图片描述
三维分子图:
另外还包括原子的空间位置,因为原子在势能面上连续运动,所以原子的空间位置不必是静态的。该表面局部极小值处的3D结构称为DConformer。由于分子性质是整合的构象,GraphMVP为采用3D构象学习更好的表征提供了一个新的视角。给定conformerg3D=(X,R),其通过a3D GNNmodel的表示为:
在这里插入图片描述
R为3D坐标矩阵,T3D为3D变换
我们使用X和Y表示2D和3D图形
中间层的特征:
在这里插入图片描述

3.GraphMVP:图形多视点预训练

我们的模型称为图形多视图预训练(GraphMVP),利用3D信息进行自我监督学习(SSL)预训练。三维构象编码了丰富的分子能量和空间结构信息,这是对二维拓扑结构的补充。因此,在3D和2D视图之间应用SSL将提供更好的2D表示,它隐含地嵌入了分子的能量和几何信息的集合。
1.首先对所提出的GraphMVP进行概述
2.介绍两个专门涉及3D构象结构的前置任务。
3.总结了一个更广泛的图形SSL家族,该家族在2D分子图表示学习和3D几何中占主导地位。

3.1GraphMVP概述
Align:匹配
Contrast:对比
Reparameterize:重设置参数
在这里插入图片描述
在2D和3D结构中遮罩相同的区域。通过2D和3DGNN模型将分子的多个视图(本文中为Halicin)映射到表示空间。GraphMVP将2D拓扑和3D几何作为每个分子的两个互补视图。通过在这些视图之间进行SSL,人们期望学习一种增强了3D构象的2D表示,它可以更好地反映某些分子特性。

作为通用的SSL预训练管道,GraphMVP有两个阶段:预训练和微调。在预训练中,我们通过提供3D和2D分子结构的数据收集辅助任务来执行SSL。在微调过程中,预先训练的2DGNN模型随后会在特定的下游任务上进行微调,通常只有2D结构可用。

在SSL预训练阶段,我们设计了两个前置任务:一个对比任务和一个生成任务。我们推测,然后实证证明,这两项任务侧重于不同的学习方面,归纳为以下两点。(1) 从表征学习的角度来看,对比SSL是从数据间学习,生成SSL是从数据内学习。对于对比SSL,一个关键步骤是从帧间数据中获取负面视图对进行对比;而生成式SSL则通过在内部数据级别重建关键特性,将重点放在每个数据点本身上。(2) 从分布学习的角度来看。对比SSL通过在数据间级别对比成对距离在本地学习分布。因此,在有足够数量数据的情况下,局部对比操作可以迭代地恢复数据分布。另一方面,生成SSL直接学习全局数据密度函数。
对比式和生成式SSL本质上是以不同的直觉和学科来进行表示和分布学习。我们随后进行了一项消融研究(第4.4节),以验证这一点.为了使前置任务更具挑战性,我们通过随机屏蔽多个节点(和相应的边)作为转换函数,对每个分子进行观察

3.2 3D和2D视图之间的自我监督学习对比(对比式)
对比自我监督学习(SSL)的主要思想是首先从数据间的层面定义积极和消极的视图对,然后对齐积极的视图对,同时对比消极的视图对。对于每个分子,我们首先从3D和2D视图中提取表示,即hx and hy。然后我们创建正负对进行对比学习:同一分子的3D-2D对(x,y)被视为正,反之则为负。最后,我们对齐正对并对比负对。管道如图1所示。下面,我们将讨论对比图SSL上的两个常见目标函数
**NCE:**核心思想就是通过学习数据分布样本和噪声分布样本之间的区别,从而发现数据中的一些特性
在这里插入图片描述
Pn为噪声分布,σ为S形函数

3.3 在3D和2D视图之间生成自我监督学习(生成式)
生成式SSL是无监督预培训的另一个经典途径。它旨在通过重构每个数据点本身来学习有效的表示。特别是在药物发现方面,我们为每个分子提供了一个2D图和一定数量的3D构象,我们的目标是学习一种稳健的2D/3D表示法,能够在最大程度上恢复其3D/2D对应物。通过这样做,生成式SSL可以强制2D/3D GNN对最固有的几何/拓扑信息进行编码,从而从逻辑上提高下游性能。生成模型有很多选择,包括变分自动编码器(VAE)、生成对抗网络(GAN)、基于流的模型等。在GraphMVP中,我们倾向于使用类似VAE的方法,原因如下:(1)两个分子视图之间的映射是随机的:多个3D构象对应于相同的2D拓扑;(2) 下游任务需要明确的2D图形表示(即特征编码器);(3) 用于结构化数据(如图形)的解码器通常比较复杂且难以设计,这使得它们成为次优选择。
变分分子重构VMR使用了类似于VAE的生成SSL,使用了crasfty的损耗函数,对条件似然度P(y | x)进行建模,我们有一个条件似然的下界:
在这里插入图片描述
上述目标由条件对数似然和KL散度组成,其中瓶颈是计算结构化数据的第一项.它本质上是从采样的2D分子图表示(zx)重构3D构象(y)。然而,在数据空间上进行图形重建并不容易:因为分子(例如原子和键)是离散的,在分子空间上建模和测量将带来额外的障碍
变分表示重构(VRR):为了应对这一挑战,我们提出了一种新的损失函数,将重建从数据空间转移到表示空间。我们不需要解码潜在的codezxto数据空间,而是直接将其投影到3D表示空间,表示为asqx(zx)。由于表示空间是连续的,我们也可以用高斯分布对条件对数似然进行建模,从而得到重建的L2距离,即。Ekqx(zx)−SG(hy(y))k2。这里SG是停止梯度的缩写,假设HY是一个固定的学习表示函数,这在SSL文献中被广泛采用。我们将此代理损失称为VRR,并将其视为生成性SSL损失:
在这里插入图片描述
3.4多任务目标函数
如前所述,对比SSL和生成SSL本质上从不同的角度学习表示。一个合理的推测是,将这两种SSL方法结合起来可以带来总体上更好的性能,因此我们可以最小化GraphMVP的以下完整目标:
在这里插入图片描述
α1,α2是加权系数.随后进行的消融研究传递了两个重要信息:(1)3D构象上的个体对比和生成SSL都可以持续帮助改善2D表征学习;(2) 结合这两种SSL策略可以产生进一步的改进。因此,我们得出结论,GraphMVP能够通过充分利用3D信息获得增强2D表示。
现有的graph SSL只关注2D拓扑,这与GraphMVP是平行的:2D graph SSL关注开发2D结构拓扑,GraphMVP利用3D几何信息。因此,我们建议将2D SSL合并到GraphMVP中。由于二维图SSL有两大类:生成型和对比型,因此我们相应地提出了两种变体GraphMVP-G和GraphMVP-C。其目标如下:
在这里插入图片描述

4.实验与结果

4.1实验设置
数据集:在同一数据集上预先训练模型,然后对广泛的下游任务进行微调。我们从GEOM中随机选择了具有2D和3D结构的50k合格分子
补充:分子几何嵌入(GEOM)数据集包含3300多万个分子构象,在室温下标记了它们的相对能量和统计概率。这个数据集将有助于两类任务的基准测试和转移学习:从二维分子图推断3D属性,以及开发生成模型来采样3D构象。
分子性质预测任务的结果:结果为标准差和ROC
在这里插入图片描述
4.2分子预测的主要性能
公认的基础对比方法:EdgePred、InfoGraph、GPT-GNN、AttrMask、ContextPred、GraphLoG、G-{Context,Motif}、GraphCL、JOAO
GraphMVP有两个关键因素:i)掩蔽比(M)和ii)每个分子的构象数(C)。我们设置m=0.15和C=5默认值,并将在第4节的以下消融研究中探讨其影响。3.对于EBM-NCE损耗,噪声分布采用经验分布。对于方程(8),我们选择了经验最优的生成和对比2D SSL方法:即GraphMVP-G的AttrMask和GraphMVP-C的ContextPred
在有机化合物分子中,由C—C单键旋转而产生的原子或基团在空间排列的无数特定的形象称为构象
列出了8项分子性质预测任务的主要结果。我们观察到GraphMVP的性能明显优于随机初始化的方法,并且平均性能大大优于现有的SSL方法。此外,GraphMVP-G和GraphMVP-C持续改进性能,支持以下主张:3D几何体是2D拓扑的补充。GraphMVP利用3D构象和2D拓扑之间的信息,2D SSL作为正则化器来提取更多2D拓扑信息;它们从不同的角度提取信息,而且确实是相辅相成的

4.3消融实验:混合其他信息的影响
在这里插入图片描述
控制遮掩比和同分异构体的设置参数,来进行相关比较
结论:
1.具有较大比率的子图屏蔽将使SSL任务更具挑战性,尤其是与原始图(M=0)相比
2.当添加更多的构象时,性能通常会更好,但会达到高于特定阈值的平台.可能原因:前5位的构象足以覆盖大多数平衡态的构象(超过80%),因此较大构象的影响不大。总之,添加更多的一致性可能会有所帮助,但计算成本可能会随着数据集大小的增加而线性增长。另一方面,增大掩蔽比不会导致额外成本,但性能稍好。因此,从效率和有效性的角度出发,我们鼓励在尝试更多的构象之前调整掩蔽率。

4.4 消融研究:客观功能的影响
在第三部分中,我们介绍了一个新的对比学习目标族EBM-NCE,我们将InfoNCE和EBM-NCE都视为对比损失。对于生成性SSL任务,我们在方程(6)中提出了一个称为变分表示重构(VRR)的新目标函数。如第3节所述。随机性对于GraphMVP很重要,因为它可以捕捉每个2D分子图的构象分布。为了验证这一点,我们通过消除VRR中的随机性,对再现重建(RR)进行了消融研究。因此,我们在这里开展了一项消融研究,以探索每个个体目标功能(InfoNCE、EBM-NCE、VRR和RR)的效果,然后是它们之间的成对组合。
在这里插入图片描述
(1)每个单独的SSL目标函数(中间块)都可以带来更好的性能。这强化了添加3D信息有助于2D表示学习的说法。
(2) 根据这些SSL目标函数(底部块)的组合,添加对比和生成SSL可以持续提高性能。这验证了我们的说法,即在数据间和数据内级别执行SSL都是有益的。
(3) 我们可以看到,在所有设置下,VRR始终优于RR,这验证了随机性是分子3D构象建模的一个重要因素

4.5下流任务的广泛分布
迄今为止讨论的8个二元下游任务已广泛应用于分子的SSL研究线中,但还有更多的任务可以利用3D构象。在这里,我们测试了4个额外的回归性质预测任务和2个药物靶点亲和力任务。关于数据集统计信息,更多详细信息可在附录F中找到,我们不妨在此简要描述一下任务。药物靶点亲和力(DTA)是药物发现中的一项关键任务,它对分子药物和蛋白质靶点进行建模,目的是预测
在这里插入图片描述
4.6实例研究
我们研究GraphMVP如何在任务目标对于2D拓扑具有挑战性但使用3D几何体很简单时提供帮助(如图2所示)。因此,我们设计了两个案例研究,以验证GraphMVP如何将知识从三维几何体转换为二维表示。第一个案例研究是三维直径预测。对于分子来说,通常2D直径越长,3D直径越大(最大的原子成对l2距离)。然而,这并不总是正确的,我们感兴趣的是使用2D图形来预测3D直径。第二个案例研究是长距离供体-受体检测。分子具有一种特殊的几何结构,称为施主-受主键,我们想用二维分子图来检测这种特殊的结构。我们验证了GraphMVP持续改进了这两个案例研究,并在附录G中提供了更详细的讨论和解释
在这里插入图片描述

5.结论与未来工作

在这项工作中,我们提供了一个非常通用的框架,即GraphMVP。从领域的角度来看,GraphMVP
(1)是第一个整合3D信息以增强2D图形表示学习的人
(2)能够通过考虑建模中的随机性来利用3D构象。从技术新颖性的角度来看,GraphMVP在介绍2个SSL任务时提供了以下见解:(1)根据等式,GraphMVP提出了EBM-NCE和VRR,其中他们分别使用EBM和变分分布对条件分布进行建模。(2) EBM-NCE类似于JSE,虽然我们从一个不同的方向开始推导和数学直觉,但EBM在这一领域开辟了另一个有希望的领域。(3) VRR作为一种生成性SSL方法,能够缓解分子生成中的潜在问题。(4) 最终,GraphMVP结合了对比SSL(InfoNCE或EBM-NCE)和生成SSL(VRR)作为目标函数。实证结果(14个下游数据集的可靠性能改进)和理论分析都可以有力地支持上述领域和技术贡献。我们想强调的是,GraphMVP是模型无关的,并且有可能扩展到许多其他低数据应用程序。这激发了未来探索的广阔方向,包括但不限于:(1)更强大的3D和2D分子表示方法。(2) 除小分子以外的不同应用领域,如蛋白质等大分子。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值