动态超图对比学习:一种新的多关系药物-基因交互预测方法

人工智能咨询培训老师叶梓 转载标明出处

药物与基因之间的交互(DGI)预测对于新药发现和疾病管理至关重要。传统实验方法成本高昂,而计算方法则旨在准确且经济地检测DGI。尽管基于图神经网络(GNN)的方法在DGI预测中表现出色,但它们在数据稀疏和噪声较多的情况下性能会下降。而且GNN模型在训练时需要大量的DGI信号,这在实际的药物发现场景中往往难以满足。为此来自湖南大学的文涛、刘远生、湘潭大学的林轩以及湖南大学的宋波生和曾祥祥教授提出了一种名为动态超图对比学习(DGCL)的新框架。

论文链接:https://academic.oup.com/bib/article/24/6/bbad371/7325811

代码链接:https:// github.com/wentao228/DGCL

方法

DGCL框架的整体架构(图1),包括双向图的构建、动态超图结构学习、局部和全局信息的整合以及最终的预测模块。 

DGCL 框架首先构建了药物和基因之间的双部图,该图用于模拟观察到的相互作用。然后通过传统的基于图的消息传递过程学习药物和基因的局部聚合嵌入。

DGCL 通过设计的超图神经网络(HGNN)和动态超图结构学习,识别出全局语义邻居以补充局部结构信息。同时,在局部拓扑和全局语义视图之间执行自增强图对比学习,以约束学习到的超图结构。基于这些模块,DGCL 能够以最先进的性能估计药物和基因之间的相互作用类型。

显式局部关系建模: 构建含有 M 种药物和 N 种基因的双部图,以模拟药物-基因之间的相互作用。药物和基因之间的显式关系通过节点的局部拓扑结构进行编码。采用简化版的图卷积网络(GCN)来捕获局部依赖性,为药物和基因分配初始 ID 嵌入向量。定义了两个可学习的参数矩阵 ,其中 d 表示嵌入的大小。在消息传递过程中,丢弃了激活函数和特征转换,因为它们可能不会为目标任务带来好处。第 l 层的传播过程可以表示如下:

其中 表示初始嵌入或第 (l-1) 层的药物/基因聚合嵌入。p(·) 表示边缘丢弃操作,用于减轻过拟合。是标准化的邻接矩阵,计算如下:

其中 是度矩阵,I(M+N) 是身份矩阵,A 是邻接矩阵。在消息传递过程中,通过添加身份矩阵到邻接矩阵中,包括自连接操作。

为了增强 DGI 预测的全局结构学习能力,研究者提出了动态超图学习。基于两个可学习的邻接矩阵进行动态超图结构学习,分别表示药物和基因的超边矩阵。提出了一种假设,即如果节点的局部结构相似,则它们与超边的连接更可能是相似的。基于这一假设,将 分解为低秩矩阵,以减少模型参数的大小并避免过拟合。

研究者设计了超图消息传递层,以在自适应超图上执行嵌入传播。首先聚合药物/基因的嵌入以生成超边的嵌入,然后通过聚合来自超边的信息来计算节点嵌入。在超图消息传递层中,药物和基因的消息可以有效地进行通信,打破了距离限制。

研究者结合了动态超图结构的学习与全局关系的探索,以在整个图上学习非局部消息,缓解过平滑问题。提出了一种有效的对比学习范式,为约束学习到的超图结构提供辅助自监督信号。基于 InfoNCE,提出了对比学习目标,通过最小化正样本对之间的距离,同时最大化负样本对之间的距离。

整合: 在每一层中,首先聚合局部消息,然后传播非局部嵌入。最后,结合局部-全局依赖嵌入以生成输入嵌入。使用残差连接来计算最终的药物/基因嵌入,强调每一层输出的语义,并避免过平滑问题。

预测: 使用全连接层和药物 i 与基因 j 的嵌入的连接作为输入,来估计每种药物-基因关系类型的概率。定义了 DGI 预测的目标函数。

优化: 将对比学习任务视为辅助任务,并与预测任务一起使用多任务学习策略进行联合学习。定义了组合目标,包括预测损失、对比学习损失和模型特定正则化项的权重衰减系数。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
 

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验使用了三个多关系数据集来评估模型的性能(Table1):DrugBank、DGIdb 和 LINCS L1000。这些数据集被广泛使用,并具有互补的优势,能够从不同角度验证模型。

  • DrugBank 数据集包含了药物调节基因表达的两种类型关系:基因的上调和下调(即增加和减少)。
  • DGIdb 数据集从41个数据源中挖掘出14种DGI类型,包括配体、激活剂、抑制剂、疫苗、辅因子等。
  • LINCS L1000 数据集分析了不同药物引起的基因表达和细胞过程的变化,提供了两种类型的相互作用:增加和减少。

研究者将DGCL与两组竞争方法进行了比较:基于矩阵分解(MF)的方法(MC、GRALS 和 F-EAE)和基于图神经网络(GNN)的方法(GC-MC、sRGCNN、PinSage、IGMC 和 CoSMIG)。

为了评估多关系DGI预测的性能,采用了广泛使用的准确率(ACC)作为评估指标,该指标衡量正确预测的样本百分比。

在实现提出的框架时,模型使用Adam作为优化器,学习率为1e−3。嵌入维度设置为128,批量大小设置为4,096。图卷积层和超图传播层的数量配置为3。权重λ1和λ2分别从{1e−4, 1e−3, 1e−2, 1e−1}和{1e−8, 1e−7, 1e−6, 1e−5}中搜索。原始双部图的边缘丢弃比率从{0.25, 0.5, 0.75}中调整。对比学习中的温度τ从{0.1, 0.3, 1, 3, 10}中选择。

为了验证模型的优越预测性能,研究者将DGCL与其他竞争方法进行了比较。Table 2 总结了在DrugBank和DGIdb数据集上进行的实验结果。DGCL在两个数据集上均优于其他方法,特别是在DGIdb数据集上,与最强的基线CoSMIG相比,ACC提高了7.6%。

为了研究DGCL中显著组件的影响,研究者在DrugBank和DGIdb上进行了消融研究,分析了所提出的隐式全局结构学习和自增强对比学习的贡献。Table 3 展示了以下变体的结果:

  • DGCLw/o CL:这是DGCL的一个变体,其中禁用了自增强对比学习模块。它依赖于局部和全局消息来捕获药物和基因之间更丰富的关联关系。然而,它的动态全局邻居是在没有与局部邻居对比的约束下探索的。
  • DGCLw/o Hyper:这是DGCL的一个变体,其中去除了隐式全局结构学习组件。这个变体学习的药物/基因嵌入只聚合局部邻域的信息,不收集整个图的全局消息。

为了验证所提出的DGCL可以缓解过平滑问题,研究者计算了DGCL及其两个变体(DGCLw/o Hyper 和 DGCLw/o CL)生成的嵌入的均值平均距离(MAD)值。Table 4 报告了MAD结果,表明DGCL在缓解过平滑方面是有效的。

研究者评估了DGCL在面对稀疏交互数据时的鲁棒性。特别是,关注药物与少于20次交互的数据。然后,比较了DGCL及其变体与最佳基线CoSMIG在这部分药物上的预测性能。Figure 2 报告了在DrugBank和DGIdb上的性能结果,表明DGCL及其变体在稀疏数据上的表现优于CoSMIG。

研究者进一步评估了以下超参数对DGCL性能的影响:嵌入的维度和层数。Figure 3 显示了在DrugBank和DGIdb上的评估结果。

为了确认所提出的DGCL的泛化能力,研究者在LINCS L1000数据集上进行了外部评估。特别是,使用DrugBank作为训练集,LINCS L1000作为测试集。Figure 4 展示了DGCL、DGCLw/o Hyper、DGCLw/o CL和CoSMIG的结果,DGCL在所有模型中表现最佳。

研究者使用t分布随机邻域嵌入(t-SNE)对样本嵌入进行了可视化,以测试相同关系的样本是否具有相似的嵌入。Figure 5 显示了DrugBank和DGIdb的嵌入可视化结果,表明DGCL在区分不同类型的DGI方面的性能优秀。

除了准确性,研究者还计算了DGCL和最佳基线CoSMIG在DrugBank和DGIdb数据集上的敏感性,以全面评估预测模型。根据DGIdb数据集上的敏感性值,显然DGCL在处理不平衡数据集方面优于CoSMIG。

为了进一步验证DGCL的预测能力,研究者使用DrugBank作为训练集,对基因HMOX1进行了新的DGI预测。Supplementary Table 1 提供了DGCL预测的前10个新DGI的详细展示,这些预测在当前数据集中不存在,但有文献支持。

研究者根据药物对的嵌入相似性对所有潜在的药物-药物相互作用进行了排名,这些相互作用可能导致多重用药副作用。随后,使用多个来源的证据验证了前10个预测的药物-药物相互作用。Supplementary Table 2 展示了结果,其中7个预测的药物-药物相互作用得到了确认,表明DGCL能够仅基于DGI数据生成相似的嵌入,推断药物之间的隐式相关性。

这些实验结果表明,DGCL模型在多关系DGI预测方面具有显著的性能优势,能够有效处理数据稀疏性和过平滑问题,并具有良好的泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值