图自监督对比学习论文阅读笔记-An effective self-supervised framework for learning expressive molecular global repre

最新推荐文章于 2024-07-25 15:11:29 发布

努力AC的潇潇

最新推荐文章于 2024-07-25 15:11:29 发布

阅读量697

点赞数

分类专栏： AI与药物联合疗法文章标签：论文阅读

本文链接：https://blog.csdn.net/xiao_muyu/article/details/128528781

版权

一种有效的自我监督框架，用于学习药物分子的全局表示以进行药物发现

An effective self-supervised framework for learning expressive molecular global representations to drug discovery

Briefings in Bioinformatics 2021 Nov 5

一种有效的自我监督框架，用于学习药物分子的全局表示以进行药物发现

文章思路(2个工作)：

有监督数据获取太麻烦 ⟹⟹ 无监督数据 ⟹⟹ 基于批量的正/负样本生成进行对比判别计算代价太大，难以用于大规模数据集，但大规模数据集预训练是必要的 ⟹⟹ 要高效 ⟹⟹ MolGNet：用Transformer表示分子结构图，并在FFN之后加了个GRU作为节点更新函数。
现有的针对大规模数据集的自监督预训练方法都集中在节点层面的表示，无全局的语义结构信息 ⟹⟹ 加入图层面的图自监督策略 ⟹⟹ 成对半图判别(PHD)：将分子结构图分解成两个半图，这两个半图中的一个有0.5的概率被与来自另一个无关图的半图所代替，这个图就被当作负样本，否则就是正样本。然后让模型预测各半图对中的半图是不是来自同一分子结构图。SWS

摘要

如何生成具有表达性的分子表示是人工智能驱动药物研发的一个根本挑战。图神经网络(GNN)已经成为一种强大的分子数据建模技术。然而，以往的监督方法通常存在有标签数据稀缺和泛化能力差的问题。在此，我们提出了一种新的基于分子预训练图的深度学习框架MPG，该框架从大规模的未标记分子中学习分子表示。在MPG中，我们提出了一种用于分子图建模的强大GNN模型--MolGNet，并设计了一种有效的自监督策略在节点和图层面对模型进行预训练。在对1100万个未标记分子进行预训练后，我们发现MolGNet可以捕获有价值的化学信息，从而产生可解释的表示。经过预先训练的MolGNet可以通过一个额外的输出层进行微调，在14个基准数据集上为广泛的药物发现任务创建最先进的模型，包括分子特性预测、药物-药物相互作用(DDI)和药物-靶点相互作用(DTI)。在MPG中预先训练的MolGNet有潜力成为药物发现过程中的优秀分子编码器。

关键词：分子表征；深度学习；图神经网络；自我监督学习

1.引言

药物发现是一项复杂的系统工程，从发明到上市在实践中是一个漫长的旅程。同时，由于生物系统的复杂性和大量实验，药物发现容易失败，而且十分昂贵。为了解决这些问题，许多研究人员在早期临床前研究的不同阶段提出了各种计算机辅助药物发现(CADD)方法，用于从Hit识别和选择、Hit-to-Lead优化到临床候选药物。尽管在辅助药物发现方面取得了成功，但许多基于分子模拟技术的传统CADD方法存在计算量大、程序费时的问题，限制了其在制药行业的应用。

人工智能(AI)和药物发现之间的跨学科研究因其优越的速度和性能而受到越来越多的关注。许多人工智能技术已经成功地应用于药物发现的各种任务中，如分子性质预测、DDI和DTI预测。这些研究的基本挑战之一是如何从分子结构中学习表达形式。在早期，分子表示是基于人工制作的特征，如分子描述符或指纹。大多数传统的机器学习方法都是围绕着这些分子表示的特征工程进行的。

相比之下，人们对通过深度神经网络学习的分子表示感兴趣，从拟合原始输入到特定的任务相关目标。近年来，在极具潜力的深度学习体系结构中，以消息传递神经网络(MPNN)为代表的图神经网络(GNN)逐渐成为分子数据建模的有力候选者。由于分子自然是由通过化学键(边)连接的原子(节点)组成的图形，因此它非常适合GNN。到目前为止，研究者们提出了各种GNN结构，并在药物发现方面取得了很大的进展。然而，有一些限制需要解决。分子表示中深度学习的挑战主要来自于标记数据的稀缺，因为实验室实验既昂贵又耗时。因此，药物发现中的训练数据集通常在大小上是有限的，所以在这上面学习的表示缺乏泛化能力。

减轻对大型标记数据集的需求的一种方法是通过自监督学习在未标记的数据上预先训练模型，然后将学习的模型转移到下游任务。这些方法已经得到了广泛的应用，并在计算机视觉(

最低0.47元/天解锁文章

努力AC的潇潇

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
图自监督对比学习论文阅读笔记-An effective self-supervised framework for learning expressive molecular global repre

一种有效的自我监督框架，用于学习药物分子的全局表示以进行药物发现
复制链接

扫一扫