分子性质预测的的大部分文章,本质是研究分子的表示学习,然后应用到性质预测任务。
有分子性质预测的文章,关键词是“property prediction”,也有专门研究毒性的文章,关键词是“toxicity prediction”。
这周读了一篇2021.5发表在BIB上的文章,用无监督的方式学习分子的表示,期刊是化学二区的,影响因子9.905。
MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction
1 Introduction
1.1 背景
深度学习在各个领域的成功促进了它在分子性质预测中的应用,但面临着数据匮乏的问题。GNNs可以直接从图中学习,但由于受过拟合和过平滑问题的限制,目前的GNNs通常比较浅,削弱了其提取深层模式的能力。
GNN:一般2~3层
over-smooth:过平滑问题,无论特征矩阵的初始状态如何(随机产生),多次卷积后,同一连通分量内所有节点的特征都趋于一致了
1.2 本文工作
本文将GNNs集成到BERT中,提出了分子图BERT(MG-BERT)模型,可以克服普通GNN面临的过平滑问题,并提取深层特征以生成分子表示。进一步提出掩蔽原子预测的预训练策略,可以充分挖掘原子的上下文信息。此外,MG-BERT可以通过attention机制关注目标性质相关的原子和子结构。
1.3 图形摘要
作者在BERT的基础上提出了MG-BERT:
①Pre-train阶段的任务是学习 上下文敏感的原子表示 和 一些化学知识,input是没有标签的分子数据,对输入分子中的原子进行mask并进行预测,训练模型。
②Fine-tune阶段的任务是预测给定分子的性质,input是有标签的分子数据。使用pre-train阶段训练好的模型,学习分子的表示,用于下游的分类、回归任务。
2 方法
2.1 模型结构
2.1.1 原始的BERT结构
① An embedding layer:通过嵌入矩阵将输入的word token嵌入到连续的向量空间。由于Transformer无法自动学习位置信息,因此要将位置编码加入到向量空间中。
② Several Transformer encoder layers:word token之间通过global attention相互交换信息。
③ A task-related output layer:通常是全连接层,执行分类或回归任务。
2.1.2 MG-BERT的结构
MG-BERT在BERT基础上进行了改进:
① Embedding layer:将word token变为atom token。由于分子中的原子没有顺序关联,因此不需要指定位置信息。
② 将global attention变为local attention based on chemical bonds,只允许原子通过化学键交换信息。因为在自然语言句子中,一个单词可能与其他任何单词相关,而在分子中,原子主要与通过 化学键 与相邻原子相关联。本文使用邻接矩阵来控制分子中的信息交换。
③为每个分子添加了可以连接到所有原子的supernode。一方面,超节点可以与其他节点交换信息,在一定程度上解决了长距离依赖问题;另一方面,超节点可以被视为最终的分子表示,并用于解决下游分类或回归任务。
模型架构图