MG-BERT | 利用无监督原子表示学习预测分子性质 | 在分子图上应用BERT | GNN | 无监督学习(掩蔽原子预训练) | attention

最新推荐文章于 2024-02-19 19:00:00 发布

啊啦灯神叮

最新推荐文章于 2024-02-19 19:00:00 发布

阅读量2.1k

点赞数 7

分类专栏：论文解读文章标签： bert 深度学习人工智能 attention

本文链接：https://blog.csdn.net/xxxxxxbaby/article/details/122562995

版权

MG-BERT是一种结合GNN和BERT的模型，用于无监督的分子表示学习，以预测分子性质。通过掩蔽原子预训练策略，模型能够学习上下文敏感的原子表示，并通过基于化学键的局部注意力机制捕获深层特征。实验表明，预训练策略提高了模型的预测性能，尤其是在小数据集上，并且氢原子的存在对于模型效果至关重要。

摘要由CSDN通过智能技术生成

分子性质预测的的大部分文章，本质是研究分子的表示学习，然后应用到性质预测任务。
有分子性质预测的文章，关键词是“property prediction”，也有专门研究毒性的文章，关键词是“toxicity prediction”。
这周读了一篇2021.5发表在BIB上的文章，用无监督的方式学习分子的表示，期刊是化学二区的，影响因子9.905。

MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction

1 Introduction

1.1 背景

深度学习在各个领域的成功促进了它在分子性质预测中的应用，但面临着数据匮乏的问题。GNNs可以直接从图中学习，但由于受过拟合和过平滑问题的限制，目前的GNNs通常比较浅，削弱了其提取深层模式的能力。

GNN：一般2~3层
over-smooth：过平滑问题，无论特征矩阵的初始状态如何（随机产生），多次卷积后，同一连通分量内所有节点的特征都趋于一致了

1.2 本文工作

本文将GNNs集成到BERT中，提出了分子图BERT（MG-BERT）模型，可以克服普通GNN面临的过平滑问题，并提取深层特征以生成分子表示。进一步提出掩蔽原子预测的预训练策略，可以充分挖掘原子的上下文信息。此外，MG-BERT可以通过attention机制关注目标性质相关的原子和子结构。

1.3 图形摘要

作者在BERT的基础上提出了MG-BERT：
①Pre-train阶段的任务是学习上下文敏感的原子表示和一些化学知识，input是没有标签的分子数据，对输入分子中的原子进行mask并进行预测，训练模型。
②Fine-tune阶段的任务是预测给定分子的性质，input是有标签的分子数据。使用pre-train阶段训练好的模型，学习分子的表示，用于下游的分类、回归任务。
在这里插入图片描述

2 方法

2.1 模型结构

2.1.1 原始的BERT结构

① An embedding layer：通过嵌入矩阵将输入的word token嵌入到连续的向量空间。由于Transformer无法自动学习位置信息，因此要将位置编码加入到向量空间中。
② Several Transformer encoder layers：word token之间通过global attention相互交换信息。
③ A task-related output layer：通常是全连接层，执行分类或回归任务。

2.1.2 MG-BERT的结构

MG-BERT在BERT基础上进行了改进：
① Embedding layer：将word token变为atom token。由于分子中的原子没有顺序关联，因此不需要指定位置信息。
② 将global attention变为local attention based on chemical bonds，只允许原子通过化学键交换信息。因为在自然语言句子中，一个单词可能与其他任何单词相关，而在分子中，原子主要与通过化学键与相邻原子相关联。本文使用邻接矩阵来控制分子中的信息交换。
③为每个分子添加了可以连接到所有原子的supernode。一方面，超节点可以与其他节点交换信息，在一定程度上解决了长距离依赖问题；另一方面，超节点可以被视为最终的分子表示，并用于解决下游分类或回归任务。

模型架构图