这周读了一篇有关分子性质预测的文章,“Knowledge-Embedded Message-Passing Neural Networks: Improving Molecular Property Prediction with Human Knowledge”,是在MPNN框架上的改进,文章于2021.10发表在ACS Omega上,化学三区,3年平均IF2.727。有点搞不太明白“非定量训练”这个创新点的意义在哪里,有了解的小伙伴欢迎交流~
1 Introduction
1.1 背景
使用深度学习方法进行分子性质预测可以取代分子筛选的昂贵实验,从而加速药物的开发。在分子性质预测领域遇到的最大问题是数据量少。
1.2 本文工作
本文提出了一种知识嵌入消息传递神经网络 (KEMPNN),克服了小数据集和分子表示透明度方面的缺点,同时引入了注意力机制,对属性和人类知识进行多模态学习,使 GNN 更具泛化性和一致性。
2 分子表示与知识表示
2.1 分子表示
将分子定义为无向图G(V, E),其中节点V表示原子,边E表示化学键
将每个节点表示为向量 xv ,包含 原子数、相邻原子数、电荷数、自由基电子数、是否芳香环 等特征。
将每条边表示为 euv ,其中u,v∈V,包含 键类型(单键、双键等)、是否共轭、是否包含在环中 等特征。
2.2 知识表示
将知识表示限制为分子图上每个原子的注释 kv ,v∈V,kv 是一个real value。
比如,在回归问题中,如果包含在子结构中的原子对目标属性有正面影响,kv =1;负面影响 kv=-1;没有影响 kv=0。对于分类分类问题,kv 可以是0和1。此外,kv 还可能是一个任意的实际值和多维向量。
这种知识表示是由人类注释创建的,这些注释可以是基于规则的注释(左上角)或逐个分子的手动注释(右上角)。
前者捕获分子特定的知识,而后者更高效,包含更少的注释错误。
在基于规则的注释中,注释器仅指定子结构或SMART的规则及其相应的注释值,然后将该规则应用于更大的一组分子,以高效地创建知识注释数据。
3 模型介绍
3.1 overview
KEMPNN模型使用 MPNN 作为基准架构,使用经过知识标注的数据来监督MPNN,如下图。(监督学习)
本文在MPNN的基础上增加了注意力分支,来计算节点权重以进行属性预测。
① 在Message passing消息传递阶段,本文采用 MPNN 的通用架构,学习节点的向量表示(hvT);
② 在消息传递阶段之后,本文使用了知识注意力机制(橙色),计算分子图中的节点权重;
③ 将Message passing阶段输出的节点表示,与注意力权重相乘,得到节点的最终表示ÿ