文章在2019.8发表在JCIM上,化学二区
1 Introduction
1.1 背景
目前深度学习方法 过度依赖手工设计的特征,这可能会限制模型 潜在表征 的搜索空间,那么如何设计卷积方法 来提高分子性质预测的性能 是需要解决问题。
1.2 本文工作
本文提出了一种 卷积空间图嵌入层(C-SGEL),使卷积运算能够应用于 分子图数据,将多个嵌入层堆叠起来 构造 卷积空间图嵌入网络(C-SGEN),用于从分子图中学习特征。此外,使用分子指纹来提高特征的泛化性能,并设计了一个结合 图形特征和指纹的复合模型 来预测分子性质。
2 模型介绍
2.1 模型结构
①在本文模型中,每个分子分别用无向图和分子指纹来表示。具体实现了a图表示层、b图嵌入层、c卷积空间图嵌入层 和 d图聚集层 四个过程。此外,结合这四个过程,提出了卷积空间图嵌入网络(C-SGEN),将CNN应用于分子图数据。此外,使用skip connection解决卷积过程中的梯度消失问题,在每个 卷积空间图嵌入层 C-SGEL 之后,引入跳过连接来连接每个C-SGEL的输出,它可以充分利用分子信息,揭示分子中原子之间的关系。
②同时,使用DNN处理的分子指纹。
③最后,将分子图和指纹表示连接在一起,使用全连接层预测分子特性。
模型结构图如下:’
2.2 分子图的表示
每个分子图G由 邻接矩阵A 和 初始节点矩阵X 表示。
①邻接矩阵A 表示原子之间的连接信息,若两个原子之间有边相连,则Aij =1,否则,Aij = 0,同时,邻接矩阵也考虑了原子的自连接。
②初始节点矩阵X 表示n个节点的集合,即 X = { x1, x2, … , xn },每个节点是一个m维向量,即 xi = { xi1, xi2, … , xim }。原子的特征描述如下:
xij 是第j个特征的值,m是特征维度
通过DeepChem软件包提取一个分子的所有特征,并编码到one-hot中。
(e.g)分子的初始特征矩阵。提取异丙醇的简单原子属性,不同颜色对应于不同原子。
每个原子