预测化学分子的nlogP——基于sklearn, deepchem, DGL, Rdkit的图卷积网络模型

之前出了几个博客,都是关于如何使用deepchem的内置数据集、模型、以及分子特征化。
到目前为止,都没有使用自己真是的案例进行流程化的尝试。

这里就使用自己的test.sdf文件作为输入,到模型的建立和评估,建立一个真实的应用于分子的图神经网络模型案例。

import deepchem as dc
import os

一、加载SDF数据,特征化,生成机器学习/深度学习可以接受的数据格式

tasks:任务的列明, featurizer:分子特征化对象, sanitize:分子标准化(一般均选True,因为SDF文件中保存的分子很有可能是没有处理好的)

sdf_file = 'testset.sdf'
featurizer = dc.feat.CircularFingerprint(size=128)
loader = dc.data.SDFLoader(tasks=['n_logp'], featurizer=featurizer, sanitize=True)
'''
tasks:任务的列明, featurizer:分子特征化对象, sanitize:分子标准化(一般均选True,因为SDF文件中保存的分子很有可能是没有处理好的)
'''
dataset = loader.create_dataset(sdf_file)
print(dataset)
print(dataset.X) #分子的特征
print(dataset.y) #label,也就是tasks
print(dataset.w) #样本权重,均为1
print(dataset.ids)

输出为:(不完整)
在这里插入图片描述

关于ConvMolFeaturizer,请参照:
Duvenaud, David K., et al. “Convolutional networks on graphs for learning molecular fingerprints.” Advances in neural information processing systems. 2015.

featurizer = dc.feat.ConvMolFeaturizer()
loader = dc.data.SDFLoader(tasks=['n_logp'], featurizer=featurizer, sanitize=True)
dataset = loader.create_dataset(sdf_file)
print(dataset)
print(dataset.X) #分子的特征
print(dataset.y) #label,也就是tasks
print(dataset.w) #样本权重,均为1
print(dataset.ids)

输出:(不完整)
在这里插入图片描述

二、将分子的特征作为机器学习模型的输入

1) sklearn模型

这里使用简单的线性回归模型。模型结果不一定合理。
当然使用DNN也可以。也是使用这种输入。
或者使用不同的特征,请见deepchem:
https://deepchem.readthedocs.io/en/latest/api_reference/featurizers.html#featurizer

#数据加载
sdf_file = 'testset.sdf'
featurizer = dc.feat.CircularFingerprint(size=128)
loader = dc.data.SDFLoader(tasks=['n_logp'], featurizer=featurizer, sanitize=True)
dataset = loader.create_dataset(sdf_file)
#特征和标签
X = dataset.X
Y = dataset.y
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=42)
reg = LinearRegression()
reg.fit(x_train, y_train)
score = reg.score(x_test, y_test)
print('Simels线性回归模型的分数为:',score)

在这里插入图片描述

(2) GCN模型

首先,这里要先将分子转化为图神经网络的输入数据模式,主要是先使用dc.feat.ConvMolFeaturizer()将分子特征化。
其次,这里由于是图层面的任务,因此需要图回归模型, 所以这里。
这里直接使用Deepchem内置的GraphConvModel模型。

featurizer = dc.feat.ConvMolFeaturizer()
loader = dc.data.SDFLoader(tasks=['n_logp'], featurizer=featurizer, sanitize=True)
dataset = loader.create_dataset(sdf_file)
#划分数据集
import numpy as np
from deepchem import splits
splitter = splits.RandomSplitter()
train_set, test_set = splitter.train_test_split(dataset, frac_train=0.7)
#建立图神经卷积网络模型
model = dc.models.GraphConvModel(1, mode='regression', dropout=0.5)
model.fit(train_set) #会有警告
#评估器
avg_pearson_r2 = dc.metrics.Metric(dc.metrics.pearson_r2_score, np.mean)
test_score = model.evaluate(test_set,[avg_pearson_r2])
print('图卷积网络模型的预测分数为:', test_score)

在这里插入图片描述

(3)自定义的GCN模型

自定义的GCN模型使用torch编写。可参照:https://blog.csdn.net/wufeil7/article/details/107540479
分子要先进行处理,使之适合自定义的图神经网络的输入。分子的处理有很多的方法,例如(2)中使用dc.feat.ConvMolFeaturizer()。
这里使用RdKit的邻接矩阵处理。
注意,我们这里使用的是图层面的任务。

import torch
torch.set_default_tensor_type(torch.FloatTensor)
import dgl
print(torch.__version__)
print(dgl.__version__)

自定义一个GCN回归模型,建立图层面的回归任务

#自定义一个GCN回归模型
import torch.nn as nn
from dgl.nn.pytorch import GraphConv
import torch.nn.functional as F

#建立图层面的回归任务
class Regression(nn.Module):

    def __init__(self, in_dim, hidden_dim, out_dim):
        super(Regression, self).__init__()
        self.conv1 = GraphConv(in_dim, hidden_dim)
        self.conv2 = GraphConv(hidden_dim, hidden_dim)
        self.ress = nn.Linear(hidden_dim, out_dim)

    def forward(self, g):
        h = g.in_degrees().view(-1,1).float()
        h = F.relu(self.conv1(g, h))
        h = F.relu(self.conv2(g, h))
        g.ndata['h'] = h
        hg = dgl.mean_nodes(g, 'h')
        return self.ress(hg)

加载分子
1.这里使用RDKit中的Chem.PadansTools加载SDF文件,生成dataframe
2.从dataframe中的Smiles逐个转化为RDKIT的Mol文件
3.再将Mol文件通过Chem.rdmolops生成邻接矩阵
4.根据邻接矩阵为每一个分子构建DGL图对象。
也就是说,每一个分子最后都被表示成DGL图对象。

from rdkit import Chem
from rdkit.Chem import PandasTools
sdf_file = './testset.sdf'
data = PandasTools.LoadSDF(sdf_file)
print(data)
print(data.columns)
print(data.loc[0, :])
X = data.loc[:, 'Smiles'].values
y = data.loc[:, 'n_logp'].values
y = [float(i) for i in y]
#分子特征化,这里直接使用RDKit生成的邻接矩阵作为分子的特征
#生成mol对象
X = [ Chem.MolFromSmiles(i)  for i in X]
#生成邻接矩阵(当然,一个分子的特征,不单单可以考虑分子图的结构,也可以考虑节点和边的信息,为了简便起见,这里仅仅考虑结构)
X = [Chem.rdmolops.GetAdjacencyMatrix(i) for i in X]
#由邻接矩阵转为dgl的图(先转化为稀疏矩阵,然后构构建图)
from scipy.sparse import coo_matrix
X = [coo_matrix((i), shape=(len(i), len(i))) for i in X]
X = [dgl.from_scipy(i) for i in X]

输出为:
在这里插入图片描述

训练模型

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
#创建模型
net = Regression(1, 36, 1)
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
net.to(device)
#损失函数
loss_func = nn.MSELoss()
#优化器
from torch import optim
optimizer = optim.Adam(net.parameters(), lr=0.001)
#训练模型
train_epoch_loss = {}
eval_epoch_loss = {}
for epoch in range(10):
    print(epoch)
    net.train()
    loss_ = 0
    for x, y in zip(x_train, y_train):
        x = x.to(device)
        y_pred = net(x)
        y = np.array(y)
        y = y.reshape(-1,1)
        y = torch.from_numpy(y).float()
        y = y.to(device)
        loss = loss_func(torch.unsqueeze(y_pred, 0), y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        loss_ = loss.item() + loss_

    train_epoch_loss[epoch] = loss_
    print('train loss: {:.3f}'.format(loss_))

    loss_ = 0
    net.eval()
    for x,y in zip(x_test, y_test):
        x = x.to(device)
        y_pred = net(x)
        y = np.array(y)
        y = y.reshape(-1, 1)
        y = torch.from_numpy(y).float()
        y = y.to(device)
        loss = loss_func(torch.unsqueeze(y_pred, 0), y)
        loss_ = loss_ + loss.item()
    eval_epoch_loss[epoch] = loss_
    print('eval loss: {:.3f}'.format(loss_))

输出为:
在这里插入图片描述

总结:
1.图神经网络处理化学分子数据具有两种模式:
(1)直接使用Deepchem和Deepchem内置的特征化方法和模型。
(2)使用DGL自定义为每一个分子定义一个图,然后使用自定义的DGL模型进行训练。
2.在模型中的关键:
(1)分子特征化的方法
(2)GCN等图神经网络的结构
(3)损失函数的使用

  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 19
    评论
### 回答1: 卷积神经网络(Graph Convolutional Neural Network,GCNN)是一种基于结构的深度学习模型,能够在像和其他结构数据上进行分类、回归和其他任务。链路预测是指在给定输入节点和输出节点之间预测是否存在一条链路(即边)。 下面是一个使用 GCNN 进行链路预测的代码示例,使用的是 PyTorch 框架: ```python import torch import torch.nn as nn import torch.nn.functional as F class GraphConvolution(nn.Module): def __init__(self, input_dim, output_dim, adjacency_matrix): super(GraphConvolution, self).__init__() self.input_dim = input_dim self.output_dim = output_dim self.adjacency_matrix = adjacency_matrix self.weight = nn.Parameter(torch.randn(input_dim, output_dim)) self.bias = nn.Parameter(torch.randn(output_dim)) def forward(self, input_tensor): support = torch.mm(input_tensor, self.weight) output = torch.spmm(self.adjacency_matrix, support) + self.bias return output class GCNN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim, adjacency_matrix): super(GCNN, self).__init__() self.graph_conv1 = GraphConvolution(input_dim, hidden_dim, adjacency_matrix) self.graph_conv2 = GraphConvolution(hidden_dim, output_dim, adjacency_matrix) def forward(self, input_tensor): hidden = F.relu(self.graph_conv1(input_tensor)) output = F.sigmoid(self.graph_conv2(hidden)) return output # 假设输入是一个 NxD 的矩阵,N 是节点数量,D 是节点特征维度 # 假设输出是一个 Nx1 的矩阵,表示 ### 回答2: 链路预测是指在一个预测两个节点之间是否存在连接关系的问题。而卷积神经网络(Graph Convolutional Neural Networks, GCN)则是一种用于处理结构数据的深度学习算法。下面我将简要介绍如何利用GCN进行链路预测的方法,并提供示例代码。 链路预测的基本思路是通过学习节点之间的连接模式来预测节点之间的连接关系。GCN是一种基于邻居节点特征聚合的神经网络,可以提取节点及其邻居的特征,从而捕捉到节点之间的关系。以下是利用GCN进行链路预测的一般步骤: 1. 构建结构:首先,需要根据问题构建结构,即将节点和连接关系表示成。这里可以使用networkx库构建并操作对象。 2. 特征表示:对于每个节点,需要将其转化为向量形式作为GCN的输入。可以为每个节点定义特征向量,例如将每个节点表示为一个one-hot编码或使用节点的属性特征向量。 3. 邻居聚合:GCN通过将每个节点的特征与其邻居节点的特征进行聚合来获取更丰富的表示。这里可以定义多层GCN来逐步聚合节点的邻居信息。 4. 预测连接:通过训练GCN模型,可以学习到节点之间的连接模式。常用的方法是使用二分类的交叉熵损失函数,并用优化算法(如随机梯度下降)对模型参数进行更新。 下面是一个使用PythonDGL库进行GCN链路预测的示例代码: ```python import dgl import torch import torch.nn as nn import torch.optim as optim from dgl.data import citation_graph as citegrh from sklearn.metrics import roc_auc_score # 构建结构 data = citegrh.load_cora() g = dgl.DGLGraph(data.graph) features = torch.FloatTensor(data.features) labels = torch.LongTensor(data.labels) num_classes = data.num_labels # 定义GCN模型 class GCN(nn.Module): def __init__(self, in_feats, hidden_size, num_classes): super(GCN, self).__init__() self.gcn_layer = nn.Linear(in_feats, hidden_size) self.predict_layer = nn.Linear(hidden_size, num_classes) def forward(self, g, features): h = self.gcn_layer(g, features) h = torch.relu(h) logits = self.predict_layer(g, h) return logits # 训练模型 model = GCN(in_feats=features.shape[1], hidden_size=16, num_classes=num_classes) criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.01) model.train() for epoch in range(30): logits = model(g, features) loss = criterion(logits, labels) optimizer.zero_grad() loss.backward() optimizer.step() # 预测连接 model.eval() with torch.no_grad(): logits = model(g, features) pred_prob = torch.softmax(logits, dim=1)[:, 1] pred_labels = torch.round(pred_prob).long() auc_score = roc_auc_score(labels.numpy(), pred_prob.numpy()) print("AUC Score: {:.4f}".format(auc_score)) ``` 以上代码实现了一个简单的GCN链路预测模型,并使用CORA数据集进行训练和评估。具体步骤包括了构建结构、定义GCN模型、训练模型预测连接。代码中GCN模型继承自`nn.Module`类,并使用Adam优化器进行参数更新。在训练阶段,使用交叉熵损失函数计算损失。最后,使用ROC-AUC评估模型性能。 ### 回答3: 链路预测是指通过已知的网络结构信息,预测网络中尚未建立的连接关系。卷积神经网络(Graph Convolutional Neural Network, GCN)是一种用于节点分类和分类任务的深度学习模型,也可以用于链路预测。 以下是使用卷积神经网络进行链路预测的步骤和代码示例: 步骤1:准备数据 1.1 导入必要的库 import numpy as np import networkx as nx import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F 1.2 构建网络 G = nx.karate_club_graph() # 以Zachary's Karate Club数据集为例 adj = nx.adjacency_matrix(G).todense() adj = torch.tensor(adj, dtype=torch.float) 1.3 划分训练集和测试集 train_ratio = 0.8 train_size = int(train_ratio * adj.shape[0]) train_mask = np.zeros(adj.shape[0], dtype=bool) train_mask[np.random.choice(range(adj.shape[0]), size=train_size, replace=False)] = True train_mask = torch.BoolTensor(train_mask) test_mask = torch.BoolTensor(~train_mask) 步骤2:构建GCN模型 class GCN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(GCN, self).__init__() self.gc1 = GraphConvolution(input_dim, hidden_dim) self.gc2 = GraphConvolution(hidden_dim, output_dim) def forward(self, x, adj): x = self.gc1(x, adj) x = F.relu(x) x = self.gc2(x, adj) return torch.softmax(x, dim=1) class GraphConvolution(nn.Module): def __init__(self, input_dim, output_dim): super(GraphConvolution, self).__init__() self.fc = nn.Linear(input_dim, output_dim) def forward(self, x, adj): x = torch.matmul(adj, x) x = self.fc(x) return x 步骤3:定义训练过程 def train(model, features, adj, train_mask): optimizer = optim.Adam(model.parameters(), lr=0.01) criterion = nn.MSELoss() model.train() optimizer.zero_grad() output = model(features, adj) loss = criterion(output[train_mask], adj[train_mask]) loss.backward() optimizer.step() 步骤4:执行训练和测试 input_dim = adj.shape[1] hidden_dim = 16 output_dim = 1 epochs = 100 model = GCN(input_dim, hidden_dim, output_dim) for epoch in range(epochs): train(model, adj, adj, train_mask) model.eval() output = model(adj, adj) output = output.detach().numpy().flatten() test_auc = roc_auc_score(adj[test_mask], output[test_mask]) 以上是使用卷积神经网络进行链路预测的基本步骤和代码示例。需要注意的是,具体的模型结构、超参数调节等需要根据具体问题进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值