代码目标
构建一个能够准确预测碳氮成键反应产率的预测模型。
通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化,运用机器学习模型或者深度学习模型拟合预测反应的产率。
学习目标
能上手跑通baseline。
读懂、理解代码。
特征提取
官方发布的数据是对化学分子的SMILES表达式,具体来说,有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。其中:
- rxnid 对数据的id标识,无实际意义
- Reactant1 反应物1
- Reactant2 反应物2
- Product 产物
- Additive 添加剂(包括催化剂catalyst等辅助反应物合成但是不对产物贡献原子的部分)
- Solvent 溶剂
- Yield 产率 其中Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。
SMILES
SMILES,全称是Simplified Molecular Input Line Entry System,是一种将化学分子用ASCII字符表示的方法,是化学信息学领域非常重要的工具。
表1:一些常见的化学结构用SMILES表示。
表2:化学反应也可以用SMILES表示,用“>>”连接产物即可。
由于Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。所以,可以使用rdkit工具直接提取SMILES的分子指纹(向量),作为特征。
Morgan fing
位向量(bit ector)形式的特征,即由0,1组成的向量。
RDKit
化学信息学中主要的工具,开源。网址:http://www.rdkit.org,支持WIN\MAC\Linux,可以被python、Java、C调用。几乎所有的与化学信息学相关的内容都可以在上面找到。
代码
def mfgen(mol,nBits=2048, radius=2):
'''
Parameters
----------
mol : mol
RDKit mol object.
nBits : int
Number of bits for the fingerprint.
radius : int
Radius of the Morgan fingerprint.
Returns
-------
mf_desc_map : ndarray
ndarray of molecular fingerprint descriptors.
'''
# 返回分子的位向量形式的Morgan fingerprint
fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
return np.array(list(map(eval,list(fp.ToBitString()))))
这个函数旨在生成并返回一个分子的Morgan指纹描述符。
在函数内部,它使用rdMolDescriptors.GetMorganFingerprintAsBitVect
函数从RDKit库中计算分子的Morgan指纹,并将结果转换为一个位字符串(bit string)。然后,它将这个位字符串转换为一个Python列表,又通过 map 函数和 eval 函数将每个布尔值转换为整数。最后,它使用np.array
将这个整数列表转换为一个NumPy数组,并返回这个数组。
def vec_cpd_lst(smi_lst):
smi_set = list(set(smi_lst))
smi_vec_map = {}
for smi in tqdm(smi_set): # tqdm:显示进度条
mol = Chem.MolFromSmiles(smi)
smi_vec_map[smi] = mfgen(mol)
smi_vec_map[''] = np.zeros(2048)
vec_lst = [smi_vec_map[smi] for smi in smi_lst]
return np.array(vec_lst)
这个函数是为了从一个包含SMILES字符串的列表中生成一个包含所有分子指纹描述符的NumPy数组。
在函数内部,它通过将列表先转换为集合再转换为列表,从而去除了列表中的重复SMILES字符串。最后,它遍历原始的smi_lst
列表,从smi_vec_map
中获取每个SMILES对应的指纹描述符,并将这些描述符存储在一个列表中,然后转换为一个NumPy数组并返回。
这两个函数共同提供了一个从SMILES字符串列表到分子指纹描述符NumPy数组的转换过程。
随机森林
参数解释:
- n_estimators=10: 决策树的个数,越多越好;但是越多意味着计算开销越大;
- max_depth: (default=None)设置树的最大深度,默认为None;
- min_samples_split: 根据属性划分节点时,最少的样本数;
- min_samples_leaf: 叶子节点最少的样本数;
- n_jobs=1: 并行job个数,-1表示使用所有cpu进行并行计算。
在这里,使用cpu进行计算有单线程性能强、计算密度高的优点。
代码
# Model fitting
model = RandomForestRegressor(n_estimators=10,max_depth=10,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型,并指定重要参数
model.fit(train_x,train_y) # 训练模型
在此处实例化了一个基于随机森林算法的回归模型的RandomForestRegressor
模型,可用于预测。并通过调用.fit()
方法使用训练数据(train_x
和train_y
)来训练模型。
但要注意在训练完模型后,应使用测试集来评估模型的性能,以避免过拟合。
保存我们先前训练过的模型,然后开始进行模型的加载,使用模型进行预测或推理。