Datawhale AI夏令营-AI+物质化学 Task1 学习笔记

wmx_0719

于 2024-07-28 23:48:16 发布

阅读量152

点赞数 5

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/wmx_0719/article/details/140758245

版权

代码目标

构建一个能够准确预测碳氮成键反应产率的预测模型。

通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化，运用机器学习模型或者深度学习模型拟合预测反应的产率。

学习目标

能上手跑通baseline。

读懂、理解代码。

特征提取

官方发布的数据是对化学分子的SMILES表达式，具体来说，有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。其中：

rxnid 对数据的id标识，无实际意义
Reactant1 反应物1
Reactant2 反应物2
Product 产物
Additive 添加剂（包括催化剂catalyst等辅助反应物合成但是不对产物贡献原子的部分）
Solvent 溶剂
Yield 产率其中Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。

SMILES

SMILES,全称是Simplified Molecular Input Line Entry System，是一种将化学分子用ASCII字符表示的方法，是化学信息学领域非常重要的工具。

表1：一些常见的化学结构用SMILES表示。

表2：化学反应也可以用SMILES表示，用“>>”连接产物即可。

由于Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。所以，可以使用rdkit工具直接提取SMILES的分子指纹（向量），作为特征。

Morgan fing

位向量（bit ector）形式的特征，即由0,1组成的向量。

RDKit

化学信息学中主要的工具，开源。网址：http://www.rdkit.org，支持WIN\MAC\Linux，可以被python、Java、C调用。几乎所有的与化学信息学相关的内容都可以在上面找到。

代码

def mfgen(mol,nBits=2048, radius=2):
    '''
    Parameters
    ----------
    mol : mol
        RDKit mol object.
    nBits : int
        Number of bits for the fingerprint.
    radius : int
        Radius of the Morgan fingerprint.
    Returns
    -------
    mf_desc_map : ndarray
        ndarray of molecular fingerprint descriptors.
    '''
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

这个函数旨在生成并返回一个分子的Morgan指纹描述符。

在函数内部，它使用rdMolDescriptors.GetMorganFingerprintAsBitVect函数从RDKit库中计算分子的Morgan指纹，并将结果转换为一个位字符串（bit string）。然后，它将这个位字符串转换为一个Python列表，又通过 map 函数和 eval 函数将每个布尔值转换为整数。最后，它使用np.array将这个整数列表转换为一个NumPy数组，并返回这个数组。

def vec_cpd_lst(smi_lst):
    smi_set = list(set(smi_lst))
    smi_vec_map = {}
    for smi in tqdm(smi_set): # tqdm：显示进度条
        mol = Chem.MolFromSmiles(smi)
        smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)
    
    vec_lst = [smi_vec_map[smi] for smi in smi_lst]
    return np.array(vec_lst)

这个函数是为了从一个包含SMILES字符串的列表中生成一个包含所有分子指纹描述符的NumPy数组。

在函数内部，它通过将列表先转换为集合再转换为列表，从而去除了列表中的重复SMILES字符串。最后，它遍历原始的smi_lst列表，从smi_vec_map中获取每个SMILES对应的指纹描述符，并将这些描述符存储在一个列表中，然后转换为一个NumPy数组并返回。

这两个函数共同提供了一个从SMILES字符串列表到分子指纹描述符NumPy数组的转换过程。

随机森林

参数解释：

n_estimators=10：决策树的个数，越多越好；但是越多意味着计算开销越大；
max_depth: (default=None)设置树的最大深度，默认为None；
min_samples_split: 根据属性划分节点时，最少的样本数；
min_samples_leaf: 叶子节点最少的样本数；
n_jobs=1：并行job个数，-1表示使用所有cpu进行并行计算。

在这里，使用cpu进行计算有单线程性能强、计算密度高的优点。

代码

# Model fitting
model = RandomForestRegressor(n_estimators=10,max_depth=10,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型，并指定重要参数
model.fit(train_x,train_y) # 训练模型

在此处实例化了一个基于随机森林算法的回归模型的RandomForestRegressor模型，可用于预测。并通过调用.fit()方法使用训练数据（train_x和train_y）来训练模型。

但要注意在训练完模型后，应使用测试集来评估模型的性能，以避免过拟合。

保存我们先前训练过的模型，然后开始进行模型的加载，使用模型进行预测或推理。

wmx_0719

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营-AI+物质化学 Task1 学习笔记

构建一个能够准确预测碳氮成键反应产率的预测模型。通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化，运用机器学习模型或者深度学习模型拟合预测反应的产率。
复制链接

扫一扫