Datawhale AI夏令营第三期 AI+物质科学task1学习笔记

  • 代码分析:

def mfgen(mol, nBits=2048, radius=2):
    # 函数用于生成分子的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol, radius=radius, nBits=nBits)
    return np.array(list(map(eval, list(fp.ToBitString()))))
def mfgen(mol,nBits=2048, radius=2):
    '''
    Parameters
    ----------
    mol : mol
        RDKit mol object.
    nBits : int
        Number of bits for the fingerprint.
    radius : int
        Radius of the Morgan fingerprint.
    Returns
    -------
    mf_desc_map : ndarray
        ndarray of molecular fingerprint descriptors.
    '''
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
    return np.array(list(map(eval,list(fp.ToBitString()))))

# 加载数据
def vec_cpd_lst(smi_lst):
    smi_set = list(set(smi_lst))
    smi_vec_map = {}
    for smi in tqdm(smi_set): # tqdm:显示进度条
        mol = Chem.MolFromSmiles(smi)
        smi_vec_map[smi] = mfgen(mol)
    smi_vec_map[''] = np.zeros(2048)
    
    vec_lst = [smi_vec_map[smi] for smi in smi_lst]
    return np.array(vec_lst)
dataset_dir = '../dataset'   # # 注:如果是在AI Studio上,将这里改为'dataset'

train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')

print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')
# 从csv中读取数据
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()

# 将SMILES转化为分子指纹
train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)
# 在dim=1维度进行拼接。即:将一条数据的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接为一个向量。
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()

# 测试集也进行同样的操作
test_rct1_smi = test_df['Reactant1'].to_list()
test_rct2_smi = test_df['Reactant2'].to_list()
test_add_smi = test_df['Additive'].to_list()
test_sol_smi = test_df['Solvent'].to_list()

test_rct1_fp = vec_cpd_lst(test_rct1_smi)
test_rct2_fp = vec_cpd_lst(test_rct2_smi)
test_add_fp = vec_cpd_lst(test_add_smi)
test_sol_fp = vec_cpd_lst(test_sol_smi)
test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)
  • 上述一系列代码是根据摩根指纹特性编写的,用于将化学反应的信息转化为计算机能“听懂”的信息。
  • 生成分子的Morgan fingerprint(摩根指纹)是分子设计和化学预测的一种常用方法。在给定的代码中,生成分子的摩根指纹是为了将分子的结构信息转化为数值特征,以便于后续的机器学习模型训练和预测。这些指纹将作为模型输入的一部分,帮助模型学习分子特性与合成产率之间的复杂关系。
# Model fitting
model = RandomForestRegressor(n_estimators=10,max_depth=10,min_samples_split=2,min_samples_leaf=1,n_jobs=-1) # 实例化模型,并指定重要参数
model.fit(train_x,train_y) # 训练模型
# 保存模型
with open('./random_forest_model.pkl', 'wb') as file:
    pickle.dump(model, file)
# 加载模型
with open('random_forest_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)
# 预测\推理
test_pred = loaded_model.predict(test_x)
  • 随机森林:适用于回归问题。它结合了多个决策树来减少过拟合并提高预测准确性。
  • 随机森林的决策树的集成:多个决策树组成,每棵树都独立训练于随机抽样的子数据集(bootstrap抽样)和随机选择的特征子集。这种随机性有助于增加模型的多样性,减少过拟合的风险。

  • 随机森林的随机性的引入:

    • Bootstrap抽样(自助法):对于给定的数据集,随机森林通过重复抽样(有放回抽样)来生成多个不同的训练数据子集。每棵决策树的训练数据都是从原始数据中随机选择的,使得每棵树都有可能学习到不同的特征和数据模式。
    • 随机选择特征:在每次节点分割时,随机森林从所有特征中选择一个子集进行分割。这确保了每棵决策树的每个节点都不会基于所有特征进行最佳分割,增加了模型的多样性。
  • 随机森林的集成预测:针对回归问题,随机森林中的每棵决策树都会输出一个预测值。在预测时,随机森林会对所有决策树的预测结果进行平均(或加权平均),从而得到最终的回归预测值。

  • 优化随机森林的手段:
  1. 数据预处理(数据处理好了,该模型优化效果就会好很多)
  2. 参数优化(这个调整是有限的)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值