DatawhaleAI夏令营对新手小白很友好,我对机器学习方面可谓是一窍不通,但在学习群中有很多助教以及大佬悉心指导,这使我这种小白也可以很好的学习AI方面的知识。
模型的训练是采用魔塔社区的notebook云端学习开发环境,模型采用了python3、pandas工具、scikit-learn机器学习库、rdkit对化学分子生成构向。
使用随机森林算法来训练模型,其中参数有:
- n_estimators:表示决策树的个数,决策树的个数越多 ,模型训练的效果就越好,但相应的开销成本也会增多;
- max_depth:用来设置决策树的最大深度,默认值为“None”;
- min_samples_split:用来表示划分节点时的最少样本数;
- min_samples_leaf:用来表示叶子节点的最少样本数;
- n_jobs:用来表示并行job的个数(当n_jobs=-1时会使用所有的cpu进行并行计算)。
模型中的代码我还有很多不了解的地方,学习手册中也有相关的讲解,在学习群中提问也会有助教和大佬悉心指导和回复,第一阶段的学习还有很多不足的地方,争取在下一个阶段的学习中学到更多的知识,掌握更多机器学习的算法。