1. 集成算法概述:
通常说有三种集成算法:装袋法(Bagging)、提升法(Boosting)和stacking。装袋法的基本思想是构建多个相互独立的基评估器,然后通过预测平均或多数表决原则来决定集成评估器的结果。装袋法的典型代表就是随机森林(RandomForest)。随机森林是由多个决策树集成而成的。目标是多个评估器建模的结果,汇总后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。
2. 随机森林重要参数解析


- n_estimators:森林中基评估器的数量,即树的数量。n_estimators越大模型效果越好,但达到一定程度时,精确性趋于稳定。默认为100。
- criterion:衡量标准。gini系数和信息熵2种。
- max_depth:树的最大深度
- mini_sample_leaf:min_samples_leaf=1,二叉树
- mini_samples_split:一个节点分成几类样本
- mini_samples_split=2
- max_features:树的特征个数
- random_state 随机种子
调参最重要的参数:
n_estimators、max_features、max

这篇博客介绍了集成算法中的随机森林,包括装袋法的基本思想和随机森林的工作原理。重点解析了随机森林的重要参数,如n_estimators、criterion、max_depth、min_samples_leaf、min_samples_split和max_features,并指出n_estimators、max_features、max_depth是调参的关键。最后,以sklearn.datasets的wine数据集为例展示了随机森林的应用实践。
最低0.47元/天 解锁文章
1963

被折叠的 条评论
为什么被折叠?



