一、什么是随机森林
随机森林(Random Forest)是一种集成学习方法,属于监督学习算法,主要用于分类和回归任务。它通过在数据集的多个子集上构建多个决策树,并输出这些树预测结果的众数(对于分类问题)或平均值(对于回归问题)来工作。随机森林以其高准确率、不易过拟合以及能够有效评估变量的重要性等特点而广受欢迎。
二、随机森林的主要特点
- 集成学习:通过结合多个决策树的预测结果来做出最终决策,可以提高模型的泛化能力。
- 随机性:在构建每棵树时,随机选择部分特征(特征子集)和样本(有放回抽样,称为bootstrap sampling),这有助于减少过拟合并增加模型的多样性。
- 并行性:由于每棵树的构建是独立的,因此可以并行化计算,提高训练速度。
- 易于使用和调参:Scikit-learn 提供了易于使用的接口和丰富的参数,使得随机森林模型易于构建和调优。
三、随机森林参数
-
Python中是使用sklearn库中的 sklearn.ensemble 中的 RandomForestClassifier 类来实现随机森林的方法
-
sklearn.ensemble.RandomForestClassifier 中有很多的参数的默认值如下:
class sklearn.ensemble.RandomForestClassifier( n_estimators=’warn’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap