一、参数意义
1)需要调参的参数包括两部分,第一部分是Bagging框架的参数;第二部分是CART决策树的参数;
n_estimators=5,参考范围[1,201],弱学习器的个数,n_estimators太小,容易欠拟合,太大,容易过拟合。增加‘子模型数’可以明显降低整体模型的方差,且不会对子模型的偏差和方差有任何影响;模型的准确度会随着‘子模型数’的增加而提高;
bootstrap:默认True,是否有放回的采样;
oob_score: 默认为False,即是否采用袋外样本来评估模型的好坏,有放回采样中大约36.8%的没有被采样到的数据,我们称之为袋外数据(out of bag,OOB),这些数据没有参与训练集模型的拟合,因此可以用来检测模型的返回能力。
criterion:即CART树做划分时对特征的评价标准,分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是gini,另一个是信息增益。回归RF对应的CART回归树默认是均方差MSE,另一个是绝对差MAE。
从上面可以看出,RF重要的框架参数比较少,主要需要关注的是n_estimators,即RF最大的决策树个数。
2)决策树的参数:
max_depth:决策树的最大深度;
max_features: 划分时考虑的最大特征树;
max_lea