https://zhuanlan.zhihu.com/p/56940098
调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。
对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。
对于决策树数量参数:
决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增大,对硬件的性能要求越高。决策树的数量一般在10-100,可以观察随着决策树数量的增加,误差下降不是很明显了,差不多就是这个参数了。
对于特征数量:
每个决策树用到的特征越多,效果肯定越好,但是对于整个随机森林模型来说,希望各个决策树之间保持一定的差异性。并且单个决策树的特征越多,消耗的性能越大。
常用选项:开根号;log2;百分之20