随机森林的优点和缺点_参数
参数:
需要调节的重要参数有
n_estimators 和 max_features,
可能还包括预剪枝选项(如 max_depth)。
n_estimators:森林中数的个数
max_depth : integer或者None。数的最大深度
max_features 决定每棵树的随机性大小,较小的 max_features 可以降低过拟合。
一般来说,好的经验就是使用默认值:
对于分类,默认值是 max_features=sqrt(n_features);
对于回归,默认值是 max_features=n_features。增大 max_features 或 max_leaf_nodes 有时也可以提高性能。它还可以大大降低用于训练和预测的时间和空间要求
优点、 缺点和参数。
用于回归和分类的随机森林是目前应用最广泛的机器学习方法之一。
这种方法非常强大,通常不需要反复调节参数就可以给出很好的结果,也不需要对数据进行缩放
性能好:
随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷。仍然使
用决策树的一个原因是需要决策过程的紧凑表示。基本上不可能对几十棵甚至上百棵树做出详细解释,随机森林中树的深度往往比决策树还要大(因为用到了特征子集)。因此,如果你需要以可视化的方式向非专家总结预测过程,那么选择单棵决策树可能更好。虽然在大型数据集上构建随机森林可能比较费时间,但在一台计算机的多个 CPU 内核上并行计算也很容易。如果你用的是多核处理器(几乎所有的现代化计算机都是),你可
以用 n_jobs 参数来调节使用的内核个数
随机性:
随机森林本质上是随机的,设置不同的随机状态(或者不设置 random_state参数)可以彻底改变构建的模型
非常大的数据集,随机森林的表现通常也很好,
训练过程很容易并行在功能强大的计算机的多个 CPU 内核上
缺点:
对于维度非常高的稀疏数据(比如文本数据),随机森林的表现往往不是很好。对于这种数据,使用线性模型可能更合适。