随机森林的优点和缺点_参数

随机森林的优点和缺点_参数

参数:

需要调节的重要参数有
n_estimators 和 max_features,
可能还包括预剪枝选项(如 max_depth)。
n_estimators:森林中数的个数
max_depth : integer或者None。数的最大深度
max_features 决定每棵树的随机性大小,较小的 max_features 可以降低过拟合。

一般来说,好的经验就是使用默认值:
对于分类,默认值是 max_features=sqrt(n_features);
对于回归,默认值是 max_features=n_features。增大 max_features 或 max_leaf_nodes 有时也可以提高性能。它还可以大大降低用于训练和预测的时间和空间要求

优点、 缺点和参数。
用于回归和分类的随机森林是目前应用最广泛的机器学习方法之一。
这种方法非常强大,通常不需要反复调节参数就可以给出很好的结果,也不需要对数据进行缩放

性能好
随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷。仍然使
用决策树的一个原因是需要决策过程的紧凑表示。基本上不可能对几十棵甚至上百棵树做出详细解释,随机森林中树的深度往往比决策树还要大(因为用到了特征子集)。因此,如果你需要以可视化的方式向非专家总结预测过程,那么选择单棵决策树可能更好。虽然在大型数据集上构建随机森林可能比较费时间,但在一台计算机的多个 CPU 内核上并行计算也很容易。如果你用的是多核处理器(几乎所有的现代化计算机都是),你可
以用 n_jobs 参数来调节使用的内核个数

随机性
随机森林本质上是随机的,设置不同的随机状态(或者不设置 random_state参数)可以彻底改变构建的模型

非常大的数据集,随机森林的表现通常也很好,
训练过程很容易并行在功能强大的计算机的多个 CPU 内核上

缺点:
对于维度非常高的稀疏数据(比如文本数据),随机森林的表现往往不是很好。对于这种数据,使用线性模型可能更合适。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值