随机森林(random forest)

集成学习方法——Bagging(bootstrap aggregation)
它是一种有放回的抽样方法,主要目的在于提高单个弱分类器的分类能力,同时解决单一分类器容易产生过拟合的问题。策略如下:
1)从样本集合中有重复的选出n个样本(有放回的抽样);
2)在所有特征(属性)上,对这n个样本建立分类器;
3)重复1)、2)m次,可获得m个分类器;
4)通过这m个分类器对测试数据进行分类,然后根据这m个分类器的结果进行投票,选择投票最多的类作为最后的预测值。
Bagging相关
1、需要注意的是Bagging采用bootstrap采样方式,约有27%的数据不会被选择用于训练,只有约63%的原始用于训练。
2、另外一个需要注意的是,对于回归问题Bagging策略由最后一步的投票,改成求所有预测值的均值。
3、m个分类器没有必要是一样的,可以由多个分类器共同构成。在随机森林中,我们也可以使用SVM、Logistic回归作为基础分类器。习惯上,这些分类器组成的”总分类器“依然叫随机森林。
4、不同的投票方式(一票否决、少数服从多数、阈值表决、贝叶斯投票机制等)都会导致不同结果。
5、可以通过设置权重来表示不同分类器的重要性。
随机森林
随机森林在Bagging的基础上做了 一定修改。流程如下:
1)使用Boostrap方式在训练集中选取n个样本;
2)从所有特征(属性)中随机选择k个特征(属性),选择最佳分类特征(属性)作为建立决策树;
3)重复1)、2)步骤m次,即建立了m棵决策树;
4、这m个决策树形成随机森林,通过投票表决结果,决定数据属于哪一类。
可以看出来,随机森林中的”随机“是指:
1)Bootstrap中的随机选择子样本。
2)从特征集中随机选择k个特征,每个结点分类时,从这随机的k个特征选择最优的。

1、https://www.zybuluo.com/frank-shaw/note/103575

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值