特征重要性判断(二)----集成学习(随机森林)

集成学习

  • 集成学习(Ensemble Learning)通过构建并结合多个学习器来完成学习任务。
  • 集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”(Weak Learner)尤为明显。
  • 要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,即学习器不能太坏,并且要有“多样性”(diversity),即学习器间具有差异。
  • 在个体学习器的误差相互独立的条件下,随着集成中个体分类器的数目 T T T的增大,集成的错误率将指数级下降,最终趋向于零。在现实任务中,个体学习器是为解决同一个问题训练出来的,它们显然不可能相互独立。事实上,个体学习器的“准确性”和“多样性”本身就存在冲突。一般地,准确性很好之后,要增加多样性就需牺牲准确性。
  • 根据个体学习器的生成方式,目前的集成学习方法可以分为两大类:第一个是个体学习器间存在强依赖关系、必须串行生成的Boosting方法;第二类是个体学习器间不存在强依赖关系、可以并行生成的Bagging方法。本小节主要梳理Bagging的方法,关于Boosting的方法会在后续章节梳理。

Bagging

  • 想要得到泛化性能强的集成,个体学习器间应尽可能相互独立;虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大的差异。给定一个训练数据集,一种可能的做法是对训练样本进行采样,产生出若干个不同的子集,再从每个数据子集中训练出一个基学习器。这样,由于训练数据不同,我们获得的基学习器可能具有比较大的差异。然而,为获得好的集成,我们同时还希望个体学习器不能太差。如果采样出的每个子集都完全不同,则每个基学习器只用到了一小部分训练数据,甚至不足以进行有效学习,这显然无法确保产出比较好的基学习器。为解决这个问题,我们可考虑使用相互有交叠的采样子集。
  • Bagging是并行式集成学习方法最著名的代表。
  • 自助采样法(bootstrap sampling):给定包含m个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过 m m m此随机采样操作,初始训练集中有的样本在采用集中多次出现,有的则从未出现。照这样,我们可采样出 T T T个含 m m m个训练样本的采样集,然后基于每个采样集训练处一个基学习器,再将这些基学习器进行结合。这就是Bagging的基本流程。在对预测输出进行结合时,Bagging通常对份额里任务使用简单投票法。对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形,则最简单的做法是随机选择一个,也可进一步考察学习器投票的置信度来确定最终胜者。
  • 由于每个基学习器只使用了初始训练集中约63.2%的样本,剩下约36.8%的样本可用作验证集来对泛化性能进行“包外估计”(out-of-bag estimate)

随机森林

  • 随机森林(Random Forest,简称RF)是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假设有
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值