特征重要性判断（二）----集成学习（随机森林）

最新推荐文章于 2024-05-28 16:51:33 发布

呆萌的小透明

最新推荐文章于 2024-05-28 16:51:33 发布

阅读量932

点赞数

分类专栏：特征选择文章标签：机器学习算法

本文链接：https://blog.csdn.net/xiekengli8279/article/details/109227487

版权

集成学习

集成学习（Ensemble Learning）通过构建并结合多个学习器来完成学习任务。
集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”（Weak Learner）尤为明显。
要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”（diversity），即学习器间具有差异。
在个体学习器的误差相互独立的条件下，随着集成中个体分类器的数目 $T$ 的增大，集成的错误率将指数级下降，最终趋向于零。在现实任务中，个体学习器是为解决同一个问题训练出来的，它们显然不可能相互独立。事实上，个体学习器的“准确性”和“多样性”本身就存在冲突。一般地，准确性很好之后，要增加多样性就需牺牲准确性。
根据个体学习器的生成方式，目前的集成学习方法可以分为两大类：第一个是个体学习器间存在强依赖关系、必须串行生成的Boosting方法；第二类是个体学习器间不存在强依赖关系、可以并行生成的Bagging方法。本小节主要梳理Bagging的方法，关于Boosting的方法会在后续章节梳理。

Bagging

想要得到泛化性能强的集成，个体学习器间应尽可能相互独立；虽然“独立”在现实任务中无法做到，但可以设法使基学习器尽可能具有较大的差异。给定一个训练数据集，一种可能的做法是对训练样本进行采样，产生出若干个不同的子集，再从每个数据子集中训练出一个基学习器。这样，由于训练数据不同，我们获得的基学习器可能具有比较大的差异。然而，为获得好的集成，我们同时还希望个体学习器不能太差。如果采样出的每个子集都完全不同，则每个基学习器只用到了一小部分训练数据，甚至不足以进行有效学习，这显然无法确保产出比较好的基学习器。为解决这个问题，我们可考虑使用相互有交叠的采样子集。
Bagging是并行式集成学习方法最著名的代表。
自助采样法（bootstrap sampling）：给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过 $m$ 此随机采样操作，初始训练集中有的样本在采用集中多次出现，有的则从未出现。照这样，我们可采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练处一个基学习器，再将这些基学习器进行结合。这就是Bagging的基本流程。在对预测输出进行结合时，Bagging通常对份额里任务使用简单投票法。对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个，也可进一步考察学习器投票的置信度来确定最终胜者。
由于每个基学习器只使用了初始训练集中约63.2%的样本，剩下约36.8%的样本可用作验证集来对泛化性能进行“包外估计”（out-of-bag estimate）

随机森林

随机森林（Random Forest，简称RF）是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性时是在当前结点的属性集合（假设有

最低0.47元/天解锁文章

呆萌的小透明

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
特征重要性判断（二）----集成学习（随机森林）

集成学习集成学习（Ensemble Learning）通过构建并结合多个学习器来完成学习任务。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”（Weak Learner）尤为明显。要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”（diversity），即学习器间具有差异。在个体学习器的误差相互独立的条件下，随着集成中个体分类器的数目TTT的增大，集成的错误率将指数级下降，最终趋向于零。在现实任
复制链接

扫一扫