集成学习笔记（一）

最新推荐文章于 2022-06-18 09:49:28 发布

wf592523813

最新推荐文章于 2022-06-18 09:49:28 发布

阅读量289

点赞数

文章标签：集成学习算法

本文链接：https://blog.csdn.net/wf592523813/article/details/79958773

版权

弱学习器：常指泛化性能略优于随机猜测的学习器；例如在二分类问题上精度略高于50%的分类器。

要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”，即学习器间应具有差异。

根据个体学习器的生成方式，目前的集成学习方法大致可以分为两大类：一种是个体学习器间存在强依赖关系、必须串行生成的序列化方法，另一种是个体学习器之间不存在强依赖关系，可同时生成的并行化方法。前者代表是Boosting，后者代表是Bagging和随机森林。

Boosting
Boosting是一族可将弱学习器提升为强学习器的算法。工作机制类似于：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器的数目达到事先指定的T值，最终将这T个基学习器进行加权结合。

著名代表是AdaBoost，Boosting算法要求基学习器能对特定的数据分布进行学习，这可通过“重赋权法”实施，即在训练的每一轮中，根据样本分布为每个训练样本重新赋予一个权重。对于无法接受带权样本的基学习算法，可以通过“重采样法”来处理，即在每一轮学习中，根据训练样本分布对训练集重新进行采样，再用重采样得到的样本集对基学习器进行训练。一般而言，两种做法没有显著的优劣差别，需注意，Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件，如检查当前基分类器是否比随机猜测好，一旦条件不满足，则当前基学习器被抛弃，且学习过程停止。在此情况下，若未达到初始设置的学习轮数T，则会导致最终集成中只包含很少的基学习器而性能不佳。若采用“重采样法”，则可获得“重启动”机会以避免训练过程过早停止，即在抛弃不满足条件的当前基学习器之后，可根据当前样本分布重新对训练样本进行采样，再基于新的采样结果重新训练出基学习器，从而使得学习过程可以持续到预设的T轮完成。

Bagging与随机森林
若得到范化性能强的集成，集成中的个体应尽可能相互独立，设法使基学习器尽可能有巨大差异，给定一个训练集，一种可能做法是对训练样本进行采样，产生若干个不同的子集，再从每个子集中训练出一个基学习器。这样由于训练数据不同，获得的基学习器可望具有较大差异。但是，为了获得好的集成，同时还希望个体学习器不能太差，若采样出的每个子集都完全不同，则每个基学习器只用到了一小部分训练数据，甚至不足以进行有效学习，显然无法确保产出比较好的即学习器，为解决此问题，可以考虑使用相互有交叠的采样子集。
Bagging直接基于自助采样法。给定包含m个样本的数据集，先随机选出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时仍有可能选中该样本，经过m此随机采样操作后，得到含有m个样本的采样集，初始训练集中有的样本在采样集中多次出现，有的则从未出现。初始训练集中约有63.2%的样本出现在采样集中。Bagging基本流程：先采样出T个含有m个训练样本的采样集，然后给予每个采样集训练出一个基学习器，再将这些基学习器进行结合。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。
随机森林（RF）是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性时实在当前结点的属性集合中（假设有d个属性）选择一个最优属性；而在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性进行划分，这里的参数k控制了随机性的引入程度，若k=d，则与传统决策树相同，若k=1，则是随机选择一个属性进行划分，一般情况下推荐k=log2(d).随机森林中的基学习器的“多样性”不仅来自样本扰动，还来自属性扰动，这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。
随机森林的收敛性与Bagging类似。随机森林的起始性能往往相对较差，特别是在集成中只包含一个基学习器时，因为通过引入属性扰动，随机森林中个体学习器的性能往往有所降低。但是，随着个体学习器树木的增加，随机森林通常会收敛到更低的泛化误差。随机森林的训练效率常优于Bagging，因为在个体决策树的构建过程中，Bagging使用的是“确定型”决策树，在选择划分属性时要对结点的所有属性进行考察，而RF使用的“随机型”决策树则只需考察一个属性子集。

结合策略
平均法：简单平均法，加权平均法
投票法：绝对多数投票法，相对多数投票法，加权投票法
学习法：Stacking，次级学习器（元学习器）