集成学习之bagging和随机森林

最新推荐文章于 2024-05-22 16:02:00 发布

SunH7J

最新推荐文章于 2024-05-22 16:02:00 发布

阅读量1k

点赞数

文章标签：集成学习机器学习随机森林

本文链接：https://blog.csdn.net/weixin_53021643/article/details/121255751

版权

一、集成学习

1.定义

对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。

也就是说，集成学习有两个主要的问题需要解决：第一是如何得到若干个个体学习器（即：如何产生个体学习器）；第二是如何选择一种结合策略（即：如何结合个体学习器），将这些个体学习器集合成一个强学习器。

2.个个体学习器的选择

个体学习器的训练一般遵循两点：

①采用同质个体学习器（比异质更常见），使用最多的模型是CART和神经网络。

②采用弱学习器，一般准确率在55%~85%之间

（笔记byshj：因为集成学习的目的是提高准确率，强学习器的准确率已经很高了，再进行集成学习的话效果不显著）

3.算法的选择

由个体学习器间的依赖程度进行选择：若强依赖：boosting；若弱依赖：bagging或随机森林

4.集成学习的研究核心

集成学习的研究核心问题是：如何产生并结合“好而不同”的个体学习器。

①好：个体学习器性能好（虽然是弱学习器，但是性能需要尽可能的好，这样产生的集成学习器的性能也会很好）

②不同：个体学习器之间应该具有多样性

二、Bagging

1.定义

基于自助采样法（从n个样本中有放回的抽取n次）。

包括自助采样、学习器结合、包外估计三个步骤。

2.自助采样bootstrap sampling

（1）定义

设原始训练集为D（其中有n个样本），采样后的训练集为D'。

从D中有放回的抽取n次，将抽取的样本复制到D'，由此可以得到与原始训练集规模一致的新的训练集D'。

其中，任意一个样本一次都没有抽中的概率0.368。可见，可以将一次都没有抽中的样本组成测试集。用剩下（未抽中）的样本去测试学习器的这种方法，又被称为包外估计 out-of-bag estimate。

（2）对于集成学习的意义

因为集成学习中，有若干个个体学习器，但是数据集只有一个，不可能让所有个体学习器都学习相同的数据集，因为这样最终学习完后他们之间的差异就没有大，不利于集成学习。那怎么办呢？可以通过采样，将一个数据集变成若干个，且数据集中的样本大部分不重合。

那为什么选择自助采样呢？

通过一次自助采样，对于包含 m 个样本的原始数据集，我们可以得到包含 m 个样本的训练集，训练集与原始数据集大小一致。

①因为训练数据集规模与之前的一致，个体学习器不存在少学一些数据（少学的概率很小），即：可以进行充分的学习，得到更优的性能。

②多次自助采样后产生的多个训练集是不同的（尽管也有重叠的样本），因此从每个训练集中学习到的个体学习器之间有比较大的差异，我们可以把这种机制叫做样本扰动。

基于这两点，Bagging 集成的泛化性能是比较强的。

（3）补充

在集成学习中，如果希望个体学习器能够形成泛化性能较强的集成，那么一方面要求每个个体学习器自身的性能比较好，另一方面要求个体学习器之间尽可能具有较大的差异（笔记byshj：因为是同质学习器，学习器本身的性质已无法改变，只能改变训练集。若每一个学习器的训练集都一样，那学习器之间的差异可能就不大，可能会出现相似的学习器（因为其本身就是同质的了），所以尽量让每一个学习器都使用不同的训练集，来扩大差异）。

这也是之前所说的集成学习的研究核心内容——“好而不同”

3.学习器结合

（1）在分类任务中：采用简单投票法（也就是：少数服从多数）

若出现两个类票数相同，就随机二选一或者进一步考察基学习器投票的置信度来确定。

（2）在回归任务中：采用简单平均法（也就是：取平均值）

4.包外估计 out-of-bag estimate

（1）定义

通过自助采样得到的训练集，对其去重后得到的样本量约为原始数据集的 63.2% ，那么剩下约 36.8% 的样本正好可以用来作为验证集，评估模型的泛化误差，这种评估方法就叫做包外估计。

5.bagging复杂度

因为是并行产生个体学习器，所以使用bagging训练许多个体学习器和训练一个个体学习器的复杂度是相同的。

三、随机森林 Random forest

1.定义

是bagging的一种扩展变体。是基于bagging+个体学习器采用决策树+在训练个体学习器时引入了属性扰动。

即：

RF=bagging+决策树+属性扰动

2.属性扰动

在建立决策树时，在某个结点选择最优属性时。

假设此结点的属性集维数为d，则先随机选出一个子属性集（维数为k），再从此子属性集中随机选择出最优属性，再进行划分。

推荐k取值为 log2d（2为底数，不会打？？）

3.效率

RF的效率一般都高于bagging，因为bagging需要遍历所有属性，而RF只需要遍历那一个子属性集即可。

四、补充知识

1.个体学习器

（1）定义

个体学习器是集成学习中，被结合的那些学习器。

（2）分类

按照个体学习器的种类是否相同分为：同质、异质

①同质个体学习器

所有的个体学习器都是一个种类的，此时又称为“基学习器”

比如都是决策树个体学习器，或者都是神经网络个体学习器

②异质个体学习器

不全是一个种类。 此时又称为“组件学习器”

比如我们有一个分类问题，对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某种结合策略来确定最终的分类强学习器。

2.强学习器、弱学习器

弱学习器：准确率比随机猜测高，但高不到多少

强学习器：准确率在90%以上

转载：

一个分类器的分类准确率在60%-80%，即：比随机预测略好，但准确率却不太高，我们可以称之为“弱分类器”，比如CART（classification and regression tree分类与回归树）。

反之，如果分类精度90%以上，则是强分类器。

西瓜书上说：

弱学习器常指泛化性能略优于随机猜测的学习器（例如在二分类问题上精度略高于50%的分类器）
————————————————
版权声明：本文为CSDN博主「hxxjxw」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/hxxjxw/article/details/108269092

3.自助采样法

4.样本扰动

向模型中引入随机性的方法中的一种，除此之外，还有属性扰动，参数设置等其他方法。

其基于采样法。如自助采样法，序列采样法等，都是样本扰动的方法。

一般适用于不稳定学习器（unstable learner），如决策树，神经网络。这些学习器都容易受到数据集变动的影响，即：样本扰动。

5.属性扰动

适用于稳定学习器，如：svm，线性学习器等。

SunH7J

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习之bagging和随机森林

一、集成学习1.定义对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。也就是说，集成学习有两个主要的问题需要解决：第一是如何得到若干个个体学习器（即：选择什么个体学习器）；第二是如何选择一种结合策略（即：选择什么结合算法），将这些个体学习器集合成一个强学习器。2.个个体学习器的选择个体学习器的选择一般遵循两点：①集成学习一般都采用同质个体学习器且使用最多的模型是CART和神经网络。②采用弱学习器且随着分类器
复制链接

扫一扫