【机器学习】集成学习 - Ensemble Learning

最新推荐文章于 2024-08-23 17:48:13 发布

想变厉害的大白菜

最新推荐文章于 2024-08-23 17:48:13 发布

阅读量602

点赞数 1

分类专栏：机器学习文章标签：机器学习集成学习决策树

本文链接：https://blog.csdn.net/weixin_44211968/article/details/125716119

版权

机器学习专栏收录该内容

47 篇文章 56 订阅

订阅专栏

文章目录

一、为什么集成学习 (Ensemble Learning) ？
二、集成学习的分类
三、Bagging
- 1. Bagging 原理
- 2. Bagging 实例 - 随机森林 (Random Forests)
四、Boosting
五、Stacking
参考链接

一、为什么集成学习 (Ensemble Learning) ？

传统机器学习算法 (例如：决策树，人工神经网络，支持向量机，朴素贝叶斯等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是 将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：三个臭皮匠，赛过诸葛亮。

Thomas G. Dietterich 指出了集成算法在统计，计算和表示上的有效原因：

统计上的原因
一个学习算法可以理解为在一个假设空间 H 中选找到一个最好的假设。但是，当训练样本的数据量小到不够用来精确地学习到目标假设时，学习算法可以找到很多满足训练样本的分类器。所以，学习算法选择任何一个分类器都会面临一定错误分类的风险，因此将多个假设集成起来可以降低选择错误分类器的风险。
计算上的原因
很多学习算法在进行最优化搜索时很有可能陷入局部最优的错误中，因此对于学习算法而言很难得到一个全局最优的假设。事实上人工神经网络和决策树已经被证实为是一个NP 问题。集成算法可以从多个起始点进行局部搜索，从而分散陷入局部最优的风险。
表示上的原因
在多数应用场景中，假设空间 H 中的任意一个假设都无法表示 (或近似表示) 真正的分类函数 f 。因此，对于不同的假设条件，通过加权的形式可以扩大假设空间，从而学习算法可以在一个无法表示或近似表示真正分类函数 f 的假设空间中找到一个逼近函数 f 的近似值。

二、集成学习的分类

集成算法大致可以分为：Bagging，Boosting 和 Stacking 等类型。

接下来一一介绍。

三、Bagging

1. Bagging 原理

Bagging (Boostrap Aggregating) 是由 Breiman 于 1996 年提出，基本思想如下：

每次采用有放回的抽样从训练集中取出 n 个训练样本组成新的训练集。
利用新的训练集，训练得到 M 个子模型。
对于分类问题，采用投票的方法，得票最多子模型的分类类别为最终的类别；对于回归问题，采用简单的平均方法得到预测值。

在这里插入图片描述

一个分析：

在这里插入图片描述

2. Bagging 实例 - 随机森林 (Random Forests)

随机森林 (Random Forests) 是一种利用决策树作为基学习器的 Bagging 集成学习算法。随机森林模型的构建过程如下：

数据采样

作为一种 Bagging 集成算法，随机森林同样采用有放回的采样，对于总体训练集 T ，抽样一个子集 T_sub 作为训练样本集。除此之外，假设训练集的特征个数为 d ，每次仅选择 k(k<d) 个构建决策树。因此，随机森林除了能够做到样本扰动外，还添加了特征扰动，对于特征的选择个数，推荐值为 k = log₂d。