【机器学习基础】集成学习

最新推荐文章于 2024-05-19 11:37:14 发布

为梦而生~

最新推荐文章于 2024-05-19 11:37:14 发布

阅读量1.2k

点赞数 27

分类专栏：机器学习文章标签：机器学习集成学习人工智能算法数据挖掘

本文链接：https://blog.csdn.net/z135733/article/details/135385936

版权

机器学习专栏收录该内容

16 篇文章 13 订阅

订阅专栏

🚀个人主页：为梦而生~ 关注我一起学习吧！
💡专栏：机器学习欢迎订阅！相对完整的机器学习基础教学！
⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！
💡往期推荐：
【机器学习基础】一元线性回归（适合初学者的保姆级文章）
【机器学习基础】多元线性回归（适合初学者的保姆级文章）
【机器学习基础】对数几率回归（logistic回归）
【机器学习基础】正则化
 【机器学习基础】决策树（Decision Tree）
【机器学习基础】K-Means聚类算法
 【机器学习基础】DBSCAN
【机器学习基础】支持向量机
💡本期内容：
集成学习（Ensemble Learning）是一种通过结合多个弱分类器的预测结果，来得到一个更强大的分类器的方法。它基于“群体智慧”，通过对多个模型结果的综合，可以缓解过度拟合和欠拟合等问题，并提升预测性能。常见的集成学习算法包括 Boosting、Bagging、随机森林等。其中，Boosting 是一种将多个弱分类器变成强分类器的算法，Bagging 是一种基于 Bootstrap 取样的集成学习算法，随机森林则是一种结合决策树和 Bagging 的方法。集成学习在机器学习和数据挖掘领域有着广泛的应用，例如在图像分类、自然语言处理、信用风险评估等任务中表现出了良好的性能。

1 个体与集成

集成学习(ensemble learning)通过构建并结合多个学习器来提升性能
在这里插入图片描述

1.1 集成个体

考虑一个简单的例子，在二分类问题中，假定3个分类器在三个样本中的表现如下图所示，其中√ 表示分类正确，X 号表示分类错误，集成的结果通过投票产生。

在这里插入图片描述
通过上表我们可以发现一个问题，如果每个学习器分类结果都是相同的，那么集成之后跟一个学习器其实差不多，就像是(b)；

但是如果“八仙过海各显神通”，各个学习器在集成之后尽可能的显现了自己的能力，并且集成后的强分类器的性能还得到了提升，那么我们就认为集成的效果是好的，例如(a);

除此之外，如果各个学习器集成到一起并没有使得总的分类性能得到提升，我们认为这个集群起了负作用，例如©。

于是，我们得出结论：集成个体应好而不同

1.2 集成错误率简单分析

考虑二分类问题，假设基分类器的错误率为：

在这里插入图片描述

假设集成通过简单投票法结合𝑇个分类器，若有超过半数的基分类器正确则分类就正确

在这里插入图片描述

假设基分类器的错误率相互独立，则由Hoeffding不等式可得集成的错误率为：

在这里插入图片描述

上式显示，在一定条件下，随着集成分类器数目的增加，集成的错误率将指数级下降，最终趋向于0

注意：

上面的分析有一个关键假设：基学习器的误差相互独立
现实任务中，个体学习器是为解决同一个问题训练出来的，显然不可能互相独立
事实上，个体学习器的“准确性”和“多样性”本身就存在冲突
如何产生“好而不同”的个体学习器是集成学习研究的核心

2 Boosting

Boosting是一种集成学习算法，旨在通过训练一系列的弱分类器（即性能稍好于随机猜测的分类器），将它们组合成一个强分类器（即性能显著提升的分类器）。与其他集成学习算法相比，Boosting通过迭代的方式逐步优化模型，提高预测性能。

Boosting的核心思想是通过对训练数据集进行加权，重点训练那些之前分类效果不佳的样本，使得后续的弱分类器能够更加关注这些“困难”样本。通过反复迭代，多个弱分类器被训练得到，并通过加权投票或加权求和的方式，综合它们的预测结果，得到最终的分类器。

常见的 Boosting 算法包括 AdaBoost、Gradient Boosting 和 XGBoost。其中，AdaBoost（Adaptive Boosting）通过调整样本的权重来迭代训练弱分类器。Gradient Boosting 是一种基于梯度下降的 Boosting 算法，通过最小化损失函数的负梯度来进一步优化模型。XGBoost 是一种基于 Gradient Boosting 的高性能实现，通过结合正则化和特征子抽样等技术，提升了模型的泛化能力和训练速度。

在这里插入图片描述