集成学习

最新推荐文章于 2023-04-11 09:19:46 发布

飞呀飞呀飞呀

最新推荐文章于 2023-04-11 09:19:46 发布

阅读量299

点赞数

文章标签：决策树算法机器学习深度学习

本文链接：https://blog.csdn.net/yin_fei_0825/article/details/105394263

版权

集成学习通过组合多个学习器提升泛化能力。包括Boosting、Bagging和随机森林等方法。Boosting中，AdaBoost通过调整样本权重使错误样本得到更多关注。Bagging使用自助采样降低方差，适合多分类和回归任务。随机森林是Bagging的扩展，决策树训练时引入属性随机选择。结合策略包括平均法、加权法和投票法，多样性是关键，可通过数据扰动、属性扰动等方式增强。

摘要由CSDN通过智能技术生成

集成学习

个体与集成

个体与集成

集成学习（ensemble learning ）是通过构建结合多个学习器来完成任务，或者被称为多分类器系统。其作用是比起单个学习器从而获得更好的泛化性能。

同质集成：包含同种类型的个体集成器，同质集成中包含的个体学习器被称为“基学习器”，相应的学习算法被称为“基学习算法”。
异质集成：有不同学习算法生成或者学习器生成。

目前学习器分为两大类，分别是个体学习器有着强依赖关系、必须串行生成的蓄力化方法；个体学习器不存在强依赖关系、可以同时生成并行化的方法；前者代表是Boosting, 后者代表是Bagging 和“随机森林”

一、Boosting

Boosting 工作机制:首先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本的分布进行调整，是的先前的基学习器做错的训练样本在后续得到更大的关注。在调整后的样本分布再来训练下一个基学习器；如此反复，知道达到事先指定的值T,最终将T个基学习器进行加权结合。（这里需要关注的是如何进行分布调整？），Boosting族算法最著名的代表是AdaBoost

AdaBoost:

加权模型：
$H(\boldsymbol{x})=\sum_{t=1}^{T} \alpha_{t} h_{t}(\boldsymbol{x})$

这里进行优化用到了指数损失函数。这里用到的指数损失函数可以很好的替代原来的0/1，可以微分，具有更好的数学性能。

Boosting算法要求基学习器能对特定的数据分布进行学习，可以通过“重赋值法”进行实施，在训练过程的每一轮中，根据样本的分布为每个训练样本重新赋予一个权重。对无法接受权重样本的基学习算法，则可以通过“重采样法”来进行处理。

二、Bagging

Bagging是并行式集成学习方法著名代表，其采用自主采样法（bootstrap sampling），即给定包含 m 个样本数据集，我们先随机选取一个样本放入采样集中，再把该样本放回初始数据集中，这样下次采样时该样本仍有可能被选取。经过 m 次随机采样操作，我们得到包含 m 个样本采样集。我们进行T次采样操作，得到T个包含 m 个样本的采样集。
Bagging 基于每个采样集进行训练一个基学习器，再将这些基学习器进行结合。结合方式可以采取简单的投票方法，也可以采取简单的平均方法。

标准的AdaBoost 只适用于二分类任务，而Bagging适用于多分类以及回归任务。 而且Bagging更主要关注降低方差。