集成算法-Boosting算法案例及推理过程

最新推荐文章于 2024-04-09 14:05:02 发布

weixin_43999733

最新推荐文章于 2024-04-09 14:05:02 发布

阅读量2.5k

点赞数

分类专栏：算法文章标签： boosting adaboost

本文链接：https://blog.csdn.net/weixin_43999733/article/details/92791480

版权

本文介绍了Boosting提升算法的思路，通过改变训练样本的权重来学习多个分类器，并结合这些分类器以提高分类性能。文章详细阐述了AdaBoost算法的工作原理，包括弱分类器的权重确定和样本权重的更新过程。

摘要由CSDN通过智能技术生成

集成学习（Ensamble Learning）通过训练多个若学习器，然后将其按某种策略组合起来，从而达到最好的学习性能，提高算法的泛华能力。

目前集成学习有3个框架：bagging ,boosting,stacking;

Boosting作用于相同的测试集，在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。

Boosting提升算法的思路

提升方法是基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。通俗点说，就是”三个臭皮匠顶个诸葛亮”。

工作机制类似先从初始训练集训练出一个弱学习器，再根据学习器的表现对训练样本分布进行调整（通过改变样本概率从而实现改变样本分布），使得先前弱学习器做错的的训练样本在后续学习中得到更多关注，如此重复进行，知道学习器数目达到指定值T，最终将这T个基学习器进行加权组合。

Leslie Valiant首先提出了“强可学习（strongly learnable）”和”弱可学习（weakly learnable）”的概念，并且指出：在概率近似正确（probably approximately correct, PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的，如果正确率不高，仅仅比随即猜测略好，那么就称这个概念是弱可学习的。2010年的图灵奖给了L. Valiant，以表彰他的PAC理论。非常有趣的是Schapire后来证明强可学习与弱可学习是等价的，也就是说，在PAC学习的框架下，一个概念是强可学习的充要条件是这个概念是可学习的。

这样一来，问题便成为，在学习中，如果已经发现了“弱学习算法”，那么能否将它提升（boost）为”强学习算法”。大家知道，发现弱学习算法通常比发现强学习算法容易得多。那么如何具体实施提升，便成为开发提升方法时所要解决的问题。关于提升方法的研究很多，有很多算法被提出。最具代表性的是AdaBoost算法（Adaptive Boosting Algorithm），可以说，AdaBoost实现了PAC的理想。

大多数的提升方法都是改变训练数据的概率分布（训练数据中的各个数据点的权值分布），调用弱学习算法得到一个弱分类器，再改变训练数据的概率分布，再调用弱学习算法得到一个弱分类器，如此反复，得到一系列弱分类器。

代表性的提升算法有Adaboost（adaptiv