机器学习：集成算法

最新推荐文章于 2024-05-14 20:41:32 发布

冰糖柑

最新推荐文章于 2024-05-14 20:41:32 发布

阅读量825

点赞数

分类专栏：机器学习 CDA python 文章标签：机器学习决策树 python

本文链接：https://blog.csdn.net/weixin_52416594/article/details/111866217

版权

本文介绍了集成算法的概念，包括bagging和boosting方法。详细讲述了随机森林算法，强调了决策树之间的独立性和Bootstrap抽样的作用。此外，还讨论了Adaboost算法的流程和特点，对比了bagging和boosting在样本选择和权重处理上的区别。

摘要由CSDN通过智能技术生成

1 集成算法概念

集成方法是将几种机器学习技术组合成一个预测模型元算法。把多个弱监督模型集合在一起，组成一个更全面的强监督模型。算法理念：取长补短。

bagging方法是booststrap aggregating的缩写，采用的是随机有放回的选择训练数据然后构造多个分类器，最后组合投票。代表算法随机森林。
在这里插入图片描述

必要条件:
- 各分类器之间相互独立
- 基分类器应当好于随机猜测分类器(概率)
总结：
- bagging中多个基分类器得到的结果交叉叠加在一起,通过投票将有效部分筛选出,降低基分类器的方差,改善了泛化误差
- 性能依赖基分类器的稳定性;如果基分类器不稳定,bagging有助于降低训练数据的随机波动导致的误差;如果稳定,则集成分类器误差主要由基分类器额偏仪倚引起
- bagging选的样本随机,不能特定

随机森林是最常用的集成算法之一。随机森林基分类器为决策树。

通过以下方法，保证决策树之间独立性，避免随机森林过拟合

bootstrap也称自助法

1 从N样本中选取n个数据作为训练数据输入，一般情况n远小于N。每被捕捉到的就是袋外数据，可以用做误差估计。可以直接用袋外数据来测试模型，obb_score
2 在特征集M中选m个特征构建决策树
3 选最小基尼指数
4 重复2和3步，得到森林
5 预测，多棵树同时决策，最后投票决策

boosting算法训练过程是依次训练基础模型，并在训练过程中对训练集不断进行调整，最终将所有模型组合起来。代表算法adaboost。

基本思想：不同训练集通过调整每个样本对应的权重，不同的权重应对不同的样本分布，而这个权重为分类器不断增加对错分样本的重视程度。利用弱分类器更新每个样本的权重，分类错误的样本就增加权重，正确就降低权重，得到新样本继续下一个分类器。直到k个分类去，最后某种策略得到最后的强分类器。
只要弱分类器的分类精度高于随机分类器（概率）
boosting对噪声非常敏感。