机器学习笔记整理(五)——集成分类

本文介绍了集成学习的基本概念和重要方法,包括剪枝分类器、Bagging、Boosting、随机森林及其结合策略。强调了多样性在提升性能中的关键作用,分析了Bagging与Boosting的差异,并以随机森林为例展示了如何增强多样性。
摘要由CSDN通过智能技术生成

集成学习:把性能较低的多种弱学习器,通过适当组合而形成高性能强学习器的方法。

集成学习主要包括两部分:如何得到若干个个体学习器、使用什么样的结合策略结合个体学习器

  • 同质集成:集成中只包含同种类型的个体学习器,对应的学习器和算法叫做基学习器,基学习算法
  • 异质集成:个体学习器由不同学习算法生成

理论上讲,对弱学习器的集成足以获得好的性能,弱学习器是指泛化性能略优于随机猜测的学习器,二分类精度略高于50%即可,当使用较少的个体学习器或者重用关于常见学习器的经验时会使用较强的学习器。

好的个体学习器应该是好而不同的,保证准确性的前提下也需要保证多样性。

如果基分类器错误率相互独立,随着集成中个体分类器数目T增大,集成错误率呈指数级下降,最终趋向于0.

1.剪枝分类器

剪枝分类器是一种非常简单的分类器,分类效果较差,但是计算成本低,在集成学习中使用效果很好。

方法:任意选择输入变量中的一维,与给定阈值比较进行分类。n个样本可以得到n-1个候选解,计算相邻两个训练样本在分类时的误差,将误差最小的候选解作为分类边界。

2.Bagging学习法

原理:对多个弱学习器独立进行学习

样本选择:自助采样法,从n个训练样本中随机选取n个,允许重复,生成与原始样本有些许差异的样本集

学习过程

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值