学习笔记（四）__集成学习

最新推荐文章于 2021-08-03 16:59:33 发布

glow-worm

最新推荐文章于 2021-08-03 16:59:33 发布

阅读量258

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyp1998/article/details/105607189

版权

NLP 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

概念

集成学习（多分类器系统、基于委员会的学习）通过构建并结合多个学习器完成学习任务。
在这里插入图片描述
图1：先产生一组个体学习器，再利用某种策略将他们结合起来。

分类1（根据个体学习器是否为同种类型）

同质集成：集成中只包含同种类型的个体学习器（决策树集成中全是决策树，神经网络集成中全是神经网络），这样的个体学习器可以称为“基学习器”，有时还被称为弱学习器，对应的算法成为“基学习算法”
异质集成：集成里包含不同类型的个体学习器（同时包含决策树和神经网络），这样的个体学习器不能成为“基学习器”，可以成为“组件学习器”，或者直接就叫个体学习器。

分类2（根据串行/并行）

boosting
个体学习器之间存在强依赖关系，必须串行生成的序列化方法
bagging（如随机森林）
个体学习器之间不存在强依赖关系，可以同时生成并行化算法

好而不同（个体学习器有一定的准确性并且学习器间具有差异）

集成学习往往可以得到比单一学习器显著优越的泛化性能，对“弱学习器”（泛化能力略优于随机，例如二分类问题上精度略高于50%）尤为明显，但实际上往往会使用比较强的学习器（如考虑使用较少学习器）

在这里插入图片描述

boosting（ababoost、gbdt、xgboost）

从初始训练集训练出一个基学习器（每个训练数据的权重相等），再根据基学习器的表现对训练样本分布进行调整，使得先前学习器做错的训练样本在后续受到更多关注（预测错误的训练数据加大权重），然后基于调整后的样本分布来训练下一个基学习器，如此重复直至基学习器数目达到指定值T，最终对这T个基学习器加权组合。
每个个体学习器是underfitting,减少偏度

adaboost （即adaptive boosting）

论文：A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting

gradient boosting（如lightGBM ，xgboost ）

论文：Greedy Function Approximation: A Gradient Boosting Machine
论文：XGBoost: A Scalable Tree Boosting System

adaptive boosting和gradient boosting区别

训练模型时：

adaptive boosting——侧重样本权重
gradient boosting——侧重真实数据与预测数据的差值

集成模型时：

adaptive boosting
二分类：
多分类：

bagging

论文：Bagging Predictors
Leo Breiman
Published in Machine Learning 1996
思想：在原始数据集有放回抽样，选k个数据集分别训练得到k个学习器（新数据集样本数量与原数据集一致，允许存在重复数据）
每个个体学习器是overfitting的，减小方差

随机森林（决策树+随机选择特征+bagging）

为每棵树随机选择特征
论文：The random subspace method for constructing decision forests
使用所有特征，为树的每一个节点随机选择特征
论文：Random Forests Machine Learning

stacking

训练多个不同模型，再以之前训练的各个模型的输出作为输入训练一个新模型
论文：Stacked Generalization
缺点：容易过拟合（如果第一层的模型已经过拟合，第二层的模型基于过拟合的数据很容易过拟合）

参考：机器学习——周志华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记（四）__集成学习

概念集成学习（多分类器系统、基于委员会的学习）通过构建并结合多个学习器完成学习任务。图1：先产生一组个体学习器，再利用某种策略将他们结合起来。分类1（根据个体学习器是否为同种类型）同质集成：集成中只包含同种类型的个体学习器（决策树集成中全是决策树，神经网络集成中全是神经网络），这样的个体学习器可以称为“基学习器”，有时还被称为弱学习器，对应的算法成为“基学习算法”异质集成：集成里包含不...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。