20210427-Ensemble leraing-课程笔记

最新推荐文章于 2024-03-25 09:32:24 发布

余柳成荫

最新推荐文章于 2024-03-25 09:32:24 发布

阅读量140

点赞数

分类专栏：笔记机器学习

本文链接：https://blog.csdn.net/yuliuchenyin/article/details/116194816

版权

笔记同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

机器学习

12 篇文章 0 订阅

订阅专栏

一、Ensemble leraing

来源

— 清华大学深研院袁博的数据挖掘课程
在这里插入图片描述

1.1 概念

集成学习不是一个算法
- Bagging
- Boosting
集成学习:
重点
- 如何找到C1, C2…这些分类器
- 如何Combiner

1.2 Model Selection

在这里插入图片描述

对于模型选择:
- 集成学习将三个分类器全选并取平均, 实现较好的分类结果 ---- 不进行模型选择而是集成模型

1.3 Divide and Conquer

对于需要模型生成一个较复杂的分界面:
集成学习:
不由一个模型生成分界面, 而是由多个简单分界面组合成:

在这里插入图片描述

二、Bagging

2.1 Bagging原理及步骤

Bagging是Bootstrap aggregating的缩写。中文意思是自助聚合

集成学习Combine方式:
Voting
- Majority Voting
  - Random Forest
- Weighted Majority Voting
  - AdaBoost
Learning Combiner
- General Combiner (通用集成)
  - Stacking
- Piecewise Combiner(分段集成)
  - RegionBoost
    .
No Free Lunch Theorem
没有免费的午餐定理(No Free Lunch Theorem),这个定理说明
若学习算法 $L_a$ 在某些问题上比学习算法 $L_b$ 要好，
那么必然存在另一些问题，
在这些问题中 $L_b$ 比 $L_a$ 表现更好。
证明: 机器学习周志华–没有免费的午餐定理
集成学习关键点:
- 分类器不同
- 分类器互补
注:
- 这里不同可以是模型不同, 也可模型相同训练集不同, 参数不同,或者特征不同
- 多个分类器可以很弱, 弱有好处----快, 不易过拟合, 计算复杂度低---- 例如Stumps

训练样本不同的方法(但又服从同一分布)
- Bootstrap(有放回抽样)
Bagging 算法步骤:

在这里插入图片描述 1. 独立训练若干(如50)个分类器
2. 50个投票, 少数服从多数

例子

在这里插入图片描述

K个分类器— 少数服从多数

2.2 随机森林

很多决策树------组成随机森林
Bootstrap中: 1 减去中样本没被选择 获得大概2/3 被选择------训练集, 其余测试集

$\lim _{m \mapsto \infty}\left(1-\frac{1}{m}\right)^{m} \mapsto \frac{1}{e} \approx 0.368$
Bootstrap Aggregation (Bagging)
- Resample with Replacement
- Use around two third of the original data.

→ RF的特点: (为了生成不同的决策树)

随机抽样---- 样本训练集不一样
决策树根据属性分割----- RF每颗树取部分属性如原来100属性,取根号100个即 10个属性.

在这里插入图片描述

树的数量:
1/3测试集: —类似交叉验证 —天然分开, 数据充分利用

在这里插入图片描述 oob（Out - of - Bag）

定义：放回取样导致一部分样本很有可能没有取到，这部分样本平均大约有 37% ，把这部分没有取到的样本称为 oob 数据集；
根据这种情况，不对数据集进行 train_test_split，也就是不适用测试数据集，而使用这部分没有取到的样本做测试 / 验证；
RF 的优点:
总的来说 — 数据利用充分, 精度高, 不易过拟合, 不需要特征选择(已经随机选择100选10个)

三、Stacking和Boosting

3.1 Stacking

stacking由两层分类器组成, 第二层以第一层的输出为输入, 寻找出一层的权重.

在这里插入图片描述

本节的示意图基本引用自xgboost原作者陈天奇的讲义PPT中

余柳成荫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20210427-Ensemble leraing-课程笔记

一、Ensemble leraing来源— 清华大学深研院袁博的数据挖掘课程1.1 概念集成学习不是一个算法BaggingBoosting集成学习:重点如何找到C1, C2…这些分类器如何Combiner1.2 Model Selection对于模型选择:集成学习将三个分类器全选并取平均, 实现较好的分类结果 ---- 不进行模型选择而是集成模型1.3 Divide and Conquer对于需要模型生成一个较复杂的分界面:集
复制链接

扫一扫