集成学习算法

5.1 集成学习算法简介

学习目标

  • 了解什么是集成学习
  • 了解集成学习中的boosting和bagging

1 什么是集成学习

某投资方想投资一家公司A,但他还不知道它的业绩。所以他想有人给他提意见,看看这家公司的股票价格是否每年增长6%以上。

image-20221115142535157

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。

2 生活中的集成学习

1.买东西找别人推荐

2.唱歌比赛投票

每个人的视角不同、经历不同、给出的决策背后的原因不同

3 复习:机器学习的两个核心任务

  • 任务一:如何优化训练数据 —> 主要用于解决欠拟合问题
  • 任务二:如何提升泛化性能 —> 主要用于解决过拟合问题

4 集成学习中boosting和Bagging

image-20221115142551735

  • **Bagging中每个训练集互不相关,也就是每个基分类器互不相关,而Boosting中训练集要在上一轮的结果上进行调整,也使得其不能并行计算

    **

  • Bagging中预测函数是均匀平等的,但在Boosting中预测函数是加权的

从算法来看,Bagging关注的是多个基模型的投票组合,每一个基模型相对复杂一些,Bagging可以降低方差;而Boosting采用的策略是在每一次学习中都减少上一轮的偏差。

5 小结

  • 什么是集成学习【了解】
    • 通过建立几个模型来解决单一预测问题
  • 机器学习两个核心任务【知道】
    • 1.解决欠拟合问题
      • 弱弱组合变强
      • boosting
    • 2.解决过拟合问题
      • 互相遏制变壮
      • Bagging

5.2 Bagging和随机森林

学习目标

  • 知道Bagging集成原理
  • 知道随机森林构造过程
  • 知道什么是包外估计
  • 知道RandomForestClassifier的使用
  • 了解bagging集成的优点

1 Bagging集成原理

Bagging

Bagging是bootstrap aggregating的简写。先说一下bootstrap,bootstrap也称为自助法,它是一种有放回的抽样方法。

在Bagging方法中,利用bootstrap方法从整体数据集中采取有放回抽样得到N个数据集,在每个数据集上学习出一个模型,最后的预测结果利用N个模型的输出得到,具体地:分类问题采用N个模型预测投票的方式,回归问题采用N个模型预测平均的方式。

例:

目标:把下面的圈和方块进行分类

image-20200108152443987

实现过程:

  1. 采样不同数据集

image-20200108152710919

2)训练分类器

image-20200108152854195

3)平权投票,获取最终结果

image-20200108152954050

4)主要实现过程小结

image-20200108153048505

2 bagging经典算法:随机森林

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

随机森林 = Bagging + 决策树

image-20200108153323748

例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True

随机森林够造过程中的关键步骤(M表示特征数目):

1)假设训练集总共有N个样本,一次随机选出一个样本,有放回的抽样,重复N次(会出现重复的样本)

2) 随机去选出m个特征, m <<M,建立决策树

(这两种方式都是为了使用相同的数据可以产生不同的决策树)

3 包外估计 (Out-of-Bag Estimate)

在随机森林构造过程中,如果进行有放回的抽样,我们会发现,总是有一部分样本我们选不到。

  • 这部分数据,占整体数据的比重有多大呢?
  • 这部分数据有什么用呢?

3.1 包外估计的定义

没有选择到的数据,称之为 Out-of-bag(OOB)数据,当数据足够多,包外数据的概率为:

img

N为样本个数,1/N为样本选到的概率,

由于基分类器是构建在训练样本的自助抽样集上的,只有约 63.2% 原样本集出现在中,而剩余的 36.8% 的数据作为包外数据,可以用于基分类器的验证集。

经验证,包外估计是对集成分类器泛化误差的无偏估计.

oob_score
对于单棵用采样集训练完成的决策树Ti,用袋外数据运行后会产生一个oob_score ,对每一棵决策树都重复上述操作,最终会得到T个oob_score,把这T和oob_score平均,最终得到的就是整个随机森林的oob_score

3 随机森林api介绍

  • sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

    • n_estimators:integer,optional(default = 10)森林里的树木数量120,200,300,500,800,1200

      • 在利用最大投票数或平均值来预测之前,你想要建立子树的数量。
    • Criterion:string,可选(default =“gini”)

      • 分割特征的测量方法
    • max_depth:integer或None,可选(默认=无)

      • 树的最大深度 5,8,15,25,30
    • max_features="auto”,每个决策树的最大特征数量

      • If “auto”, then max_features=sqrt(n_features).
      • If “sqrt”, then max_features=sqrt(n_features)(same as “auto”).
      • If “log2”, then max_features=log2(n_features).
      • If None, then max_features=n_features.
    • bootstrap:boolean,optional(default = True)

      • 是否在构建树时使用放回抽样
    • min_samples_split 内部节点再划分所需最小样本数

      • 这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分,默认是2。
      • 如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
    • min_samples_leaf 叶子节点的最小样本数

      • 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝, 默认是1。

      • 叶是决策树的末端节点。 较小的叶子使模型更容易捕捉训练数据中的噪声。

      • 一般来说,我更偏向于将最小叶子节点数目设置为大于50。

    • min_impurity_split: 节点划分最小不纯度

      • 这个值限制了决策树的增长,如果某节点的不纯度(基于基尼系数,均方差)小于这个阈值,则该节点不再生成子节点。即为叶子节点 。

      • 一般不推荐改动默认值1e-7。

  • 上面决策树参数中最重要的包括

    • 最大特征数max_features,
    • 最大深度max_depth,
    • 内部节点再划分所需最小样本数min_samples_split
    • 叶子节点最少样本数min_samples_leaf。

4 随机森林预测案例

  • 实例化随机森林
# 随机森林去进行预测
rf = RandomForestClassifier()
  • 定义超参数的选择列表
param = {
   "n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}
  • 使用GridSearchCV进行网格搜索
# 超参数调优
gc = GridSearchCV(rf, param_grid=param, cv=2)

gc.fit(x_train, y_train)

print("随机森林预测的准确率为:", gc.score(x_test, y_test))

注意

  • 随机森林的建立过程
  • 树的深度、树的个数等需要进行超参数调优

所有代码

import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier


# 1、获取数据
titan = pd.read_csv("./data/titanic.txt")
#2.数据基本处理
#2.1 确定特征值,目标值
x = titan[["pclass", "age", "sex"]]
y = titan["survived"]
#2.2 缺失值处理
x['age'].fillna(x['age'].mean(), inplace=True)
#2.3 数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
#3.特征工程(字典特征抽取)
# 对于x转换成字典数据x.to_dict(orient="records"),orient:指定把dataframe的数据转换成什么格式
# records格式:[{"pclass": "1st", "age": 29.00, "sex": "female"}, {}]

transfer = DictVectorizer(sparse=False)

x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.transform(x_test.to_dict(orient="records"))


# 4.机器学习(随机森林)
# 4.1实例化随机森林
rf = RandomForestClassifier()
#dt = DecisionTreeClassifier()
# 4.2 定义超参数的选择列表
param = {"n_estimators": [60,80,100,120], "max_depth": [3,5,7]}
#param = { "max_depth": [3,5,7]}
# 4.3 使用GridSearchCV进行网格搜索
from sklearn.model_selection import GridSearchCV
gc = GridSearchCV(rf, param_grid=param, cv=5)
#gc = GridSearchCV(dt, param_grid=param, cv=5)
# 4.4模型训练
gc.fit(x_train, y_train)
# 5.模型评估

print("随机森林预测的准确率为:", gc.score(x_test, y_test))

5 bagging集成优点

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法

最常用的方法是 Bagging + 决策树,即随机森林。

经过上面方式组成的集成学习方法:

  1. 提高泛化正确率
  2. 简单, 方便, 通用

6 小结

  • bagging集成过程【知道】
    • 1.采样 — 从所有样本里面,采样一部分
    • 2.学习 — 训练弱学习器
    • 3.集成 — 使用平权投票
  • 随机森林介绍【知道】
    • 随机森林定义
      • 随机森林 = Bagging + 决策树
    • 流程:
      • 1.随机选取m条数据
      • 2.随机选取k个特征
      • 3.训练决策树
      • 4.重复1-3
      • 5.对上面的若决策树进行平权投票
    • 注意:
      • 1.随机选取样本,且是有放回的抽取
      • 2.选取特征的时候吗,选择m<<M
      • M是所有的特征数
    • 包外估计
      • 如果进行有放回的对数据集抽样,会发现,总是有一部分样本选不到;
    • api
      • sklearn.ensemble.RandomForestClassifier()
  • Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法【了解】
  • bagging的优点【了解】
    • 1.均可在原有算法上提高约2%左右的泛化正确率
    • 2.简单, 方便, 通用

5.3 otto案例介绍 – Otto Group Product Classification Challenge

1.背景介绍

奥托集团是世界上最大的电子商务公司之一,在20多个国家设有子公司。该公司每天都在世界各地销售数百万种产品,所以对其产品根据性能合理的分类非常重要。

不过,在实际工作中,工作人员发现,许多相同的产品得到了不同的分类。本案例要求,你对奥拓集团的产品进行正确的分类。尽可能的提供分类的准确性。

链接:https://www.kaggle.com/c/otto-group-product-classification-challenge/overview

2nd iteration

2.数据集介绍

  • 本案例中,数据集包含大约200,000种产品的93个特征。
  • 其目的是建立一个能够区分otto公司主要产品类别的预测模型。
  • 所有产品共被分成九个类别(例如时装,电子产品等)。

image-20191104201012543

  • id - 产品id
  • feat_1, feat_2, …, feat_93 - 产品的各个特征
  • target - 产品被划分的类别

3.评分标准

本案例中,最后结果使用多分类对数损失进行评估。

具体公式: image-20191104203315266

上公式中,

  • i表示样本,j表示类别。Pij代表第i个样本属于类别j的概率,
  • 如果第i个样本真的属于类别j,则yij等于1,否则为0。
  • 根据上公式,假如你将所有的测试样本都正确分类,所有pij都是1,那每个log(pij)都是0,最终的logloss也是0。
  • 假如第1个样本本来是属于1类别的,但是你给它的类别概率pij=0.1,那logloss就会累加上log(0.1)这一项。我们知道这一项是负数,而且pij越小,负得越多,如果pij=0,将是无穷。这会导致这种情况:你分错了一个,logloss就是无穷。这当然不合理,为了避免这一情况,我们对非常小的值做如下处理:

image-20191104203941475

  • 也就是说最小不会小于10^-15。

5.4 Boosting

学习目标

  • 知道boosting集成原理和实现过程
  • 知道bagging和boosting集成的区别
  • 知道AdaBoost集成原理

1 什么是boosting

image-20190214160534929

随着学习的积累从弱到强

简而言之:每新加入一个弱学习器,整体能力就会得到提升

代表算法:Adaboost,GBDT

2 实现过程:

1.训练第一个学习器

image-20200109093930261

2.调整数据分布

image-20200109094017202

3.训练第二个学习器

image-20200109094048990

4.再次调整数据分布

image-20200109094214835

5.依次训练学习器,调整数据分布

image-20200109094305835

6.整体过程实现

image-20200109094429509

3 bagging集成与boosting集成的区别:

  • 区别一:数据方面
    • Bagging:对数据进行采样训练;
    • Boosting:根据前一轮学习结果调整数据的重要性。
  • 区别二:投票方面
    • Bagging:所有学习器平权投票;
    • Boosting:对学习器进行加权投票。
  • 区别三:学习顺序
    • Bagging的学习是并行的,每个学习器没有依赖关系;
    • Boosting学习是串行,学习有先后顺序。
  • 区别四:主要作用
    • Bagging主要用于提高泛化性能(解决过拟合,也可以说降低方差)
    • Boosting主要用于提高训练精度 (解决欠拟合,也可以说降低偏差)

image-20200109094753644

4 AdaBoost介绍

4.1 构造过程细节:

  • 步骤一:初始化训练数据权重相等,训练第一个学习器。

    • 该假设每个训练样本在基分类器的学习中作用相同,这一假设可以保证第一步能够在原始数据上学习基本分类器 H 1 ( x ) H_1(x) H1(x)

  • 步骤二:AdaBoost反复学习基本分类器,在每一轮m=1,2,…,M顺次的执行下列操作:

    • (a) 在权值分布为 D t D_t Dt的训练数据上,确定基分类器,(刚开始每个数据的权重都是1/N,N为数据的个数);

    • (b) 计算该学习器在训练数据中的错误率,h为预测值,y为真实值:

      ε t = P ( h t ( x t ) ≠ y t ) \varepsilon _t = P(h_t(x_t)\neq y_t) εt=P(ht(xt)=yt)

    • (c) 计算该学习器的投票权重(该系数是这个分类器用于最终的分类器集成时的系数。):

      α t = 1 2 l n ( 1 − ε t ε t ) \alpha _t=\frac{1}{2}ln(\frac{1-\varepsilon _t}{\varepsilon _t}) αt=21ln(εt1εt)

    • (d) 根据投票权重,对训练数据重新赋权 D t D_t Dt是第t轮每个数据的权重分布), Z t Z_t Zt为归一化系数,公式为
      ∑ t D t ( x ) ∗ { e − α t , 预 测 值 = 真 实 值 e α t , 预 测 值 ≠ 真 实 值 \sum_t D_t(x)* \begin{cases} e^{-\alpha_t} ,预测值=真实值 \\ e^{\alpha_t} ,预测值\not=真实值\\ \end{cases} tD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值