【学习笔记】集成学习（七）：Stacking和案例一

最新推荐文章于 2022-09-25 20:57:25 发布

Enguanei

最新推荐文章于 2022-09-25 20:57:25 发布

阅读量289

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44790239/article/details/119193745

版权

机器学习同时被 2 个专栏收录

10 篇文章 3 订阅

订阅专栏

笔记

10 篇文章 0 订阅

订阅专栏

Datawhale组队学习第27期：集成学习
本次学习的指导老师萌弟的教学视频
本贴为学习记录帖，有任何问题欢迎随时交流~
部分内容可能还不完整，后期随着知识积累逐步完善。
开始时间：2021年7月26日
最新更新：2021年8月1日（Task7 Stacking和案例一）

一、Blending

1. 集成方式

划分训练集和测试集 $T e s t$
- 这里的训练集用于训练最优模型
- 测试集用于判断模型性能
训练集进一步划分训练集 $T r a i n$ 和验证集 $V a l$
- 这里的训练集是训练给定的超参数下的模型
- 验证集是用于调参模型的超参数以达到最优模型
创建第一层的 $K$ 个模型，使用 $T r a i n$ 进行 $K$ 个模型训练
- $K$ 个模型可以同质，也可以是异质
训练好的模型对 $Val_{true}$ 和 $Test_{true}$ 进行预测，得到 $Val_{pred}$ 和 $Test_{pred}$
- 集多种模型的特性和最优结果
创建第二层的单个模型，使用 $Val_{pred}$ 进行训练，对 $Test_{pred}$ 进行预测
- 将多种模型的预测结果作为特征进行训练
第二层的预测结果作为整个测试集的结果

在这里插入图片描述

2. 特性

简单且易实现，需要的理论分析少
验证集只留出一部分，数据利用率低（这里衍生出后面交叉验证的用法！）
实现步骤（对于二分类问题）：
- 划分数据集（训练集、验证集、测试集）
- 构造第一层模型，选择多种分类器（SVM、LR、KNN、RF…）
- 对训练集进行训练，调整超参数，输出验证集的预测和测试集的预测
- 构造第二层模型，选择单种分类器
- 对验证集的预测进行训练模型，对上面测试集的预测再进一步预测
- 模型评价（交叉验证）

二、Stacking

1. 集成方式

划分训练集 $T$ 和测试集 $T e s t$ ，这里是与Blending是类似的。
- 这里的训练集用于训练最优模型
- 测试集用于判断模型性能
训练集 $T$ 进一步划分训练集 $T r a i n$ 和验证集 $V a l$ ，与Blending的区别在于这里采用了交叉验证的方式训练模型
- 这里的训练集是训练给定的超参数下的模型
- 验证集是用于调参模型的超参数以达到最优模型
- 假设是类似5折交叉验证，那么原训练集 $T$ 会被随机分成五份，每一轮中都有一份是作为验证集
创建第一层的 $K$ 个模型，使用 $T r a i n$ 进行 $K$ 个模型训练，对 $Val_{true}$ 和 $Test_{true}$ 进行预测
- 对于第 $k$ 个模型，由于假设采用5折交叉验证来划分原训练集 $T$ ，单个模型会训练5次，因此可以得到与 $T$ 长度（样本量）一致的模型预测 $Val_{pred-k}$ ；同时单个模型训练5次也会得到5组测试集的预测值，这里的一般思路是对测试集的预测值进行平均，从而得到 $Test_{pred-k}$
- $K$ 个模型显然会生成两组预测数值矩阵：
  $Val_{pred} = (Val_{pred-1}, ..., Val_{pred-K}) \\ Test_{pred} = (Test_{pred-1}, ..., Test_{pred-K})$
创建第二层的单个模型，使用 $Val_{pred}$ 进行训练，对 $Test_{pred}$ 进行预测
- 将多种模型的预测结果作为特征进行训练
第二层的预测结果作为整个测试集的结果

2. 特性

Stacking是一种模型集成的策略和思想，充分利用数据集和集合多个模型的优点。
实现难度大，训练速度慢。
实现工具：mlxtend

3. Blending与Stacking的关系

Blending可以看成是简化版的Stacking，Stacking可以看作是Blending的推广或改进。
Blending简单且易实现，但容易过拟合；Stacking精度高且结果稳健，但训练速度慢。

三、Blending和Stacking的实现（待补充）

Blending的实现

使用鸢尾花数据集Iris，将LR、KNN、SVM和RandomForest四个模型进行融合。
注意：这里划分数据集时采用的是先划分训练集和测试集，再从测试集中划分验证集和测试集。

"""
Blending Model for Iris
"""

# 导入包
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# 随机种子
ran = 2021
np.random.seed(ran)

# 加载数据集
data = load_iris()
data.keys()

# 提取数据
x = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.DataFrame(data.target, columns=['target'])
data_set = pd.concat([x, y], axis=1)
print(data_set.shape)  # 150个样本，4个特征

# 分割数据（训练集和测试集）
x_train, x_test, y_train, y_test = train_test_split(x[:100], y[:100], 
test_size=0.4, random_state=ran, shuffle=True)

# 分割数据（测试集和验证集）
x_test, x_valid, y_test, y_valid = train_test_split(x_test, y_test, test_size=0.5,
                                                    random_state=ran, shuffle=True)


# 构造第一层分类器
def class_one(models, train_x, train_y, val_x, test_x):
    val_pred_list = np.zeros((val_x.shape[0], len(models)))
    test_pred_list = np.zeros((test_x.shape[0], len(models)))
    for i, clf in enumerate(models):
        clf.fit(train_x, train_y.values.reshape(-1, ))
        val_pred = clf.predict_proba(val_x)[:, 0]  # 记录label为1的概率
        test_pred = clf.predict_proba(test_x)[:, 0]
        val_pred_list[:, i] = val_pred
        test_pred_list[:, i] = test_pred
    return val_pred_list, test_pred_list


# 构建第二层分类器
def class_two(model, val_pred, val_true, test_pred, test_true, cv):
    model.fit(val_pred, val_true.values.reshape(-1, ))
    cv_res = cross_val_score(model, test_pred, test_true, cv=cv)
    return cv_res


# 训练模型
md1 = [LogisticRegression(),
       KNeighborsClassifier(n_neighbors=1),
       SVC(probability=True),
       RandomForestClassifier(n_estimators=10, n_jobs=-1, criterion='gini', random_state=ran)]
pred_val, pred_test = class_one(md1, x_train, y_train, x_valid, x_test)
md2 = LinearRegression()
res = class_two(md2, pred_val, y_valid, pred_test, y_test, cv=5)
print(res)

四、参考资料

Enguanei

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】集成学习（七）：Stacking和案例一

Datawhale组队学习第27期：集成学习本次学习的指导老师萌弟的教学视频本贴为学习记录帖，有任何问题欢迎随时交流~部分内容可能还不完整，后期随着知识积累逐步完善。开始时间：2021年7月26日最新更新：2021年7月29日（Task7 Stacking和案例一）一、Blending1. 集成方式划分训练集和测试集TestTestTest这里的训练集用于训练最优模型测试集用于判断模型性能训练集进一步划分训练集TrainTrainTrain和验证集ValValVal.
复制链接

扫一扫