Blending和Stacking

任务一:Blending算法分析与案 例调参实例

导论

Stacking,这个集成方
法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种
算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需要在实际中加以运用
即可。 stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种策略。Stacking集成算法可
以理解为一个两层的集成,第一层含有多个基础分类器,把预测的结果(元特征)提供给第二层, 而第二层的分类
器通常是逻辑回归,他把一层分类器的结果当做特征做拟合输出预测结果。在介绍Stacking之前,我们先来对简
化版的Stacking进行讨论,也叫做Blending,接着我们对Stacking进行更深入的讨论。

Blending集成学习算法

不知道大家小时候有没有过这种经历:老师上课提问到你,那时候你因为开小差而无法立刻得知问题的答案。就
在你彷徨的时候,由于你平时人缘比较好,因此周围的同学向你伸出援手告诉了你他们脑中的正确答案,因此你
对他们的答案加以总结和分析最终的得出正确答案。相信大家都有过这样的经历,说这个故事的目的是为了引出
集成学习家族中的Blending方式,这种集成方式跟我们的故事是十分相像的。

下面我们来详细讨论下这个Blending集成学习方式:

  • (1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);
  • (2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;
  • (3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict,test_predict1;
  • (4) 创建第二层的模型,使用val_predict作为训练集训练第二层的模型;
  • (5) 使用第二层训练好的模型对第二层测试集test_predict1进行预测,该结果为整个测试集的结果。
    在这里插入图片描述

在这里,笔者先来梳理下这个过程:

在(1)步中,总的数据集被分成训练集和测试集,如80%训练集和20%测试集,然后在这80%的训练集中再拆分训
练集70%和验证集30%,因此拆分后的数据集由三部分组成:训练集80%* 70%
、测试集20%、验证集80%* 30% 。训练集是为了训练模型,验证集是为了调整模型(调参),测试集则是为了检验模型的优度。

在(2)-(3)步中,我们使用训练集创建了K个模型,如SVM、random forests、XGBoost等,这个是第一层的模
型。 训练好模型后将验证集输入模型进行预测,得到K组不同的输出,我们记作A1,…,Ak,然后将测试集输
入K个模型也得到K组输出,我们记作B1,…,Bk,其中Ai的样本数与验证集一致, Bi的样本数与测试集一
致。如果总的样本数有10000个样本,那么使用5600个样本训练了K个模型,输入验证集2400个样本得到K组
2400个样本的结果,输入测试集2000个得到K组2000个样本的结果 。

在(4)步中,我们使用K组2400个样本的验证集结果A1,…,Ak作为第二层分类器的特征,验证集的2400个标签
为因变量,训练第二层分类器,得到2400个样本的输出。

在(5)步中,将输入测试集2000个得到K组2000个样本的结果B1,…Bk,放入第二层分类器,得到2000个测试集
的预测结果。

在这里插入图片描述

以上是Blending集成方式的过程,接下来我们来分析这个集成方式的优劣:
其中一个最重要的优点就是实现简单粗暴,没有太多的理论的分析。但是这个方法的缺点也是显然的:blending只使用了一部分数据集作为留出集进行验证,也就是只能用上数据中的一部分,实际上这对数据来说是很奢侈浪费的。

关于这个缺点,我们以后再做改进,我们先来用一些案例来使用这个集成方式。

# 加载相关工具包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("ggplot")
%matplotlib inline
import seaborn as sns
#创建数据
from sklearn import datasets
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
data, target = make_blobs(n_samples = 10000, centers = 2, random_state =1, cluster_std = 1.0  )

# 创建训练集和测试集
X_train1, X_test ,y_train1, y_test = train_test_split(data, target, test_size=0.2, random_state=1)
## 创建训练集和测试集
X_train, X_val, y_train, y_val = train_test_split(X_train1, y_train1, test_size = 0.3, random_state=1)
print("The shape of training X:",X_train.shape)
print("The shape of training y:",y_train.shape)
print("The shape of test X:",X_test.shape)
print("The shape of test y:",y_test.shape)
print("The shape of validation X:",X_val.shape)
print("The shape of validation y:",y_val.shape)
The shape of training X: (5600, 2)
The shape of training y: (5600,)
The shape of test X: (2000, 2)
The shape of test y: (2000,)
The shape of validation X: (2400, 2)
The shape of validation y: (2400,)
# 设置第一层分类器
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
clfs = [SVC(probability = True), RandomForestClassifier(n_estimators = 5, n_jobs=-1, criterion = 'gini'), KNeighborsClassifier()]

# 设置第二层分类器
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

# 输出第一层的验证集结果和测试集结果
val_features = np.zeros((X_val.shape[0], len(clfs)))# 初始化验证集结果
test_features = np.zeros((X_test.shape[0], len(clfs)))
for i,clf in enumerate(clfs):
    clf.fit(X_train, y_train)
    val_feature = clf.predict_proba(X_val)[:,1]#predict_proba返回的是一个 n 行 k 列的数组, 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率
    test_feature = clf.predict_proba(X_test)[:,1]
    val_features[:,i] = val_feature
    test_features[:,i] = test_feature
#将第一层的验证集的结果输入第二层训练,训练第二层分类器
lr.fit(val_features, y_val)
#输出预测结果
from sklearn.model_selection import cross_val_score
cross_val_score(lr, test_features, y_test,cv = 5)
array([1., 1., 1., 1., 1.])

可以看到,在每一折的交叉验证的效果都是非常好的,这个集成学习方法在这个数据集上是十分有效的,不过这
个数据集是我们虚拟的,因此大家可以把他用在实际数据上看看效果。

作业

使用Blending方式对iris数据集进行预测,并用第四章的决策边界画出来,找找规律。

#创建数据
from sklearn import datasets
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()
data = iris.data
target = iris.target
X_train2, X_iris,y_train2, y_iris = train_test_split(data, target, test_size=0.2, random_state=1)
X_norm_train, X_iris_val,y_norm_test, y_iris_val = train_test_split(X_train2, y_train2, test_size = 0.3, random_state= 1)
  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值