天池龙珠计划_金融风控训练营——Task5 模型融合学习打卡

最新推荐文章于 2024-08-16 22:11:32 发布

weixin_46310853

最新推荐文章于 2024-08-16 22:11:32 发布

阅读量171

点赞数

分类专栏：学习打卡文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_46310853/article/details/116379410

版权

学习打卡专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 学习任务

天池龙珠计划_金融风控训练营

天池龙珠计划_金融风控训练营链接

Task5 模型融合学习打卡

学习文章链接

1.1 学习目标

将之前建模调参的结果进行模型融合。尝试多种融合方案，提交融合结果并打卡。

2 学习内容

2.1 模型融合

模型融合：模型融合就是训练多个模型，然后按照一定的方法集成过个模型，应为它容易理解、实现也简单，同时效果也很好，在工业界的很多应用，在天池、kaggle比赛中也经常拿来做模型集成。

模型融合的一般结构:先产生一组个体学习器，再用某种策略将它们结合起来，加强模型效果。

模型融合应用广发的原因：可以通过数学证明模型，随着集成中个体分类器数目T 的增大，集成的错误率将指数级下降，最终趋向于零。
模型融合的条件：个体学习器准确性越高、多样性越大，则融合越好。Base Model 之间的相关性要尽可能的小。Base Model 之间的性能表现不能差距太大。

模型融合的分类：按照个体学习器的关系可以分为两类:

个体学习器问存在强依赖关系、必须串行生成的序列化方法，代表Boosting方法；
个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表是Bagging和随机森林。

模型融合的结合策略：基本学习器学习完后，需要将各个模型进行融合，常见的策略有：
1．平均法：平均法有一般的评价和加权平均，这个好理解。对于平均法来说一般用于回归预测模型中，在Boosting系列融合模型中，一般采用的是加权平均融合。
2．投票法：有绝对多数投票（得票超过一半），相对多数投票（得票最多），加权投票。这个也好理解，一般用于分类模型。在bagging模型中使用。
3．学习法：一种更为强大的结合策略是使用学习法，即通过另一个学习器来进行结合，把个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器。常见的有Stacking和Blending两种。

2.2 Stacking

Stacking方法： Stacking 先从初始数据集训练出初级学习器，然后生成一个新数据集用于训练次级学习器。在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记。
在这里插入图片描述

2.2.1 stacking利器——mlxtend库

Mlxtend完美兼容sklearn，可以使用sklearn的模型进行组合生成新模型。它同时集成了stacking分类和回归模型以及它们的交叉验证的版本。
官方地址
使用案例：鸢尾花分类

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import itertools
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import EnsembleVoteClassifier
from mlxtend.data import iris_data
from mlxtend.plotting import plot_decision_regions

# Initializing Classifiers
clf1 = LogisticRegression(random_state=0)
clf2 = RandomForestClassifier(random_state=0)
clf3 = SVC(random_state=0, probability=True)
eclf = EnsembleVoteClassifier(clfs=[clf1, clf2, clf3],
                              weights=[2, 1, 1], voting='soft')

# Loading some example data
X, y = iris_data()
X = X[:,[0, 2]]

# Plotting Decision Regions

gs = gridspec.GridSpec(2, 2)
fig = plt.figure(figsize=(10, 8))

labels = ['Logistic Regression',
          'Random Forest',
          'RBF kernel SVM',
          'Ensemble']

for clf, lab, grd in zip([clf1, clf2, clf3, eclf],
                         labels,
                         itertools.product([0, 1],
                         repeat=2)):
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y,
                                clf=clf, legend=2)
    plt.title(lab)

plt.show()

输出：
在这里插入图片描述

2.3 Blending

Blending方法： Blending与Stacking大致相同，只是Blending的主要区别在于训练集不是通过K-Fold的CV策略来获得预测值从而生成第二阶段模型的特征，而是建立一个Holdout集，例如说10%的训练数据，第二阶段的stacker模型就基于第一阶段模型对这10%训练数据的预测值进行拟合。是把Stacking流程中的K-Fold CV 改成 HoldOut CV。

Blending流程：
Blending相较于Stacking来说要简单一些，其流程大致分为以下几步：

将数据划分为训练集和测试集(test_set)，其中训练集需要再次划分为训练集(train_set)和验证集(val_set)；

创建第一层的多个模型，这些模型可以使同质的也可以是异质的；

使用train_set训练步骤2中的多个模型，然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1；

创建第二层的模型,使用val_predict作为训练集训练第二层的模型；

使用第二层训练好的模型对第二层测试集test_predict1进行预测，该结果为整个测试集的结果

图解：
在这里插入图片描述
Blending与Stacking对比：

Blending的优点在于：
1.比stacking简单（因为不用进行k次的交叉验证来获得stacker feature）
2.避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集
3.在团队建模过程中，不需要给队友分享自己的随机种子

而缺点在于：
1.使用了很少的数据（是划分hold-out作为测试集，并非cv）
2.blender可能会过拟合（其实大概率是第一点导致的）
3.stacking使用多次的CV会比较稳健

Blending 代码案例

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score
# 以python自带的鸢尾花数据集为例
data_0 = iris.data
data = data_0[:100,:]


target_0 = iris.target
target = target_0[:100]
 
#模型融合中基学习器
clfs = [LogisticRegression(),
        RandomForestClassifier(),
        ExtraTreesClassifier(),
        GradientBoostingClassifier()]
 
#切分一部分数据作为测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=914)


#切分训练数据集为d1,d2两部分
X_d1, X_d2, y_d1, y_d2 = train_test_split(X, y, test_size=0.5, random_state=914)
dataset_d1 = np.zeros((X_d2.shape[0], len(clfs)))
dataset_d2 = np.zeros((X_predict.shape[0], len(clfs)))
 
for j, clf in enumerate(clfs):
    #依次训练各个单模型
    clf.fit(X_d1, y_d1)
    y_submission = clf.predict_proba(X_d2)[:, 1]
    dataset_d1[:, j] = y_submission
    #对于测试集，直接用这k个模型的预测值作为新的特征。
    dataset_d2[:, j] = clf.predict_proba(X_predict)[:, 1]
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_d2[:, j]))


#融合使用的模型
clf = GradientBoostingClassifier()
clf.fit(dataset_d1, y_d2)
y_submission = clf.predict_proba(dataset_d2)[:, 1]
print("Val auc Score of Blending: %f" % (roc_auc_score(y_predict, y_submission)))

在这里插入图片描述

3 学习体会

在本次学习打卡中，学习了解模型融合的基本概念和方法，平均法、投票法、Stacking、Blending等，了解了如何使用Stacking构建多层模型，并利用预测结果再拟合预测。了解Blending选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据中预测。掌握这些知识还需要进行实战。

参考链接

零基础数据挖掘入门系列(六) - 模型的融合技术大总结与结果部署

weixin_46310853

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
天池龙珠计划_金融风控训练营——Task5 模型融合学习打卡

目录1 学习任务天池龙珠计划_金融风控训练营Task5 模型融合学习打卡1.1 学习目标2 学习内容2.1 模型融合2.2 Stacking2.2.1 stacking利器——mlxtend库2.3 Blending3 学习体会参考链接1 学习任务天池龙珠计划_金融风控训练营天池龙珠计划_金融风控训练营链接Task5 模型融合学习打卡学习文章链接1.1 学习目标将之前建模调参的结果进行模型融合。尝试多种融合方案，提交融合结果并打卡。2 学习内容2.1 模型融合模型融合：模型融合就是训练
复制链接

扫一扫