广工大数协阿里云天池金融风控训练营-Task 5

最新推荐文章于 2023-12-27 17:53:26 发布

梦里韵韵子

最新推荐文章于 2023-12-27 17:53:26 发布

阅读量154

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_52311669/article/details/116353173

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Task 5

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容，
学习链接
 项目地址
 比赛地址

一、学习大纲

模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升，以下是模型融合的方式。

1.平均
2.投票
3.综合
4.stacking
5.blending

二、学习内容

1.平均

-简单平均法

简单加权平均，结果直接融合求多个预测结果的平均值。pre1-pren分别是n组模型预测出来的结果，将其进行加权融
pre = (pre1 + pre2 + pre3 +…+pren )/n

-加权平均法

加权平均法一般根据之前预测模型的准确率，进行加权融合，将准确性高的模型赋予更高的权重。
pre = 0.3pre1 + 0.3pre2 + 0.4pre3

2.投票

以分类任务为例，假设存在多个不同的模型，多个模型具有不同的分类结果。对于一个对象而言，最终的分类结果可以采用投票最多的类为最终的预测结果。

3.综合

-排序融合

-log融合

4.Stacking

stacking是一种分层模型集成框架。以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练，从而得到完整的stacking模型。
以两层stacking模型为例，要得到stacking模型，关键在于如何构造第二层的特征（下记为元特征，meta feature），构造元特征的原则是尽可能的避免信息泄露，因此对原始训练集常常采用类似于K折交叉验证的划分方法。
以5折划分为例，我们将原始训练集分为5折，分别记为fold1、fold2、fold3、fold4和fold5。此时我们使用fold2-fold5的数据来训练基模型1，并对fold1进行预测，该预测值即作为基模型1对fold1生成的元特征；同样地，使用fold1、fold3-fold5的数据来训练基模型1，并对fold2进行预测，该预测值即作为基模型1对fold2生成的元特征；以此类推，得到基模型1对整个原始训练集生成的元特征。同样地，对其他基模型也采用相同的方法生成元特征，从而构成用于第二层模型（下记为元模型，meta model）训练的完整元特征集。对于测试集，我们可以在每次基模型训练好时预测，再将预测值做均值处理；也可以将基模型拟合全部的训练集之后再对测试集进行预测。

5.Blending

Blending的优点在于：

1）.比stacking简单（因为不用进行k次的交叉验证来获得stacker feature）

2）.避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集

3）.在团队建模过程中，不需要给队友分享自己的随机种子

Blending的缺点在于：

1）.使用了很少的数据

2）.blender可能会过拟合（其实大概率是第一点导致的）

3）.stacking使用多次的CV会比较稳健

stacking与blending区别：

a. stacking
（1）stacking中由于两层使用的数据不同，所以可以避免信息泄露的问题。
（2）在组队竞赛的过程中，不需要给队友分享自己的随机种子。
b. Blending
（1）blending比stacking简单，不需要构建多层模型。
（2）由于blending对将数据划分为两个部分，在最后预测时有部分数据信息将被忽略。
（3）同时在使用第二层数据时可能会因为第二层数据较少产生过拟合现象。

三、代码示例

pip install mlxtend
import warnings
warnings.filterwarnings('ignore')
import itertools
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingClassifier
from sklearn.model_selection import cross_val_score, train_test_split
from mlxtend.plotting import plot_learning_curves
from mlxtend.plotting import plot_decision_regions

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target


clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()
sclf = StackingClassifier(classifiers=[clf1, clf2, clf3], 
                          meta_classifier=lr)


label = ['KNN', 'Random Forest', 'Naive Bayes', 'Stacking Classifier']
clf_list = [clf1, clf2, clf3, sclf]
    
fig = plt.figure(figsize=(10,8))
gs = gridspec.GridSpec(2, 2)
grid = itertools.product([0,1],repeat=2)


clf_cv_mean = []
clf_cv_std = []
for clf, label, grd in zip(clf_list, label, grid):
        
    scores = cross_val_score(clf, X, y, cv=5, scoring='accuracy')
    print("Accuracy: %.2f (+/- %.2f) [%s]" %(scores.mean(), scores.std(), label))
    clf_cv_mean.append(scores.mean())
    clf_cv_std.append(scores.std())
        
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf)
 plt.title(label)
 plt.show()

Accuracy: 0.91 (+/- 0.07) [KNN]
Accuracy: 0.93 (+/- 0.05) [Random Forest]
Accuracy: 0.91 (+/- 0.04) [Naive Bayes]
Accuracy: 0.93 (+/- 0.04) [Stacking Classifier]

#blending
# 以python自带的鸢尾花数据集为例
data_0 = iris.data
data = data_0[:100,:]


target_0 = iris.target
target = target_0[:100]
 
#模型融合中基学习器
clfs = [LogisticRegression(),
        RandomForestClassifier(),
        ExtraTreesClassifier(),
        GradientBoostingClassifier()]
 
#切分一部分数据作为测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=914)


#切分训练数据集为d1,d2两部分
X_d1, X_d2, y_d1, y_d2 = train_test_split(X, y, test_size=0.5, random_state=914)
dataset_d1 = np.zeros((X_d2.shape[0], len(clfs)))
dataset_d2 = np.zeros((X_predict.shape[0], len(clfs)))
 
for j, clf in enumerate(clfs):
    #依次训练各个单模型
    clf.fit(X_d1, y_d1)
    y_submission = clf.predict_proba(X_d2)[:, 1]
    dataset_d1[:, j] = y_submission
    #对于测试集，直接用这k个模型的预测值作为新的特征。
    dataset_d2[:, j] = clf.predict_proba(X_predict)[:, 1]
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_d2[:, j]))


#融合使用的模型
clf = GradientBoostingClassifier()
clf.fit(dataset_d1, y_d2)
y_submission = clf.predict_proba(dataset_d2)[:, 1]
print("Val auc Score of Blending: %f" % (roc_auc_score(y_predict, y_submission)))