多粒度级联森林（gcForest）官方库安装及使用教程（通俗易懂）

最新推荐文章于 2024-09-13 22:24:04 发布

Q•Q•Drogba

最新推荐文章于 2024-09-13 22:24:04 发布

阅读量5k

点赞数 7

文章标签：机器学习人工智能 python 数据挖掘

本文链接：https://blog.csdn.net/weixin_45575229/article/details/108209611

版权

文章目录

安装教程
使用教程
Reference

近日文献调研过程中了解到周志华教授团队在2018年提出的多粒度级联森林模型，开拓了另一条“深度化”的道路，论文中该模型的性能较好，但可惜在本地数据集上的性能却仅仅稍好于一般的集成学习模型。尽管有一点小失望，但多粒度级联森林的算法原理还是很值得一学。在安装官方库时在网上搜索的安装教程都比较旧，经本人踩坑后做此记录。
(我的环境是conda 4.8.4，python3.7.0，实验后以下安装及使用没有问题)

安装教程

首先以管理员身份进入Anaconda Prompt，并输入conda install git指令安装git
在这里插入图片描述
接着调用git下载官方库，继续在Anaconda Prompt中输入git clone https://github.com/kingfengji/gcForest.git指令

进入运行目录（C:\WINDOWS\system32）中的gcForest文件夹，在此文件夹中找到lib文件夹中的gcforest文件夹，然后将该gcforest文件夹复制到Anaconda3的site-packages文件夹中（C:\WINDOWS\system32\Anaconda3\Lib\site-packages）

上面的这一步复制注意不要复制错文件夹了

最后安装该官方库的依赖包，在gcForest文件夹中的requirements.txt文档中有详细的清单如下：

argparse
joblib
keras
psutil
scikit-learn>=0.18.1
scipy
simplejson
tensorflow
xgboost

为避免报错，最好手动安装（conda install）下这些包

使用教程

import gcforest
from gcforest.gcforest import GCForest
from sklearn.externals import joblib
from sklearn.datasets import load_iris, load_digits
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

在get_toy_config()函数中定义模型各项参数

def get_toy_config():
    config = {}
    ca_config = {}
    ca_config["random_state"] = 0
    ca_config["max_layers"] = 100 ##最大层数
    ca_config["early_stopping_rounds"] = 3 
    ca_config["n_classes"] = 3 ##类别数
    ##选择级联森林的基模型
    ca_config["estimators"] = []
    ca_config["estimators"].append(
            {"n_folds": 5, "type": "XGBClassifier", "n_estimators": 10, "max_depth": 5,
             "objective": "multi:softprob", "silent": True, "nthread": -1, "learning_rate": 0.1} )
    ca_config["estimators"].append({"n_folds": 5, "type": "RandomForestClassifier", "n_estimators": 10, "max_depth": None, "n_jobs": -1})
    ca_config["estimators"].append({"n_folds": 5, "type": "ExtraTreesClassifier", "n_estimators": 10, "max_depth": None, "n_jobs": -1})
    ca_config["estimators"].append({"n_folds": 1, "type": "LogisticRegression"})
    config["cascade"] = ca_config
    return config

基本应用如下

def irisFunc():
    iris=load_iris()
    X,y=iris.data,iris.target ##导入数据
    ##划分训练、测试集
    X_train, X_test, y_train, y_truth = train_test_split(X,y, test_size=0.2, shuffle=True, random_state=111, stratify=y)    
    model = GCForest(get_toy_config()) ##构建模型
    model.fit_transform(X_train,y_train) ##训练
    y_predict=model.predict(np.array(X_test)) ##预测       
    joblib.dump(model,'irisModel.sav') ##保存模型
    print(y_predict)
    print("accuracy:",accuracy_score(y_truth,y_predict))