超参数调整专题

最新推荐文章于 2025-05-02 14:14:16 发布

zx43

最新推荐文章于 2025-05-02 14:14:16 发布

阅读量572

点赞数 15

分类专栏： python训练营打卡内容文章标签： python 机器学习

本文链接：https://blog.csdn.net/zx15600886035/article/details/147641607

版权

python训练营打卡内容专栏收录该内容

11 篇文章

订阅专栏

知识点回顾

网格搜索
随机搜索（简单介绍，非重点实战中很少用到，可以不了解）
贝叶斯优化（2种实现逻辑，以及如何避开必须用交叉验证的问题）
time库的计时模块，方便后人查看代码运行时长

对于信贷数据的其他模型，如LightGBM和KNN 尝试用下贝叶斯优化和网格搜索

1.数据预处理


import pandas as pd
import pandas as pd   
import numpy as np     
import matplotlib.pyplot as plt    
import seaborn as sns 

 # 设置中文字体（解决中文显示问题）
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows系统常用黑体字体
plt.rcParams['axes.unicode_minus'] = False    # 正常显示负号

data = pd.read_excel('data.xlsx')    #读取数据
 
# 先筛选字符串变量 
discrete_features = data.select_dtypes(include=['object']).columns.tolist()
# Home Ownership 标签编码
home_ownership_mapping = {
    'Own Home': 1,
    'Rent': 2,
    'Have Mortgage': 3,
    'Home Mortgage': 4
}
data['Home Ownership'] = data['Home Ownership'].map(home_ownership_mapping)

# Years in current job 标签编码
years_in_job_mapping = {
    '< 1 year': 1,
    '1 year': 2,
    '2 years': 3,
    '3 years': 4,
    '4 years': 5,
    '5 years': 6,
    '6 years': 7,
    '7 years': 8,
    '8 years': 9,
    '9 years': 10,
    '10+ years': 11
}
data['Years in current job'] = data['Years in current job'].map(years_in_job_mapping)
# Purpose 独热编码，记得需要将bool类型转换为数值
data = pd.get_dummies(data, columns=['Purpose'])
data2 = pd.read_excel("data.xlsx") # 重新读取数据，用来做列名对比
list_final = [] # 新建一个空列表，用于存放独热编码后新增的特征名
for i in data.columns:
    if i not in data2.columns:
       list_final.append(i) # 这里打印出来的就是独热编码后的特征名
for i in list_final:
    data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名
 
 
 
# Term 0 - 1 映射
term_mapping = {
    'Short Term': 0,
    'Long Term': 1
}
data['Term'] = data['Term'].map(term_mapping)
data.rename(columns={'Term': 'Long Term'}, inplace=True) # 重命名列
continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist()  #把筛选出来的列名转换成列表
 
 # 连续特征用中位数补全
for feature in continuous_features:     
    mode_value = data[feature].mode()[0]            #获取该列的众数。
    data[feature].fillna(mode_value, inplace=True)          #用众数填充该列的缺失值，inplace=True表示直接在原数据上修改。

2.划分数据集

from sklearn.model_selection import train_test_split
X = data.drop(['Credit Default'], axis=1)  # 特征，axis=1表示按列删除
y = data['Credit Default'] # 标签
# 按照8:2划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80%训练集，20%测试集

3.调参

from sklearn.ensemble import RandomForestClassifier #随机森林分类器
 
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标
from sklearn.metrics import classification_report, confusion_matrix #用于生成分类报告和混淆矩阵
import warnings #用于忽略警告信息
warnings.filterwarnings("ignore") # 忽略所有警告信息

# --- 1. 默认参数的随机森林 ---
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
import time # time库，主要用于时间相关的操作，因为调参需要很长时间，记录下会帮助后人知道大概的时长
start_time = time.time() # 记录开始时间
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train) # 在训练集上训练
rf_pred = rf_model.predict(X_test) # 在测试集上预测
end_time = time.time() # 记录结束时间
 
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred))

--- 1. 默认参数随机森林 (训练集 -> 测试集) ---
训练与预测耗时: 0.8787 秒

默认随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.97      0.86      1059
           1       0.79      0.30      0.43       441

    accuracy                           0.77      1500
   macro avg       0.78      0.63      0.64      1500
weighted avg       0.77      0.77      0.73      1500

默认随机森林 在测试集上的混淆矩阵：
[[1023   36]
 [ 309  132]]

# --- 2. 网格搜索优化随机森林 ---
print("\n--- 2. 网格搜索优化随机森林 (训练集 -> 测试集) ---")
from sklearn.model_selection import GridSearchCV
 
# 定义要搜索的参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
 
# 创建网格搜索对象
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42), # 随机森林分类器
                           param_grid=param_grid, # 参数网格
                           cv=5, # 5折交叉验证
                           n_jobs=-1, # 使用所有可用的CPU核心进行并行计算
                           scoring='accuracy') # 使用准确率作为评分标准
 
start_time = time.time()
# 在训练集上进行网格搜索
grid_search.fit(X_train, y_train) # 在训练集上训练，模型实例化和训练的方法都被封装在这个网格搜索对象里了
end_time = time.time()
 
print(f"网格搜索耗时: {end_time - start_time:.4f} 秒")
print("最佳参数: ", grid_search.best_params_) #best_params_属性返回最佳参数组合
 
# 使用最佳参数的模型进行预测
best_model = grid_search.best_estimator_ # 获取最佳模型
best_pred = best_model.predict(X_test) # 在测试集上进行预测
 
print("\n网格搜索优化后的随机森林 在测试集上的分类报告：")
print(classification_report(y_test, best_pred))
print("网格搜索优化后的随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, best_pred))

--- 2. 网格搜索优化随机森林 (训练集 -> 测试集) ---
网格搜索耗时: 92.9777 秒
最佳参数:  {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}

网格搜索优化后的随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.76      0.97      0.86      1059
           1       0.80      0.28      0.42       441

    accuracy                           0.77      1500
   macro avg       0.78      0.63      0.64      1500
weighted avg       0.77      0.77      0.73      1500

网格搜索优化后的随机森林 在测试集上的混淆矩阵：
[[1028   31]
 [ 317  124]]

# --- 2. 贝叶斯优化随机森林 ---
print("\n--- 2. 贝叶斯优化随机森林 (训练集 -> 测试集) ---")
from bayes_opt import BayesianOptimization
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report, confusion_matrix
import time
import numpy as np
 
# 假设 X_train, y_train, X_test, y_test 已经定义好
# 定义目标函数，这里使用交叉验证来评估模型性能
def rf_eval(n_estimators, max_depth, min_samples_split, min_samples_leaf):
    n_estimators = int(n_estimators)
    max_depth = int(max_depth)
    min_samples_split = int(min_samples_split)
    min_samples_leaf = int(min_samples_leaf)
    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        random_state=42
    )
    scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
    return np.mean(scores)
 
# 定义要搜索的参数空间
pbounds_rf = {
    'n_estimators': (50, 200),
   'max_depth': (10, 30),
   'min_samples_split': (2, 10),
   'min_samples_leaf': (1, 4)
}
 
# 创建贝叶斯优化对象，设置 verbose=2 显示详细迭代信息
optimizer_rf = BayesianOptimization(
    f=rf_eval, # 目标函数
    pbounds=pbounds_rf, # 参数空间
    random_state=42, # 随机种子
    verbose=2  # 显示详细迭代信息
)
 
start_time = time.time()
# 开始贝叶斯优化
optimizer_rf.maximize(
    init_points=5,  # 初始随机采样点数
    n_iter=32  # 迭代次数
)
end_time = time.time()
 
print(f"贝叶斯优化耗时: {end_time - start_time:.4f} 秒")
print("最佳参数: ", optimizer_rf.max['params'])
 
# 使用最佳参数的模型进行预测
best_params = optimizer_rf.max['params']
best_model = RandomForestClassifier(
    n_estimators=int(best_params['n_estimators']),
    max_depth=int(best_params['max_depth']),
    min_samples_split=int(best_params['min_samples_split']),
    min_samples_leaf=int(best_params['min_samples_leaf']),
    random_state=42
)
best_model.fit(X_train, y_train)
best_pred = best_model.predict(X_test)
 
print("\n贝叶斯优化后的随机森林 在测试集上的分类报告：")
print(classification_report(y_test, best_pred))
print("贝叶斯优化后的随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, best_pred))

--- 2. 贝叶斯优化随机森林 (训练集 -> 测试集) ---
|   iter    |  target   | max_depth | min_sa... | min_sa... | n_esti... |
-------------------------------------------------------------------------
| [39m1        [39m | [39m0.7828   [39m | [39m17.49    [39m | [39m3.852    [39m | [39m7.856    [39m | [39m139.8    [39m |
| [39m2        [39m | [39m0.78     [39m | [39m13.12    [39m | [39m1.468    [39m | [39m2.465    [39m | [39m179.9    [39m |
| [39m3        [39m | [39m0.7817   [39m | [39m22.02    [39m | [39m3.124    [39m | [39m2.165    [39m | [39m195.5    [39m |
| [39m4        [39m | [39m0.7825   [39m | [39m26.65    [39m | [39m1.637    [39m | [39m3.455    [39m | [39m77.51    [39m |
| [39m5        [39m | [39m0.7822   [39m | [39m16.08    [39m | [39m2.574    [39m | [39m5.456    [39m | [39m93.68    [39m |
| [39m6        [39m | [39m0.7803   [39m | [39m17.93    [39m | [39m3.082    [39m | [39m5.915    [39m | [39m126.9    [39m |
| [39m7        [39m | [39m0.7772   [39m | [39m10.98    [39m | [39m1.055    [39m | [39m6.804    [39m | [39m158.6    [39m |
| [39m8        [39m | [39m0.7765   [39m | [39m10.09    [39m | [39m1.121    [39m | [39m5.732    [39m | [39m102.8    [39m |
| [39m9        [39m | [39m0.78     [39m | [39m29.42    [39m | [39m3.129    [39m | [39m9.951    [39m | [39m106.1    [39m |
| [39m10       [39m | [39m0.7822   [39m | [39m19.43    [39m | [39m1.481    [39m | [39m8.416    [39m | [39m64.48    [39m |
| [35m11       [39m | [35m0.783    [39m | [35m28.77    [39m | [35m3.119    [39m | [35m5.601    [39m | [35m199.8    [39m |
| [39m12       [39m | [39m0.7798   [39m | [39m26.76    [39m | [39m2.866    [39m | [39m4.587    [39m | [39m197.0    [39m |
| [39m13       [39m | [39m0.78     [39m | [39m13.87    [39m | [39m2.864    [39m | [39m3.986    [39m | [39m165.2    [39m |
| [39m14       [39m | [39m0.7782   [39m | [39m10.13    [39m | [39m2.378    [39m | [39m9.813    [39m | [39m129.0    [39m |
| [39m15       [39m | [39m0.7787   [39m | [39m24.85    [39m | [39m2.575    [39m | [39m4.403    [39m | [39m52.95    [39m |
| [39m16       [39m | [39m0.78     [39m | [39m27.74    [39m | [39m2.593    [39m | [39m4.055    [39m | [39m129.7    [39m |
| [39m17       [39m | [39m0.7805   [39m | [39m14.12    [39m | [39m3.91     [39m | [39m2.115    [39m | [39m60.42    [39m |
| [39m18       [39m | [39m0.7827   [39m | [39m18.97    [39m | [39m1.264    [39m | [39m2.414    [39m | [39m175.5    [39m |
| [39m19       [39m | [39m0.7765   [39m | [39m11.66    [39m | [39m3.395    [39m | [39m9.376    [39m | [39m195.7    [39m |
| [39m20       [39m | [39m0.7793   [39m | [39m17.29    [39m | [39m1.86     [39m | [39m7.538    [39m | [39m150.1    [39m |
| [39m21       [39m | [39m0.7822   [39m | [39m19.36    [39m | [39m1.97     [39m | [39m8.328    [39m | [39m64.46    [39m |
| [39m22       [39m | [39m0.781    [39m | [39m29.96    [39m | [39m3.562    [39m | [39m7.921    [39m | [39m199.0    [39m |
| [39m23       [39m | [39m0.7808   [39m | [39m18.14    [39m | [39m2.653    [39m | [39m5.696    [39m | [39m138.2    [39m |
| [39m24       [39m | [39m0.7818   [39m | [39m15.49    [39m | [39m3.068    [39m | [39m9.806    [39m | [39m140.5    [39m |
| [39m25       [39m | [39m0.781    [39m | [39m19.36    [39m | [39m3.244    [39m | [39m9.495    [39m | [39m141.0    [39m |
| [39m26       [39m | [39m0.7808   [39m | [39m21.09    [39m | [39m2.187    [39m | [39m4.491    [39m | [39m174.4    [39m |
| [39m27       [39m | [39m0.7795   [39m | [39m14.4     [39m | [39m3.276    [39m | [39m6.276    [39m | [39m141.1    [39m |
| [39m28       [39m | [39m0.7813   [39m | [39m16.64    [39m | [39m2.866    [39m | [39m2.51     [39m | [39m175.8    [39m |
| [39m29       [39m | [39m0.7793   [39m | [39m28.99    [39m | [39m1.05     [39m | [39m4.297    [39m | [39m199.6    [39m |
| [35m30       [39m | [35m0.7837   [39m | [35m17.5     [39m | [35m2.553    [39m | [35m8.927    [39m | [35m138.6    [39m |
| [39m31       [39m | [39m0.7795   [39m | [39m16.56    [39m | [39m3.761    [39m | [39m9.857    [39m | [39m137.2    [39m |
| [39m32       [39m | [39m0.7793   [39m | [39m17.35    [39m | [39m1.551    [39m | [39m8.439    [39m | [39m138.9    [39m |
| [39m33       [39m | [39m0.7798   [39m | [39m17.38    [39m | [39m3.878    [39m | [39m8.473    [39m | [39m139.3    [39m |
| [39m34       [39m | [39m0.779    [39m | [39m24.33    [39m | [39m1.157    [39m | [39m5.795    [39m | [39m76.37    [39m |
| [39m35       [39m | [39m0.7825   [39m | [39m26.71    [39m | [39m1.621    [39m | [39m3.293    [39m | [39m77.47    [39m |
| [39m36       [39m | [39m0.7825   [39m | [39m29.04    [39m | [39m3.905    [39m | [39m5.19     [39m | [39m199.9    [39m |
| [39m37       [39m | [39m0.7825   [39m | [39m18.26    [39m | [39m2.861    [39m | [39m9.151    [39m | [39m138.7    [39m |
=========================================================================
贝叶斯优化耗时: 172.6407 秒
最佳参数:  {'max_depth': 17.502236740620297, 'min_samples_leaf': 2.5533082077180316, 'min_samples_split': 8.926771812562555, 'n_estimators': 138.5566475443472}

贝叶斯优化后的随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.76      0.98      0.86      1059
           1       0.83      0.26      0.40       441

    accuracy                           0.77      1500
   macro avg       0.79      0.62      0.63      1500
weighted avg       0.78      0.77      0.72      1500

贝叶斯优化后的随机森林 在测试集上的混淆矩阵：
[[1035   24]
 [ 325  116]]

@浙大疏锦行