LightGBM教程

最新推荐文章于 2023-09-16 00:53:23 发布

zhong_ddbb

最新推荐文章于 2023-09-16 00:53:23 发布

阅读量3.1k

点赞数 4

分类专栏： sklearn 文章标签： python 算法 lightgbm

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/107285482

版权

sklearn 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

参数

参数	说明
boosting /boost/boosting_type	用于指定弱学习器的类型，默认值为 ‘gbdt’，表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。可选参数有： gbdt’，使用梯度提升树 rf’，使用随机森林 ‘goss’，使用单边梯度抽样算法，速度很快，但是可能欠拟合。
objective	用于指定学习任务及相应的学习目标，常用的可选参数值如下： regression”，使用L2正则项的回归模型（默认值）。 “regression_l1”，使用L1正则项的回归模型。 “binary”，二分类。 multiclass”，多分类。 “mape”，平均绝对百分比误差。
num_class	用于设置多分类问题的类别个数。
min_child_samples	叶节点样本的最少数量，默认值20，用于防止过拟合。
learning_rate / eta	LightGBM 不完全信任每个弱学习器学到的残差值，为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta，设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。推荐的候选值为：[0.01, 0.015, 0.025, 0.05, 0.1]
max_depth	指定树的最大深度，默认值为-1，表示不做限制，合理的设置可以防止过拟合。
num_leaves	指定叶子的个数，默认值为31，此参数的数值应该小于 $2^{max\_depth}$
feature_fraction / colsample_bytree	构建弱学习器时，对特征随机采样的比例，默认值为1。
bagging_fraction / subsample	默认值1，指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。取值在(0, 1)之间，设置为1表示使用所有数据训练弱学习器。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。注： bagging_freq 设置为非0值时才生效。
lambda_l1	L1正则化权重项，增加此值将使模型更加保守。推荐的候选值为：[0, 0.01~0.1, 1]
lambda_l2	L2正则化权重项，增加此值将使模型更加保守。推荐的候选值为：[0, 0.1, 0.5, 1]
min_gain_to_split / min_split_gain	指定叶节点进行分支所需的损失减少的最小值，默认值为0。设置的值越大，模型就越保守。推荐的候选值为：[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1]
min_sum_hessian_in_leaf / min_child_weight	指定孩子节点中最小的样本权重和，如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束，默认值为1。推荐的候选值为：[1, 3, 5, 7]
metric	用于指定评估指标，可以传递各种评估方法组成的list。常用的评估指标如下： ‘mae’，用于回归任务，效果与 ‘mean_absolute_error’， ‘l1’ 相同。 ‘mse’，用于回归任务，效果与 ‘mean_squared_error’， ‘l2’ 相同。 ‘rmse’，用于回归任务，效果与 ‘root_mean_squared_error’， ‘l2_root’ 相同。 ‘auc’，用于二分类任务。 ‘binary’，用于二分类任务。 ‘binary_logloss’，用于二分类任务。 ‘binary_error’，用于二分类任务。 ‘multiclass’，用于多分类。 ‘multi_logloss’，用于多分类。 ‘multi_error’，用于多分类。
seed / random_state	指定随机数种子。

以下为训练参数：

参数	说明
n_estimators/num_iterations/num_round/num_boost_round	指定最大迭代次数，默认值为10
valid_sets	列表类型，用于指定训练过程中用于评估的数据及数据的名称。例如：[train_data, valid_data]
fobj	可以指定二阶可导的自定义目标函数。
feval	自定义评估函数。
categorical_feature	指定哪些是类别特征。
early_stopping_rounds	指定迭代多少次没有得到优化则停止训练，默认值为None，表示不提前停止训练。
verbose_eval	可以是bool类型，也可以是整数类型。如果设置为整数，则每间隔verbose_eval次迭代就输出一次信息。
init_model	加载之前训练好的 lgb 模型，用于增量训练。

基本使用

LGBMClassifier

（1）初始化模型

from lightgbm import LGBMClassifier
# 重要参数：
lgb_model = LGBMClassifier(
    boosting_type='gbdt',
    num_leaves=31,
    max_depth=-1,
    learning_rate=0.1,
    n_estimators=100,
    objective='binary', # 默认是二分类
    min_split_gain=0.0,
    min_child_samples=20,
    subsample=1.0,
    subsample_freq=0,
    colsample_bytree=1.0,
    reg_alpha=0.0,
    reg_lambda=0.0,
    random_state=None,
    silent=True
)

（2）传入数据，开始训练

lgb_model.fit(
    X, # array, DataFrame 类型
    y, # array, Series 类型
    eval_set=None, # 用于评估的数据集，例如：[(X_train, y_train), (X_test, y_test)]
    eval_metric=None, # 评估函数，字符串类型，例如：'l2', 'logloss'
    early_stopping_rounds=None, 
    verbose=True # 设置为正整数表示间隔多少次迭代输出一次信息
)

（3）预测

lgb_model.predict(data) # 返回预测值
lgb_model.predict_proba(data) # 返回各个样本属于各个类别的概率

实例

from lightgbm import LGBMClassifier
from sklearn.datasets import load_iris
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)

model = LGBMClassifier(
    max_depth=3,
    learning_rate=0.1,
    n_estimators=200, # 使用多少个弱分类器
    objective='multiclass',
    num_class=3,
    booster='gbtree',
    min_child_weight=2,
    subsample=0.8,
    colsample_bytree=0.8,
    reg_alpha=0,
    reg_lambda=1,
    seed=0 # 随机数种子
)
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], 
          verbose=100, early_stopping_rounds=50)

# 对测试集进行预测
y_pred = model.predict(X_test)
model.predict_proba
#计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%3.f%%'%(accuracy*100))

# 显示重要特征
plot_importance(model)
plt.show()

结果如下：

在这里插入图片描述

LGBRegressor

from lightgbm import LGBMRegressor
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error

# 导入数据集
boston = load_boston()
X ,y = boston.data,boston.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)

model = LGBMRegressor(
    boosting_type='gbdt',
    num_leaves=31,
    max_depth=-1,
    learning_rate=0.1,
    n_estimators=100,
    objective='regression', # 默认是二分类
    min_split_gain=0.0,
    min_child_samples=20,
    subsample=1.0,
    subsample_freq=0,
    colsample_bytree=1.0,
    reg_alpha=0.0,
    reg_lambda=0.0,
    random_state=None,
    silent=True
)

model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], 
          verbose=100, early_stopping_rounds=50)

# 对测试集进行预测
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test,y_pred)
print('mse', mse)

# 显示重要特征
plot_importance(model)
plt.show()

在这里插入图片描述

调参

参考LightGBM 调参方法（具体操作）

zhong_ddbb

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
LightGBM教程

参数参数说明boosting /boost/boosting_type用于指定弱学习器的类型，默认值为 ‘gbdt’，表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。可选参数有：gbdt’，使用梯度提升树rf’，使用随机森林‘goss’，使用单边梯度抽样算法，速度很快，但是可能欠拟合。objective用于指定学习任务及相应的学习目标，常用的可选参数值如下：regression”，使用L2正则项的回归模型（默认值）。“regre
复制链接

扫一扫