python数据分析——认识GBR梯度提升回归模型

GBR——Gradient boosting regression——梯度提升回归模型

目 录

1 Boosting

   集成学习,Boosting与Bagging的区别

2 Gradient Boosting算法

   算法思想,算法实现,残差与负梯度

 3 终极组合GBR


Boosting

Boosting是一种机器学习算法,常见的机器学习算法有:

决策树算法、朴素贝叶斯算法、支持向量机算法、随机森林算法、人工神经网络算法

Boosting与Bagging算法(回归算法)、关联规则算法、EM(期望最大化)算法、深度学习

1.1 集成学习

背景

我们希望训练得到的模型是一个各方面都稳定表现良好的模型,但是实际情况中得到的在某方面偏好的模型。集成学习则可以通过多个学习器相结合,来获得比单一学习器更优越的泛化性能。

原理

一般集成学习会通过重采样获得一定数量的样本,然后训练多个弱学习器,采用投票法,即少数服从多数原则来选择分类结果,当少数学习器出现错误时,也可以通过多数学习器来纠正结果。

分类

1)个体学习器之间存在较强的依赖性,必须串行生成学习器:boosting类算法;

2) 个体学习器之间不存在强依赖关系,可以并行生成学习器:Bagging类算法

1.2 Boosting与Bagging区别

Boosting

种通用的增强基础算法性能的回归分析算法。它可以将弱学习算法提高为强学习算法,可以应用到其它基础回归算法,如线性回归、神经网络等,来提高精度。

Boosting由于各基学习器之间存在强依赖关系,因此只能串行处理,也就是说Boosting实际上是个迭代学习的过程。

Boosting的工作机制为:

1) 先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器处理不当的样本在后续的训练过程中受到更多关注;
2) 然后基于调整后的样本分布来训练下一个基学习器;  
3) 如此重复,直到基学习器数目达到事先自定的值 T ,然后将这 T 个基学习器进行加权结合。

 Bagging

首先从数据集中采样出T个数据集,然后基于这T个数据集,每个训练出一个基分类器,再将这些基分类器进行组合做出预测。Bagging在做预测时,对于分类任务,使用简单的投票法。对于回归任务使用简单平均法。若分类预测时出现两个类票数一样时,则随机选择一个。Bagging非常适合并行处理。

2 Gradient Boosting算法

任何监督学习算法的目标是定义一个损失函数并将其最小化。

Gradient Boosting 的基本思想是:串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失往负梯度的方向减少。

举个简单的例子

假设有个样本真实值为 10,第一个弱学习器拟合结果为7,则残差为10-7=3

使残差 3 作为下一个学习器的拟合目标,第二个弱学习其拟合结果为2

则这两个弱学习器组合而成的 Boosting 模型对于样本的预测为7+2=9

以此类推可以继续增加弱学习器以提高性能。

和其他boost方法一样,梯度提升方法也是通过迭代的方法联合弱”学习者”联合形成一个强学习者。

2.1 算法思想

2.2 算法实现

1)初始化模型函数

2)For m = 1 to M:

使用损失函数的负梯度在当前模型 Fm-1(x)上的值近似代替残差:

使用基学习器 h(x)拟合近似的残差值:

计算最优的ɤ:

3)更新模型 :

4)返回Fm(x)

2.3 残差与负梯度

 

 3 终极组合GBR

GBR就是弱学习器是回归算法。

常见的回归算法:

线性回归(Linear Regression

逻辑回归(Logistic Regression

多项式回归(Polynomial Regression

逐步回归(Stepwise Regression

岭回归(Ridge Regression

套索回归(Lasso Regression

弹性回归(ElasticNet Regression

其他GB算法:

GBRT (Gradient BoostRegression Tree)

梯度提升回归树

GBDT (Gradient BoostDecision Tree)

梯度提升决策树

### Gradient Boosting Regression 的 SHAP 值可视化 SHAP(SHapley Additive exPlanations)是一种用于解释机器学习模型预测的方法。它通过分配每个特征对最终预测的影响来帮助理解模型的行为。对于梯度提升回归(Gradient Boosting Regression),可以通过绘制 SHAP 值图来进行分析。 以下是生成和解读 GBR 算法的 SHAP 值图的过程: #### 安装依赖库 为了生成 SHAP 图,需要安装 `shap` 库以及必要的绘图工具包: ```bash pip install shap matplotlib pandas scikit-learn ``` #### 数据准备与建模 假设已经训练了一个基于 Scikit-Learn 的 GradientBoostingRegressor 模型,并将其命名为 `gbr_model`。数据集存储在变量 `X_train`, `y_train`, 和测试集 `X_test` 中。 #### 计算 SHAP 值并生成图表 以下是一个完整的 Python 脚本示例,展示如何计算 SHAP 值并生成相应的图形表示: ```python import shap import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split from sklearn.ensemble import GradientBoostingRegressor # 创建模拟数据集 X, y = make_regression(n_samples=1000, n_features=5, noise=0.1, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 构建 Gradient Boosting Regressor 模型 gbr_model = GradientBoostingRegressor(random_state=42) gbr_model.fit(X_train, y_train) # 初始化 SHAP 解释器 explainer = shap.Explainer(gbr_model, X_train) shap_values = explainer.shap_values(X_test) # 绘制全局 SHAP 总结图 plt.figure(figsize=(8, 6)) shap.summary_plot(shap_values, X_test, feature_names=[f'Feature {i}' for i in range(5)], show=False) plt.title('Global Feature Importance via SHAP Summary Plot') plt.tight_layout() plt.show() # 单独查看某个样本的 SHAP 力图 (Force Plot) shap.initjs() sample_index = 0 shap.force_plot(explainer.expected_value, shap_values[sample_index], X_test[sample_index], feature_names=[f'Feature {i}' for i in range(5)]) # 局部依赖关系图 (Dependency Plot) 对于特定特征 for feature_idx in range(5): shap.dependence_plot(feature_idx, shap_values, X_test, feature_names=[f'Feature {i}' for i in range(5)]) ``` 上述脚本实现了以下几个功能: 1. **总结图**:展示了所有特征的重要性及其影响方向[^1]。 2. **力图**:显示单个样本上各个特征的具体贡献值。 3. **依赖关系图**:揭示某一特征与其 SHAP 值之间的关系,同时考虑其他特征可能存在的交互作用[^2]。 #### 结果解读 - **总结图**中的点位置反映了特征值大小,颜色代表另一个重要特征的变化趋势。这有助于快速识别哪些特征最显著地影响了目标变量。 - **力图**提供了关于具体实例决策路径的直观视图,便于了解各因素正向或负向推动的程度。 - **依赖关系图**可以发现潜在的非线性模式或者与其他输入间的复杂关联。 这种多角度呈现方式不仅增强了对模型内部机制的理解能力,还促进了更透明、可信赖的人工智能应用开发过程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值