GBDT提升树

最新推荐文章于 2023-05-23 20:25:53 发布

AI耽误的大厨

最新推荐文章于 2023-05-23 20:25:53 发布

阅读量490

点赞数

分类专栏：机器学习文章标签：随机森林算法数据结构

本文链接：https://blog.csdn.net/weixin_46556352/article/details/123976743

版权

机器学习专栏收录该内容

40 篇文章 0 订阅

订阅专栏

1. 提升树¶

梯度提升树（Grandient Boosting）是提升树（Boosting Tree）的一种改进算法，所以在讲梯度提升树之前先来说一下提升树。

先来个通俗理解：假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。最后将每次拟合的岁数加起来便是模型输出的结果。

上面提到的残差是什么呢？

假设:

我们前一轮迭代得到的强学习器是：ft-1(x)
损失函数是：L(y,ft−1(x))
本轮迭代的目标是找到一个弱学习器：ht(x)
让本轮的损失最小化: L(y, ft(x))=L(y, ft−1(x)) + ht(x))

当采用平方损失函数时:

则:

令：R = y - ft-1(x)，则:

此处，R 是当前模型拟合数据的残差（residual）

所以，对于提升树来说只需要简单地拟合当前模型的残差。

2. 梯度提升树¶

梯度提升树不再使用拟合残差，而是利用最速下降的近似方法，利用损失函数的负梯度作为提升树算法中的残差近似值。

假设: 损失函数仍然为平方损失, 则每个样本要拟合的负梯度为:

此时, 我们发现 GBDT 拟合的负梯度就是残差，或者说对于回归问题，拟合的目标值就是残差。

如果我们的 GBDT 进行的是分类问题，则损失函数变为 logloss，此时拟合的目标值就是该损失函数的负梯度值。

3. 例子¶

3.1 初始化弱学习器（CART树）¶

我们通过计算当模型预测值为何值时，会使得第一个基学习器的平方误差最小，即：求损失函数对 f(xi) 的导数，并令导数为0.

3.2 构建第一个弱学习器（CART树）¶

由于我们拟合的是样本的负梯度，即：

由此得到数据表如下：

上表中平方损失计算过程说明（以切分点1.5为例）：

切分点1.5 将数据集分成两份 [5.56],[5.56 5.7 5.91 6.4 6.8 7.05 8.9 8.7 9. 9.05]

第一份的平均值为5.56 第二份数据的平均值为（5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05）/9 = 7.5011

由于是回归树，每份数据的平均值即为预测值，则可以计算误差，第一份数据的误差为0，第二份数据的平方误差为 :

(5.70−7.5011)2+(5.91−7.5011)2+...+(9.05−7.5011)2=15.72308

以 6.5 作为切分点损失最小，构建决策树如下：

3.3 构建第二个弱学习器（CART树）¶

以 3.5 作为切分点损失最小，构建决策树如下：

3.4 构建第三个弱学习器（CART树）¶

以 6.5 作为切分点损失最小，构建决策树如下：

3.5 最终强学习器¶

4. GBDT算法¶

1.初始化弱学习器

f0(x)=arg⁡minc∑i=1NL(yi,c)

2.对m=1,2,⋯,M有：

（a）对每个样本i=1,2,⋯,N，计算负梯度，即残差

rim=−[∂L(y,f(xi))∂f(xi)]f(x)=fm−1(x)

（b）将上步得到的残差作为样本新的真实值，并将数据(xi,rim),i=1,2,..N作为下棵树的训练数据，得到一颗新的回归树fm(x)其对应的叶子节点区域为Rjm,j=1,2,⋯,J。其中J为回归树t的叶子节点的个数。

（c）对叶子区域j=1,2,⋯,J计算最佳拟合值

Υjm=arg⁡min⏟Υ∑xi∈RjmL(yi,fm−1(xi)+Υ)

（d）更新强学习器

fm(x)=fm−1(x)+∑i=1JrjmI(x∈Rjm)

（3）得到最终学习器

f(x)=fM(x)=f0(x)+∑m=1M∑j=1JrjmI(x∈Rjm

5. 泰坦尼克号案例实战¶

该案例是在随机森林的基础上修改的，可以对比讲解。

数据地址：

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

8.4.2.1 导包并选取特征¶

#1.数据导入
#1.1导入数据
import  pandas as pd
#1.2.利用pandas的read.csv模块从互联网中收集泰坦尼克号数据集
titanic=pd.read_csv("data/titanic.csv")
titanic.info() #查看信息
#2人工选择特征pclass,age,sex
X=titanic[['pclass','age','sex']]
y=titanic['survived']
#3.特征工程
#数据的填补
X['age'].fillna(X['age'].mean(),inplace=True)

8.4.2.2 切分数据及特征处理¶

#数据的切分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test =train_test_split(X,y,test_size=0.25,random_state=22)
#将数据转化为特征向量
from sklearn.feature_extraction import DictVectorizer
vec=DictVectorizer(sparse=False)
X_train=vec.fit_transform(X_train.to_dict(orient='records'))
X_test=vec.transform(X_test.to_dict(orient='records'))

8.4.2.3 三种分类器训练及预测¶

#4.使用单一的决策树进行模型的训练及预测分析
from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()
dtc.fit(X_train,y_train)
dtc_y_pred=dtc.predict(X_test)
print("score",dtc.score(X_test,y_test))
#5.随机森林进行模型的训练和预测分析
from sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier(random_state=9)
rfc.fit(X_train,y_train)
rfc_y_pred=rfc.predict(X_test)
print("score:forest",rfc.score(X_test,y_test))
#6.GBDT进行模型的训练和预测分析
from sklearn.ensemble import GradientBoostingClassifier
gbc=GradientBoostingClassifier()
gbc.fit(X_train,y_train)
gbc_y_pred=gbc.predict(X_test)
print("score:GradientBoosting",gbc.score(X_test,y_test))

8.4.2.4 三种分类器性能评估¶

#7.性能评估
from sklearn.metrics import classification_report
print("dtc_report:",classification_report(dtc_y_pred,y_test))
print("rfc_report:",classification_report(rfc_y_pred,y_test))
print("gbc_report:",classification_report(gbc_y_pred,y_test))

6. 集成算法多样性¶

集成学习中，个体学习器多样性越大越好。通常为了增大个体学习器的多样性，在学习过程中引入随机性。常用的方法包括：对数据样本进行扰动、对输入属性进行扰动、对算法参数进行扰动。

5.1 数据样本扰动¶

给定数据集，可以使用采样法从中产生出不同的数据子集。然后在利用不同的数据子集训练出不同的个体学习器。

该方法简单有效，使用广泛。

（1）数据样本扰动对于“不稳定学习器”很有效。“不稳定学习器”是这样一类学习器：训练样本稍加变化就会导致学习器有显著的变动，如决策树和神经网络等。

（2）数据样本扰动对于“稳定学习器”无效。“稳定学习器”是这样一类学习器：学习器对于数据样本的扰动不敏感，如线性学习器、支持向量机、朴素贝叶斯、K近邻学习器等。

如Bagging算法就是利用Bootstrip抽样完成对数据样本的自助采样。

5.2 输入属性的扰动¶

训练样本通常由一组属性描述，可以基于这些属性的不同组合产生不同的数据子集，然后在利用这些数据子集训练出不同的个体学习器。

（1）若数据包含了大量冗余的属性，则输入属性扰动效果较好。此时不仅训练出了多样性大的个体，还会因为属性数量的减少而大幅节省时间开销。同时由于冗余属性多，即使减少一些属性，训练个体学习器也不会很差。

（2）若数据值包含少量属性，则不宜采用输入属性扰动法。

5.3 算法参数的扰动¶

通常可以通过随机设置不用的参数，比如对模型参数加入小范围的随机扰动，从而产生差别较大的个体学习器。

在使用交叉验证法（GridSearch网格搜索）来确定基学习器的参数时，实际上就是用不同的参数训练出来了多个学习器，然后从中挑选出效果最好的学习器。集成学习相当于将所有这些学习器利用起来了。

随机森林学习器就结合了数据样本的扰动及输入属性的扰动。

AI耽误的大厨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GBDT提升树

1. 提升树¶梯度提升树（Grandient Boosting）是提升树（Boosting Tree）的一种改进算法，所以在讲梯度提升树之前先来说一下提升树。先来个通俗理解：假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。最后将每次拟合的岁数加起来便是模型输出的结果。上面提到的残差是什么呢？假设:
复制链接

扫一扫