GBDT模型
GBDT模型
1. GBDT算法原理
1.1 GDBT算法的核心思想
GDBT 是 Gradient Boosting Decision Tree (梯度提升树)的缩写。GBDT也是一种非常实用的Boosting算法,它与AdaBoost算法的区别在于:AdaBoost算法根据分类效果调整权重并不断迭代,最终生成强学习器;GBDT算法则将损失函数的负梯度作为残差的近似值,不断使用残差迭代和拟合回归树,最终生成强学习器。简单来说,AdaBoost算法是调整权重,而GBDT算法则是拟合残差。
# 例如:
客户 = [A, B, C, D]
年龄 = [24, 28, 32, 30] # X1
月收入 = [10000, 20000, 15000, 25000] # X2
信用卡额度 = [8000, 30000, 25000, 40000] # y
# 此处:残差=信用卡额度-所在位置的值
if 月收入 < 20000元:
if 年龄 < 25岁:
10000元 对于A来说残差为-2000
else:
20000元 对于C来说残差为 5000
else:
35000元 对于B来说残差为-5000,对于D来说残差为 5000
接下来构造第二棵决策树来拟合第一棵决策树产生的残差,注意这里拟合的是残差
if 年龄 < 30岁:
if 月收入 < 15000元:
-3000元 此时A的残差为 1000
else:
-5000元 此时B的残差为 0
else:
5000元 对于C来说残差为 0 ,对于D来说残差为 0
接着继续构造新的决策树,用第二棵树产生的残差去拟合第三棵树,并不断重复此步骤,使残差变小。最终的模型就是集成在一起的多个模型,这也充分体现了集成算法的集成思想。
1.2 GDBT算法的数学原理概述
迭代模型为: f m ( x ) = f m − 1 ( x ) + T m ( x ) f_m(x)=f_{m-1}(x)+T_m(x) fm(x)=fm−1(x)+Tm(x) 其中 f m − 1 ( x ) f_{m-1}(x) fm−1(x)是第 m − 1 m-1 m−1次迭代模型,即上一次的迭代模型; T m ( x ) T_m(x) Tm(x)是本次搭建的决策树,其实也是拟合上一个模型残差值的决策树; f m ( x ) f_m(x) fm(x)是本次迭代后产生的新模型。对GBDT算法来说,只需简单地拟合当前模型地残差,算法步骤如下:
(1) 初始化 f 0 ( x ) = 0 f_0(x)=0 f0(x)=0;
(2) 当 m = 1 , 2 , ⋯ , M m=1,2,\cdots,M m=1,2,⋯,M,计算残差 r m i = y i − f m − 1 ( x ) r_{mi}=y_i-f_{m-1}(x) rmi=yi−fm−1(x);拟合残差,得到决策树