集成学习
集成学习是将多个模型组合成一个模型的方法,一般是将学习到的多个弱学习器(基分类器)进行组合,构成一个强学习器,集诸子百家之大成。根据组合方式不同,又分为 $Bagging $ 和 B o o s t i n g Boosting Boosting ,前者代表算法是随机深林,后者代表是 A d a B o o s t AdaBoost AdaBoost 、 G B D T GBDT GBDT 、 X G B o o s t XGBoost XGBoost 。
加法模型
加法模型是将多个基学习器通过相加,组合成强学习器。
F
(
x
)
=
∑
i
=
1
m
α
i
f
(
x
;
θ
i
)
F(x) = \sum_{i=1}^{m} \alpha_i f(x;\theta_i)
F(x)=i=1∑mαif(x;θi)
其中
F
(
x
)
F(x)
F(x) 是组合起来的强学习器,
α
i
\alpha_i
αi 是弱分类器的权重,
θ
i
\theta_i
θi 是弱分类器的参数。若弱分类器是决策树,则参数为叶子节点的值、选择的特征等。
以
G
B
D
T
GBDT
GBDT 为例,训练时采用逐步求解的方法,依次确定每个基分类器的参数,然后加入到强学习器中,使强学习器的精度不断提升。具体过程如下:
y
^
i
0
=
0
y
^
i
1
=
f
1
(
x
i
)
=
y
^
i
0
+
f
1
(
x
i
)
y
^
i
2
=
f
1
(
x
i
)
+
f
2
(
x
i
)
=
y
^
i
1
+
f
2
(
x
i
)
⋯
y
^
i
t
=
∑
k
=
1
t
f
k
(
x
i
)
=
y
^
i
t
−
1
+
f
t
(
x
i
)
\begin{aligned} \hat{y}_{i}^{0} &=0 \\ \hat{y}_{i}^{1} &=f_{1} \left(x_{i}\right)=\hat{y}_{i}^{0}+f_{1}\left(x_{i}\right) \\ \hat{y}_{i}^{2} &=f_{1} \left(x_{i}\right)+f_{2}\left(x_{i}\right)=\hat{y}_{i}^{1}+f_{2}\left(x_{i}\right) \\ & \cdots \\ \hat{y}_{i}^{t} &=\sum_{k=1}^{t} f_{k}\left(x_{i}\right)=\hat{y}_{i}^{t-1}+f_{t}\left(x_{i}\right) \end{aligned}
y^i0y^i1y^i2y^it=0=f1(xi)=y^i0+f1(xi)=f1(xi)+f2(xi)=y^i1+f2(xi)⋯=k=1∑tfk(xi)=y^it−1+ft(xi)
目标函数
以训练第
t
t
t 个模型为例,模型对第
i
i
i 个样本
x
i
x_i
xi 的预测过程为:
y
^
i
t
=
y
^
i
t
−
1
+
f
t
(
x
i
)
\hat{y}_{i}^{t} = \hat{y}_{i}^{t-1}+f_{t}(x_i)
y^it=y^it−1+ft(xi)
其中
f
t
(
x
i
)
f_{t}(x_i)
ft(xi) 就是要训练的新模型,目标函数为:
L
t
=
∑
i
=
1
n
l
(
y
i
,
y
i
^
t
)
+
∑
k
=
1
t
Ω
(
f
k
)
L_t = \sum_{i=1}^{n} l(y_i, \hat{y_i}^t) + \sum_{k=1}^{t} \Omega(f_k)
Lt=i=1∑nl(yi,yi^t)+k=1∑tΩ(fk)
其中第一部分是损失项,第二部分是正则化项。
n
n
n 为训练样本个数,
y
i
y_i
yi 为样本
x
i
x_i
xi 的真实标签,
y
^
i
\hat{y}_i
y^i 为样本
x
i
x_i
xi 的预测标签。正则化项表示模型的复杂度:
Ω
(
f
t
)
=
γ
T
+
1
2
λ
∑
k
=
1
T
ω
k
2
\Omega(f_t) = \gamma T + \frac{1}{2} \lambda \sum_{k=1}^{T} \omega _k^2
Ω(ft)=γT+21λk=1∑Tωk2
其中
T
T
T 为叶子结点个数,该项体现了决策树结构的复杂程度;
ω
k
\omega_k
ωk 为训练的第
k
k
k 颗树叶子结点对应的值,体现了决策树的预测值复杂程度。
根据学过的高数可以知道,函数在 x ∗ x^* x∗ 处取得极值的必要条件是导数为 0 0 0 ,即:
∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 ∇f(x∗)=0
因此,可以使用求导的方法找到函数的极值。但是如果函数非常复杂,该方法不易求解,所以采用迭代算法,从一个初始点 x i x_i xi ,利用在该点的一阶导和二阶导,逐渐移动到极值点。因此,当实际优化问题的目标函数往往比较复杂时,为了使问题简化,通常将目标函数在某点附近展开为泰勒多项式来逼近原函数。
根据泰勒公式, f ( x ) f(x) f(x) 在 x 0 x_0 x0 处展开二阶导:
f ( x ) ≈ f ( x 0 ) + f ′ ( x 0 ) ( x − x 0 ) + f ′ ′ ( x 0 ) 2 ( x − x 0 ) 2 f(x) \approx f(x_0) + f'(x_0)(x - x_0) + \frac{f''(x_0)}{2}(x - x_0)^2 f(x)≈f(x0)+f′(x0)(x−x0)+2f′′(x0)(x−x0)2
或者:
f ( x + Δ x ) ≈ f ( x ) + f ′ ( x ) Δ x + f ′ ′ ( x ) 2 Δ x 2 f(x + \Delta x) \approx f(x) + f'(x) \Delta x + \frac{f''(x)}{2} \Delta x^2 f(x+Δx)≈f(x)+f′(x)Δx+2f′′(x)Δx2
推导过程
目标函数:
L
t
=
∑
i
=
1
n
l
(
y
i
,
y
i
^
t
)
+
∑
k
=
1
t
Ω
(
f
k
)
=
∑
i
=
1
n
l
(
y
i
,
y
i
^
t
−
1
+
f
t
(
x
i
)
)
+
∑
k
=
1
t
Ω
(
f
k
)
\begin{aligned} L_t &= \sum_{i=1}^{n} l(y_i, \hat{y_i}^t) + \sum_{k=1}^{t} \Omega(f_k) \\ &= \sum_{i=1}^{n} l(y_i, \hat{y_i}^{t-1} + f_t(x_i)) + \sum_{k=1}^{t} \Omega(f_k) \\ \end{aligned}
Lt=i=1∑nl(yi,yi^t)+k=1∑tΩ(fk)=i=1∑nl(yi,yi^t−1+ft(xi))+k=1∑tΩ(fk)
将
f
t
(
x
i
)
f_t(x_i)
ft(xi) 看作
Δ
x
\Delta x
Δx ,目标函数可以写成:
L
t
=
∑
i
=
1
n
l
(
y
i
,
y
i
^
t
−
1
+
f
t
(
x
i
)
)
+
∑
k
=
1
t
Ω
(
f
k
)
=
∑
i
=
1
n
[
l
(
y
i
,
y
i
^
t
−
1
)
+
g
i
f
t
(
x
i
)
+
1
2
h
i
f
t
2
(
x
i
)
]
+
∑
k
=
1
t
Ω
(
f
k
)
\begin{aligned} L_t &= \sum_{i=1}^{n} l(y_i, \hat{y_i}^{t-1} + f_t(x_i)) + \sum_{k=1}^{t} \Omega(f_k) \\ &= \sum_{i=1}^{n} [l(y_i, \hat{y_i}^{t-1}) + g_if_t(x_i) + \frac{1}{2}h_i f_t^2(x_i)] + \sum_{k=1}^{t} \Omega(f_k) \end{aligned}
Lt=i=1∑nl(yi,yi^t−1+ft(xi))+k=1∑tΩ(fk)=i=1∑n[l(yi,yi^t−1)+gift(xi)+21hift2(xi)]+k=1∑tΩ(fk)
其中,
g
i
g_i
gi 为目标函数一阶导,
h
i
h_i
hi 为目标函数二阶导。注意 :这里的求导是对
y
^
i
t
−
1
\hat y_i^{t-1}
y^it−1 导的。
假设损失函数 l ( y i , y i ^ t − 1 ) l(y_i, \hat{y_i}^{t-1}) l(yi,yi^t−1) 为均方误差损失函数,则 l ( y i , y i ^ t − 1 ) = ( y i − y i ^ t − 1 ) 2 l(y_i, \hat{y_i}^{t-1}) = (y_i- \hat{y_i}^{t-1})^2 l(yi,yi^t−1)=(yi−yi^t−1)2 ,其中 y i − y i ^ y_i- \hat{y_i} yi−yi^ 称为残差。
所以:
g
i
=
∂
l
(
y
i
,
y
i
^
t
−
1
)
∂
y
i
^
t
−
1
=
−
2
(
y
i
−
y
i
^
t
−
1
)
h
i
=
∂
2
l
(
y
i
,
y
i
^
t
−
1
)
∂
2
y
i
^
t
−
1
=
−
2
\begin{aligned} g_i &= \frac{\partial l(y_i, \hat{y_i}^{t-1})}{\partial \hat{y_i}^{t-1}} = -2(y_i- \hat{y_i}^{t-1}) \\ h_i &= \frac{\partial ^2 l(y_i, \hat{y_i}^{t-1})}{\partial ^2 \hat{y_i}^{t-1}} = -2 \end{aligned}
gihi=∂yi^t−1∂l(yi,yi^t−1)=−2(yi−yi^t−1)=∂2yi^t−1∂2l(yi,yi^t−1)=−2
训练第
t
t
t 个模型时,
y
^
i
t
−
1
\hat y_i^{t-1}
y^it−1 是上一个模型对
x
i
x_i
xi 的预测值,是已知的,所以
l
(
y
i
,
y
i
^
t
−
1
)
l(y_i, \hat{y_i}^{t-1})
l(yi,yi^t−1) 是一个常数。因此,目标函数可以简化为:
L
t
=
∑
i
=
1
n
[
g
i
f
t
(
x
i
)
+
1
2
h
i
f
t
2
(
x
i
)
]
+
∑
k
=
1
t
Ω
(
f
k
)
\begin{aligned} L_t = \sum_{i=1}^{n} [g_if_t(x_i) + \frac{1}{2}h_i f_t^2(x_i)] + \sum_{k=1}^{t} \Omega(f_k) \end{aligned}
Lt=i=1∑n[gift(xi)+21hift2(xi)]+k=1∑tΩ(fk)
假设训练好了一颗决策树拟合当前的残差数据,决策树的叶子结点数为
T
T
T ,第
j
j
j 个叶子结点的值为
w
j
w_j
wj 。定义函数
q
(
x
i
)
=
j
q(x_i) = j
q(xi)=j 表示数据
x
x
x 属于被分到第
j
j
j 个叶子结点里的数据。
定义集合:
I
j
=
{
i
∣
q
(
x
i
)
=
j
}
I_j = \{i | q(x_i) = j\}
Ij={i∣q(xi)=j}
表示第
j
j
j 个叶子结点的训练样本集合。
因为每个训练样本只属于一个叶子结点,所以目标函数可以转化为对每一个叶子结点里的样本集合求损失函数,然后累加:
L
t
=
∑
i
=
1
n
[
g
i
f
t
(
x
i
)
+
1
2
h
i
f
t
2
(
x
i
)
]
+
∑
k
=
1
t
Ω
(
f
k
)
=
∑
i
=
1
n
[
g
i
f
t
(
x
i
)
+
1
2
h
i
f
t
2
(
x
i
)
]
+
γ
T
+
1
2
λ
∑
k
=
1
T
ω
k
2
=
∑
k
=
1
T
[
(
∑
i
∈
I
k
g
i
)
ω
k
+
1
2
(
∑
i
∈
I
k
h
i
+
λ
)
ω
k
2
]
+
γ
T
\begin{aligned} L_t &= \sum_{i=1}^{n} [g_if_t(x_i) + \frac{1}{2}h_i f_t^2(x_i)] + \sum_{k=1}^{t} \Omega(f_k) \\ &= \sum_{i=1}^{n} [g_if_t(x_i) + \frac{1}{2}h_i f_t^2(x_i)] + \gamma T + \frac{1}{2} \lambda \sum_{k=1}^{T} \omega _k^2 \\ &= \sum_{k=1}^{T} [ (\sum_{i \in I_k} g_i) \omega_k + \frac{1}{2}(\sum_{i \in I_k} h_i + \lambda) \omega_k^2 ] + \gamma T \end{aligned}
Lt=i=1∑n[gift(xi)+21hift2(xi)]+k=1∑tΩ(fk)=i=1∑n[gift(xi)+21hift2(xi)]+γT+21λk=1∑Tωk2=k=1∑T[(i∈Ik∑gi)ωk+21(i∈Ik∑hi+λ)ωk2]+γT
令:
G
k
=
∑
i
∈
I
k
g
i
,
H
k
=
∑
i
∈
I
k
h
i
\begin{aligned} G_k = \sum_{i \in I_k} g_i, H_k = \sum_{i \in I_k} h_i \end{aligned}
Gk=i∈Ik∑gi,Hk=i∈Ik∑hi
则目标函数可写成:
L
t
=
∑
k
=
1
T
[
G
k
ω
k
+
1
2
(
H
k
+
λ
)
ω
k
2
]
+
γ
T
\begin{aligned} L_t = \sum_{k=1}^{T} [G_k \omega_k + \frac{1}{2}( H_k + \lambda) \omega_k^2 ] + \gamma T \end{aligned}
Lt=k=1∑T[Gkωk+21(Hk+λ)ωk2]+γT
目标函数对
ω
k
\omega _k
ωk 求导,可以得到叶子结点
k
k
k 的最优值:
ω
k
∗
=
−
G
k
H
k
+
λ
\omega_k^* = -\frac{G_k}{H_k + \lambda}
ωk∗=−Hk+λGk
带入目标函数:
L
t
=
−
1
2
∑
k
=
1
T
G
k
2
H
k
+
λ
+
γ
T
\begin{aligned} L_t = - \frac{1}{2} \sum_{k=1}^{T} \frac{G_k^2}{H_k + \lambda} + \gamma T \end{aligned}
Lt=−21k=1∑THk+λGk2+γT
经过推导后的目标函数作为选择最优分裂特征的标准。
假设某结点分裂前训练样本数为 I I I ,分裂后左结点的训练样本数为 I L I_L IL ,右结点样本数为 I R I_R IR 。
则分裂前的目标函数为:
L
t
=
−
1
2
(
G
L
+
G
R
)
2
H
L
+
H
R
+
λ
+
γ
\begin{aligned} L_t = - \frac{1}{2} \frac{(G_L + G_R)^2}{H_L + H_R + \lambda} + \gamma \end{aligned}
Lt=−21HL+HR+λ(GL+GR)2+γ
分裂后的目标函数为:
L
t
=
−
1
2
[
G
L
2
H
L
+
λ
+
G
R
2
H
R
+
λ
]
+
2
γ
\begin{aligned} L_t = - \frac{1}{2} [\frac{G_L^2}{H_L + \lambda} + \frac{G_R^2}{H_R + \lambda}] + 2\gamma \end{aligned}
Lt=−21[HL+λGL2+HR+λGR2]+2γ
分裂后的信息增益为:
G
a
i
n
=
−
1
2
[
G
L
2
H
L
+
λ
+
G
R
2
H
R
+
λ
−
(
G
L
+
G
R
)
2
H
L
+
H
R
+
λ
]
−
γ
\begin{aligned} Gain = - \frac{1}{2} [\frac{G_L^2}{H_L + \lambda} + \frac{G_R^2 }{H_R + \lambda} - \frac{(G_L + G_R)^2}{H_L + H_R + \lambda}] -\gamma \end{aligned}
Gain=−21[HL+λGL2+HR+λGR2−HL+HR+λ(GL+GR)2]−γ
对于每一个特征,我们选取信息增益最大的作为分裂特征。