提升树—回归提升树

最新推荐文章于 2024-05-25 15:04:23 发布

zhong_ddbb

最新推荐文章于 2024-05-25 15:04:23 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习基础文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/106150648

版权

机器学习基础专栏收录该内容

31 篇文章 21 订阅

订阅专栏

文章目录

提升树模型
提升树算法

提升树（boosting tree）是以分类树或回归树为基本分类器的提升方法。

提升树模型

提升方法是采用加法模型与前向分步算法。以决策树为基函数的提升方法称为提升树。先来回顾一下加法模型算法：

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in \mathcal X \sube R^n, y_i\in \{-1, 1\}$ ，损失函数 $L (y, f (x))$ ; 基函数集合 $\{b(x;\gamma)\}$

输出：加法模型 $f (x)$

步骤：

初始化 $f_0(x)=0$
对 $m=1,2,\dots,M$ ，极小化损失函数

$(\beta_m,\gamma_m)=\arg\min \limits_ {\beta,\gamma}\sum_{i=1}^NL(y_i, f_{m-1}(x_i)+\beta b(x_i;\gamma))$

更新

$f_m(x)=f_{m-1}(x)+\beta _mb(x;\gamma_m)$

得到加法模型

$f(x)=f_M(x)=\sum_{m=1}^M\beta_m b(x;\gamma_m)$

所以，提升树模型可以表示为决策树的加法模型：
$f_M(x) = \sum_{m=1}^M T(x; \Theta_m)$
其中，$ T(x; \Theta_m)$ 表示决策树， $\Theta_m$ 是决策树的参数，M 为决策树的个数。

提升树算法

提升树采用前向分步算法。首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是：
$f_m(x) = f_{m-1}(x) + T(x;\Theta_m)$
其中，$ f_{m-1}(x)$ 为当前模型，通过经验风险极小化确定下一棵决策树的参数 $\Theta_m$ ：
$\hat \Theta_m = \arg \min \limits_{\Theta_m}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))$
回归提升树与分类提升树学习算法的区别在于损失函数的不同：

（1）回归问题采用平方误差损失函数

（2）分类问题采用指数损失函数

给定训练集 $T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in \mathcal X \sube R^n,, y_i\in \mathcal Y \in \sube R$ ，如果将输入空间 $\mathcal X$ 划分为 $J$ 个不相交的区域 $R_1,R_2\ldots,R_J$ ，并且每个区域上确定输出的常量 $c_j$ ，那么树可以表示为：
$T(x;\Theta) = \sum_{j=1}^J c_j I(x\in R_j)$
其中，参数 $\Theta = \{(R_1,c_1),(R_2,c_2),\ldots,(R_J,c_J)\}$ 表示树的区域划分和各区域的常数。 $J$ 是回归树的复杂度即叶子结点个数。

回归问题提升树使用前向分步算法：
$\begin{aligned} &f_0(x)=0\\ &f_m(x) = f_{m-1}(x)+T(x;\Theta_m),\quad m=1,2,\ldots,M\\ &f_M(x) = \sum_{m=1}^M T(x;\Theta_m) \end{aligned}$
在前向分步算法的第m步，给定当前模型 $f_{m-1}(x)$ ，需求解：
$\hat \Theta_m = \arg \min \limits_{\Theta_m}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))$
当采用平方误差损失函数时：
$L(y,f(x)) = (y-f(x))^2$
其损失变为：
$L(y,f_{m-1}(x)+T(x;\Theta_m))=[y-f_{m-1}(x)-T(x;\Theta_m)]^2 = [r-T(x;\Theta_m)]^2$
这里，
$r = y-f_{m-1}(x)$
是当前模型拟合数据的残差。所以，回归问题的提升树算法来说，只需要简单的拟合当前模型的残差。

回归问题的提升树算法

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in \mathcal X \sube R^n, y_i\in \mathcal Y \in \sube R$

输出：提升树 $f_M(x)$

步骤：

初始化 $f_0(x)=0$

对 $m=1,2,\dots,M$

（a）计算残差
$r_{mi}=y_i-f_{m-1}(x_i), i=1,2,\dots,N$
（b）拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;\Theta_m)$

（c）更新 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$

得到回归问题提升树
$f(x)=f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

zhong_ddbb

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
提升树—回归提升树

文章目录提升树模型提升树算法提升树（boosting tree）是以分类树或回归树为基本分类器的提升方法。提升树模型提升方法是采用加法模型与前向分步算法。以决策树为基函数的提升方法称为提升树。先来回顾一下加法模型算法：输入：训练数据集T=(x1,y1),(x2,y2),...,(xN,yN),xi∈X⊆Rn,yi∈{−1,1}T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in \mathcal X \sube R^n, y_i\in \{-1, 1\}T
复制链接

扫一扫