【机器学习基础02】决策树与随机森林

最新推荐文章于 2023-12-02 19:47:36 发布

chad_lee

最新推荐文章于 2023-12-02 19:47:36 发布

阅读量615

点赞数 1

分类专栏：机器学习文章标签：决策树机器学习随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanguang1470/article/details/122621746

版权

本文详细介绍了决策树的训练过程，包括CART树的构建，以及在分类特征上的应用。讨论了剪枝正则化来防止过拟合，并引出了随机森林的概念，解释了其通过两个随机化过程和不剪枝来降低方差的特点。随机森林利用OOB Error进行无偏泛化误差估计，提供了一种有效的集成学习方法。

摘要由CSDN通过智能技术生成

决策树

在这里插入图片描述

上图是一个决策树的图例，那么该决策树的数学表达为：
$G(\mathbf{x})=\sum_{t=1}^{T} q_{t}(\mathbf{x}) \cdot g_{t}(\mathbf{x})$
其中 $g_{t}(\mathbf{x})$ 也是一个决策树， $q (x)$ 表示的是 $x$ 是否在 $G$ 的路径 $t$ 中。从递推树的角度看：

其中：

$G (x)$ : full-tree hypothesis（当前根节点的全树模型）
$b (x)$ : branching criteria（判断是哪个分支）
$G_{c}(x)$ : sub-tree hypothesis at the c-th branch（第c个分支的子树）

那么决策树的训练过程为：

从直观训练过程中，可以得知现在需要确认四个问题：

number of branches（分支个数） $C$
branching criteria（分支条件） $\mathbf { x } )$
termination criteria（终止条件）
base hypothesis（基假设函数）$ g_t( \mathbf { x } )$

由于有这么多可选条件，那么决策树模型有很多种实现方法，一个常用的决策树CART树（Classification and Regression Tree（C&RT））

C&RT

那么上面四个问题是怎么解决的呢：

使用二叉树。分支个数为 2（二叉树），使用 decision stump（即 $ b( \mathbf { x })$的实现方法）进行分段。
分支条件 $\mathbf { x })$ 也就是如何分支，最佳分支函数（模型）的选取，使用的是两部分数据是否 “纯” ，首先判断每段数据的纯度然后求平均值，作为本decision stump是否被选取的评价标准。

$b(\mathbf{x})=\underset{\text { decision stumps } h(\mathbf{x})}{\operatorname{argmin}} \sum_{c=1}^{2} \mid \mathcal{D}_{c} \text { with } h \mid \cdot \text { impurity }\left(\mathcal{D}_{c} \text { with } h\right)$

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。