几个常用机器学习算法 - 决策树算法

最新推荐文章于 2024-04-29 12:14:03 发布

时光杂货店

最新推荐文章于 2024-04-29 12:14:03 发布

阅读量3.9k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xg123321123/article/details/52925609

版权

本文介绍了决策树算法，包括其基本结构、ID3与C4.5的区别，以及决策树的剪枝策略。通过信息增益和信息增益比来选择特征，并探讨了损失函数在剪枝过程中的作用。

摘要由CSDN通过智能技术生成

几个常用机器学习算法 - 决策树算法

本篇博客涉及到的信息论概念 - 熵和信息增益 - 可以参考这里。

1

决策树算法（Decision Tree）是从训练数据集中归纳出一组分类规则的过程。
实际操作中，与训练数据集不相矛盾的决策树可能有多个，也可能一个都没有；理想情况是找到一个与训练数据矛盾较小的决策树，同时也具有良好的泛化能力。

2

决策树结构：
- 有向边
- 节点
  -内部节点：数据的特征
  -叶节点：数据的类别
决策树准则：每个实例都被一条路径覆盖，且仅被一条路径覆盖

3

决策树算法过程

特征选择
- 决策树生成过程就是划分数据集的过程，合适地选取特征能帮助我们将数据集从无序数据组织为有序；
- 有很多方法可以划分数据集，决策树算法根据信息论来度量信息；
- 信息论中有很多概念，不同的决策树生成算法使用不同的信息论概念来进行特征选择。
决策树生成
- 有诸如ID3, C4.5, CART等算法用于生成决策树；
- ID3和CART4.5的差别在于用于特征选择的度量的不同
  -ID3使用信息增益进行特征选择
  -C4.5使用信息增益比进行特征选择
  -以上两个算法流程：迭代的寻找当前特征中最好的特征进行数据划分，直到所有特征用尽或者划分后的数据的熵足够小。
  
  ID3核心思想：信息增益越大说明该特征对于减少样本的不确定性程度的能力越大，也就代表这个特征越好。
  
  C4.5核心思想：某些情况（比如按照身份证号、信用卡号、学号对数据进行分类）构造的树层数太浅而分支又太多，而这样的情况对数据的分类又往往没有意义，所以引入信息增益比来对分支过多的情况进行适当“惩罚”。具体情景解释可见这篇博客
- CART我还没了解过，暂不介绍

4

决策树生成算法得到的树对训练数据的分类很准确，但对未知数据的分类却没那么准确，容易过拟合；因为决策树考虑的特征太多，构建得太复杂。
所以我们需要对决策树进行剪枝：从已生成的树上裁掉一些子树或叶节点，并将其根节点或父节点作为新的叶节点，以此简化树。

剪枝算法很多，这里引入一种简单的：极小化决策树整体的损失函数。

设树 T 的叶节点个数为 |T|, t 是树 T 的叶节点，该叶节点有 $N_t$ 个样本点，其中 k 类的样本点有 $N_{tk}$ 个， k = 1,2,…,k, $H_t(T)$ 是叶节点 t 上的经验熵， $\alpha \ge 0$ 为参数，决策树的损失函数可定义如下

C α (T) = \sum t = 1 | T |

最低0.47元/天解锁文章

时光杂货店

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。