DataWhale：西瓜书和南瓜书决策树

小小萌新_Stephanie

已于 2023-07-31 11:56:09 修改

阅读量91

点赞数

文章标签：决策树算法人工智能

于 2023-07-31 00:13:28 首次发布

本文链接：https://blog.csdn.net/weixin_54818064/article/details/132009743

版权

系列文章目录

提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加
例如：第四章决策树

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

系列文章目录
前言
一、决策树是什么？
二、算法解析
- 1.信息增益
- 2.连续与缺失值
- 3.多变量决策树
总结

前言

提示：这里可以添加本文要记录的大概内容：

基本机器学习我们已经学完了，然后这几天学习的就是决策树，我认为这一章节其实是有难度的，但是依然结合西瓜书和南瓜书，明白了下面的一些概念。

提示：以下是本篇文章正文内容，下面案例可供参考

一、决策树是什么？

显然，决策树的生成是一个递归过程.在决策树基本算法中，有三种情形会

导致递归返回： ( 1 ) 当前结点包含的样本全属于同一类别，无需划分； ( 2 ) 当前

属性集为空，或是所有样本在所有属性上取值相同，无法划分； ( 3 ) 当前结点包

含的样本集合为空，不能划分。

在第⑵种情形下，我们把当前结点标记为叶结点，并将其类别设定为该结

点所含样本最多的类别；在第⑶种情形下，同样把当前结点标记为叶结点，但

将其类别设定为其父结点所含样本最多的类别.注意这两种情形的处理实质不

同：情形⑵是在利用当前结点的后验分布，而情形⑶则是把父结点的样本分布

作为当前结点的先验分布。

二、算法解析

1.信息增益

“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标。

Ent(D)的值越小，则D的纯度越高。假定离散属性a有V个可能的取值{ $a^{1}$ , $a^{2}$ ,..., $a^{V}$ },若使用a来对样本集D进行划分，则会产生V各分支节点，其中第v个分支节点包含了D中所有在属性a上取值为 $a^{v}$ 的样本，记为 $D^{v}$ 。我们可根据式（4.1）计算出 $D^{v}$ 的信息熵，再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 $\frac{D^{v}}{D}$ ，也就是样本数越多的分支结点的影响越大，于是可计算出用属性a对样本集D进行划分所获得的“信息增益”（information gain）。

一般而言，信息增益越大，则意味着使用属性a来划分所获得的“纯度提升”越大。因此，我们可用信息增益来进行决策树的划分属性选择。其中，我们又要提到一个“条件熵”，“条件熵”表示的是在已知一个随机变量的条件下，另一个随机变量的不确定性。互信息定义信息熵和条件熵的差，他表示的是已知一个随机变量的信息后使得另一个随机变量的不确定性减小的程度。

称为属性 a 的 “固有值" (intrinsic value) [Quinlan, 1 9 9 3 ].属性 a 的可能取值数目越多(即V 越大)，则 IV (a ) 的值通常会越大。

`2.连续与缺失值`

连续与缺失值的预处理均属于特征工程的范畴。

有些分类器只能使用离散属性，当遇到连续属性时，则需要特殊处理。若先使用某个离散化算法对连续属性离散化后再调用决策树算法。

3. 多变量决策树

斜纹阴影部分表示已确定标记为坏瓜的样本，点状阴影部分表示已确定标记为好瓜的样本，空白部分表示需要进一步划分的样本。在第一次划分的基础上再进行一次划分，满足此条件的样本直接被标记为坏瓜，而不满足词条此的样本还需要进一步划分。在第二次划分的基础上，不满足此条件的样本直接标记为好瓜，而满足此条件的样本还需进一步划分。在第三次划分的基础上继续划分，满足此条件的样本直接标记为好瓜，而不满足此条件的样本直接标记为坏瓜。

小小萌新_Stephanie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DataWhale：西瓜书和南瓜书决策树

基本机器学习我们已经学完了，然后这几天学习的就是决策树，我认为这一章节其实是有难度的，但是依然结合西瓜书和南瓜书，明白了下面的一些概念。提示：以下是本篇文章正文内容，下面案例可供参考。
复制链接

扫一扫