决策树：原理，划分属性的选择和剪枝

川岛新一

已于 2024-04-16 14:01:00 修改

阅读量1k

点赞数 16

文章标签：决策树算法机器学习

于 2024-04-16 00:55:24 首次发布

本文链接：https://blog.csdn.net/weixin_70834415/article/details/137800475

版权

用于分类问题，类型如下。
在这里插入图片描述

输入：
一组样本D，样本D需要分类的属性集A
过程：

输出：
决策树的根节点

希望划分后节点中的样本尽量属于同一类别，“纯度”更高，用信息熵（entropy）来衡量节点“纯度”。
假设样本集D中有k个类别，每个类别所占比重为 $p_i$ ，信息熵Ent(D)定义如下：
$-\sum_1^k p_i log_2 p_i$

$\sum_1^V {|D^v|\over|D|}Ent(D^v)$
即划分后的子集熵的加权和最小。
问题：某些类似“编号”的属性没有划分价值，却被衡量为最优划分属性。
解决：考虑属性取值的数量，数量越多，价值越低。

$\begin{aligned} Gain\_ratio(D,a) = {Gain(D,a) \over IV(a)} \\ 其中IV(a) = - \sum_1^Vq_ilog_2q_i \\ 其中q_i为取值为i的样本在所有样本中所占比例 \end{aligned}$

信息熵平替，随机抽取两个样本不一样的概率，基尼指数越小，样本集纯度越高。
$\sum_1^kp_i^2$

深层次节点包含的样本数量少，不具有统计意义。

两种剪枝思路：

检测原决策树准确率
for 非叶节点 in 所有节点（自底向上）
1. 计算剪枝后准确率
2. if 准确率提升 then 剪枝
3. else 不剪枝
  问题：这样做是不是把测试集也作为训练集了？

![[Pasted image 20240416134400.png]]

在得到最优划分属性后，通过验证集计算划分前后准确率，决定是否划分该属性。

关注