【数据挖掘】决策树中根据信息增益确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 )

决策树信息增益详解

最新推荐文章于 2025-08-10 15:55:23 发布

原创最新推荐文章于 2025-08-10 15:55:23 发布 · 7.9k 阅读

61 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #数据挖掘 #熵 #信息 #信息增益

数据挖掘专栏收录该内容

54 篇文章

订阅专栏

本文深入探讨决策树中信息增益的概念与计算方法，通过具体案例解释如何选择最佳属性进行数据集划分，以实现最优分类效果。

文章目录

I . 决策树树根属性选择

1 . 属性选择方法 : 树根属性选择的方法很多 , 这里介绍一种常用的方法 , 信息增益 ;

2 . 信息增益 : 信息增益效果越大 , 其作为树根属性 , 划分的数据集分类效果越明显 ;

3 . 信息和熵 : 涉及信息论的知识点 , 建议有空就去 B站刷一下信息论课程 ;

① 信息与熵的关系 : 信息会消除熵 , 熵代表了不确定性 , 信息用来消除不确定性 ;

② 信息增益 : 信息增益大的属性 , 能最大消除熵的不确定性 ;

4 . 决策树中的信息增益 : 属性的 信息增益 越大 , 就越能将分类效果达到最大 ;

如 : 想要从用户数据集中找到是否能买奢侈品的用户 , 先把高收入群体划分出来 , 将低收入者从数据集中去除 , 这个收入水平的属性 ( 特征 ) , 信息增益就很大 ;

II . 信息增益示例说明

1 . 熵和信息的数据组成 :

① 数据集 ( 熵 ) : 给定一个总的数据集如 100 个用户数据 , 要从里面选择购买奢侈品的 1 个用户 ( 高收入 , 30 岁以下 ) ;

② 年龄属性 ( 信息 ) : 30 岁以上的 50 个 , 30 岁以下的 50 个 ;

③ 收入属性 ( 信息 ) : 高收入 10 个 , 低收入 90 个 ;

2 . 信息增益分析 :

① 收入属性的信息增益 : 熵是 100 个用户数据 , 代表不确定性 ; 根据收入属性来划分 , 将高收入者 10 个用户划分出来 , 买奢侈品的用户从这 10 个中选择 ; 由 100 个用户中选 1 个用户 , 变为 10 个用户中选择 1 个用户 ; 消除了 90 个用户的不确定性 ;

② 年龄属性的信息增益 : 熵是 100 个用户数据 , 代表不确定性 ; 根据收入属性来划分 , 将30 岁以下的 50 个用户划分出来 , 买奢侈品的用户从这 50 个中选择 ; 由 100 个用户中选 1 个用户 , 变为 50 个用户中选择 1 个用户 ; 消除了 50 个用户的不确定性 ;

③ 信息增益分析 : 明显 收入属性 的信息增益要高于 年龄属性 的信息增益 ;

III . 信息增益计算步骤

信息增益计算步骤 :

1 . 总熵 : 不考虑输入变量 ( 属性 / 特征 ) , 为数据集 S 中的某个数据样本进行分类 , 计算出该过程的熵 ( 不确定性 ) , 用 Entropy(S) 表示 ;

2 . 引入属性后的熵 : 使用输入变量 ( 属性 / 特征 ) X 后 , 为数据集 S 中的某个数据样本进行分类 , 计算出该过程的熵 ( 不确定性 ) , 用 Entropy(X , S) 表示 ;

3 . 信息增益 : 上面 Entropy(X , S) - Entropy(S) 的差 , 就是 X 属性 ( 特征 ) 带来的信息增益 , 用 Gain(X , S) 表示 ;

IV . 信息增益计算使用的数据集 S

数据集 : 根据年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测该用户是否会购买商品 ;

① 是否会购买商品 : 9 个会购买 , 5 个不会购买 ;

② 年龄 ( 属性 ) :

5 个小于 30 岁的人中 , 3 个不会买电脑 , 有 2 个会买商品 ;

4 个 31 ~ 39 岁的人中 , 0 个不会买电脑 , 有 4 个会买商品 ;

5 个大于 40 岁的人中 , 2 个不会买电脑 , 有 3 个会买商品 ;

年龄	收入水平	是否是学生	信用等级	是否购买商品
小于 30 岁	高收入	不是	一般	不会
小于 30 岁	高收入	不是	很好	不会
31 ~ 39 岁	高收入	不是	一般	会
40 岁以上	中等收入	不是	一般	会
40 岁以上	低收入	是	一般	会
40 岁以上	低收入	是	很好	不会
31 ~ 40 岁	低收入	不是	很好	会
小于 30 岁	中等收入	不是	一般	不会
小于 30 岁	低收入	是	一般	会
40 岁以上	中等收入	是	一般	会
小于 30 岁	中等收入	是	很好	会
31 ~ 39 岁	中等收入	不是	很好	会
31 ~ 39 岁	高收入	是	一般	会
40 岁以上	中等收入	不是	很好	不会

V . 信息增益计算公式已知条件

1 . 已知条件 ( 变量声明 ) : 声明一些计算公式中使用的变量 ;

① 总的数据集 : $S$

② 最终分类个数 : $m$ , 最终分成 $m$ 个类别 , 如是否购买商品 ( 是 , 否 ) , 就是分成 $2$ 类 , $m = 2$ ;

③ 分类表示 : $C_i ( i = 1 , \cdots , m )$ , 如 : 是否购买商品 ( 是 , 否 ) , $C_1$ 表示是 , $C_2$ 表示否 ;

④ 分类样本个数 : $s_i ( i = 1 , \cdots , m )$ , 如 : 是否购买商品 , 会购买的 ( $C_1$ ) 的样本个数是 9 人 , 表示为 $s_1 = 9$ ;

VI . 信息增益总熵计算公式

1 . 计算总熵公式 :

$\sum_{i=1}^{m} \frac{s_i}{s} log_2 \frac{s_i}{s}$

2 . 公式解析 :

① 加和式 : 这是一个 $1$ 到 $m$ 的加和式 ;

② 比值权重 : $\frac{s_i}{s}$ 表示第 $i$ 个样本数 ( $s_i$ ) 与总样本数 ( $s$ ) 比值 ;

3 . 计算示例 :

① 需求 : 判定 14 个用户是否会购买某商品 , 9 个会购买 , 5 个不购买 ;

② 计算过程 :

$\begin{array}{lcl} Entropy(S) &=&- \sum_{i=1}^{m} \frac{s_i}{s} log_2 \frac{s_i}{s} \\ \\ &=& - \frac{9}{14} log_2 \frac{9}{14} - \frac{5}{14} log_2 \frac{5}{14} \end{array}$

VII . 信息增益每个属性的熵计算公式

1 . 计算熵的属性 : 属性 $A$ 的值为 $\{ a_1 , a_2 , \cdots, a_v \}$ ;

2 . 引入属性 ( 特征 ) A 后的熵计算公式 :

$\sum_{j=1}^{v} \frac{s_j}{s} Entropy(Sj)$

3 . 公式解析 :

① 剩余的熵 : 引入属性 $A$ 后 , 属性 $A$ 是信息 , 信息会消除熵 , 这里计算消除后剩余的熵是多少 ;

② 属性解析 : 这是一个 $1$ 到 $v$ 的加和式 , $v$ 表示 $A$ 属性的取值个数 , 如 : $A$ 表示年龄 , 有 : 30岁以下( $a_1$ ) 有 5 个样本 , 31 ~ 39 岁 ( $a_2$ ) 有 4 个样本 , 40 岁以上( $a_3$ ) 有 5 个样本 , $v = 3$ ;

③ 系数说明 : 其中 $\frac{s_j}{s}$ 系数表示 , 属性 A ( 年龄特征 ) 的第 $j$ 个版本的比例 , 这个比例越高 , 样本对多 , 越重要 ;

4 . 属性的熵计算示例 :

$\begin{array}{lcl} Entropy(A ,S) &=& \sum_{j=1}^{v} Entropy(Sj) \\ \\ &=& \frac{5}{14}Entropy(2 , 3) + \frac{4}{14}Entropy(4 , 0) + \frac{5}{14}Entropy(3 , 2) \\ \\ \end{array}$

5 . 计算过程解析 :

① $\frac{5}{14}Entropy(2 , 3)$ 在 5 个小于 30 岁的人中 , 有 2 个会买商品 , 3 个不会买商品 ;

② $\frac{4}{14}Entropy(4 , 0)$ 在 4 个 31 ~ 39 岁的人中 , 有 4 个会买商品 , 0 个不会买商品 ;

③ $\frac{5}{14}Entropy(3 , 2)$ 在 5 个大于 40 岁的人中 , 有 3 个会买商品 , 2 个不会买商品 ;

VIII . 信息增益计算公式

计算 $A$ 属性的信息增益 :

$G a i n (A, S) = E n t r o p y (S) - E n t r o p y (A, S)$

IX . 信息增益计算案例

1 . 已知数据 :

① 数据集 : 计算上述数据集 $S$ 的信息增益 , 该数据集 $S$ 有 14 个样本数据 ;

② 数据集属性 : 数据集 $S$ 有 $5$ 个属性 , 年龄 , 收入 , 是否是学生 , 信用等级 , 是否购买商品 ;

③ 预测属性 : 根据年龄 , 收入 , 是否是学生 , 信用等级 $4$ 个属性 , 预测是否购买商品这个属性 ;

2 . 总熵计算 :

① 总熵 : 计算每个属性的信息增益 , 先要使用 $E n t r o p y (S)$ 公式计算出总熵 ;

① 预测属性分析 : 最后预测的属性是是否购买电脑 , 有两个取值 , 是或否 , $2$ 个取值 , 计算总熵时 , 需要计算两项 , 分别计算取值会买电脑和不会买电脑的熵 ;

③ 属性的具体分类 : 判定 14 个用户是否会购买某商品 , 9 个会购买 , 5 个不购买 ;

④ 计算过程 :

$\begin{array}{lcl} Entropy(S) &=&- \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{9}{14} log_2 \frac{9}{14} - \frac{5}{14} log_2 \frac{5}{14} \\\\ &=& 0.940 \end{array}$

3 . 计算年龄属性的熵 :

① 引入属性 : 引入年龄属性后 , 年龄属性是信息 , 信息会消除熵 , 这里计算引入年龄属性之后的熵是多少 ;

② 年龄属性分析 : 年龄属性有 3 种取值 : 30岁以下有 5 个样本 , 31 ~ 39 岁有 4 个样本 , 40 岁以上有 5 个样本 ;

③ 计算内容 :

需要分别计算 3 种取值的熵各是多少 ,

30岁以下有 5 个样本 , 需要计算这 5 个样本的熵是多少 , 5 个样本 , 有 3 个人买商品 , 2 个人不买商品 ,

④ 计算示例 :

$\begin{array}{lcl} Entropy(A ,S) &=& \sum_{j=1}^{3} Entropy(Sj) \\ \\ &=& \frac{5}{14}Entropy(2 , 3) + \frac{4}{14}Entropy(4 , 0) + \frac{5}{14}Entropy(3 , 2) \\ \\ &=& 0.694 \end{array}$

$\frac{5}{14}Entropy(2 , 3)$ 在 5 个小于 30 岁的人中 , 有 2 个会买商品 , 3 个不会买商品 ;

$\frac{4}{14}Entropy(4 , 0)$ 在 4 个 31 ~ 39 岁的人中 , 有 4 个会买商品 , 0 个不会买商品 ;

$\frac{5}{14}Entropy(3 , 2)$ 在 5 个大于 40 岁的人中 , 有 3 个会买商品 , 2 个不会买商品 ;

4 . 计算每个属性不同样本取值的熵 :

① 计算 $E n t r o p y (2, 3)$ : 5 个人 , 有 2 个人买商品 , 3 个人没有买商品 ;

$\begin{array}{lcl} Entropy(2 , 3) &=& - \sum_{i=1}^{m} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{2}{5} log_2 \frac{2}{5} - \frac{3}{5} log_2 \frac{3}{5} \end{array}$

② 计算 $E n t r o p y (4, 0)$ : 4 个人 , 有 4 个人买商品 , 0 个人没有买商品 ;

$\begin{array}{lcl} Entropy(4 , 0) &=& - \sum_{i=1}^{m} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{4}{4} log_2 \frac{4}{4} - \frac{0}{4} log_2 \frac{0}{4} \end{array}$

③ 计算 $E n t r o p y (3, 2)$ : 5 个人 , 有 3 个人买商品 , 2 个人没有买商品 ;

$\begin{array}{lcl} Entropy(3 , 2) &=& - \sum_{i=1}^{m} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \sum_{i=1}^{2} \frac{s_1}{s} log_2 \frac{s_2}{s} \\\\ &=& - \frac{3}{5} log_2 \frac{3}{5} - \frac{2}{5} log_2 \frac{2}{5} \end{array}$

5 . 计算年龄属性的信息增益 :

$\begin{array}{lcl} Gain ( A , S ) &=& Entropy(S) - Entropy(A ,S) \\\\ &=& \frac{5}{14}Entropy(2 , 3) + \frac{4}{14}Entropy(4 , 0) + \frac{5}{14}Entropy(3 , 2) - ( - \frac{3}{5} log_2 \frac{3}{5} - \frac{2}{5} log_2 \frac{2}{5} ) \\\\ &=& 0.246 \end{array}$