决策树信息增益|信息增益比率|基尼指数实例

最新推荐文章于 2024-04-23 14:55:08 发布

我是女生，我不做程序媛

最新推荐文章于 2024-04-23 14:55:08 发布

阅读量2.5k

点赞数 7

分类专栏：数据分析与机器学习文章标签：信息熵决策树机器学习

本文链接：https://blog.csdn.net/weixin_44644621/article/details/114964066

版权

数据分析与机器学习专栏收录该内容

23 篇文章 6 订阅

订阅专栏

今天以周志华老师的西瓜为例，复盘一下三种决策树算法。

文章目录

信息增益（ID3算法）
信息增益比率（C4.5算法）
基尼指数（CART算法）

数据：

信息增益（ID3算法）

信息熵表示信息的混乱程度，熵越大数据越混乱。分类的目的是为了使同一类别的数据尽可能“纯净”，因此追求尽量小的信息熵。
信息增益表示分类前后信息熵的差值。分类前信息熵是定值，分类后信息熵越小，信息增益越大。因此我们追求尽量大的信息增益值。

entropy(D)表示未分类时数据D的信息熵:
$entropy(D)=-\sum_{i=1}^k p(c_i)log_2p(c_i)$
其中， $c_i$ 表示样本的分类变量取i的概率。

entropy(D,A)表示按照属性A分类后数据D的信息熵：
$entropy(D,A)=\sum_{i=1}^m\frac{|D_i|}{|D|}entropy(D_i)$
其中， $\frac{|D_i|}{|D|}$ 表示样本的描述变量A取 $D_i$ 的概率。

信息增益即信息熵的差值:
$g a i n (D, A) = e n t r o p y (D) - e n t r o p y (D, A)$

以西瓜为例，分类变量为是否为好瓜，描述变量为前面6个属性。

$entropy(D)=-\frac{8}{17}log_2\frac{8}{17}-\frac{9}{17}log_2\frac{9}{17}=0.998$

$\begin{aligned} entropy(D,色泽)&=-\frac{6}{17}entropy(青绿)-\frac{6}{17}entropy(乌黑)-\frac{5}{17}entropy(浅白)\\[2ex] &=-\frac{6}{17}[-\frac{3}{6}log_2\frac{3}{6}-\frac{3}{6}log_2\frac{3}{6}]-\frac{6}{17}[-\frac{4}{6}log_2\frac{4}{6}-\frac{2}{6}log_2\frac{2}{6}]-\frac{5}{17}[-\frac{1}{5}log_2\frac{1}{5}-\frac{4}{5}log_2{4}{5}]\\[2ex] &=0.889 \end{aligned}$
$g a i n (D, 色泽) = e n t r o p y (D) - e n t r o p y (D, 色泽) = 0.109$

同理，计算其他属性的信息增益，最终得出“纹理”的信息增益最大，因此选择它作为分裂属性。

信息增益比率（C4.5算法）

由信息熵的计算公式可以看出，信息增益有一个先天缺陷：更倾向于选取分类个数多的属性。若有一个分类变量，对每一个样本都取不同值，那么每个样本为一个类别，每个类别的信息熵都是0，信息熵最小，但显然是不合理的。因此，提出信息增益比率进行调整。
$gain\_ratio(D,A)=\frac{gain(D,A)}{splitInfo(D,A)}$
$spliInfo(D,A)=-\sum_{i=1}^m\frac{|D_i|}{|D|}log_2(\frac{|D_i|}{|D|})$
信息增益比率即信息增益除以一个“分类信息熵”，这个分母其实就是把描述变量A当做分类变量时计算得出的信息熵值。可以看出，类别越多，分类信息熵越大。

还是以西瓜为例：

$spliInfo(D,色泽)=-\frac{6}{17}log_2\frac{6}{17}-\frac{6}{17}log_2\frac{6}{17}-\frac{5}{17}log_2\frac{5}{17}=0.613$

$gain\_ratio=\frac{0.109}{0.613}=0.178$

类似的可以计算出其他属性的信息增益比率。
需要注意的是，增益率对类别数量少的属性有所偏好，因此，C4.5算法并不直接选择增益率最大的属性进行分裂，而是先选出信息增益高于平均水平的属性，在从这些属性中选择信息增益率最高的，其实就是对两种方法的缺点进行了一下权衡。

基尼指数（CART算法）

值得一提的是，CART算法要求决策树为二叉树，当分类变量大于2个的时候，将一个类别视为一类，其余类别视为另一类，计算基尼指数选取最优的划分方法。

基尼指数表示随机抽取两个样本，分类变量值不一致的概率，概率越大表示纯度越低。因此，追求的基尼指数越小越好。
$Gini(D)=\sum_{i=1}^kp_k(1-p_k)=1-\sum_{i-1}^kp_k^2$
按照描述变量A进行分类后，基尼指数为：
$Gini(D,A)=\sum_{i=1}^m\frac{|D_i|}{|D|}Gini(D_i)$

再看西瓜的例子：
以色泽分类后，基尼指数
$\begin{aligned} Gini(D,色泽)&=\frac{6}{17}Gini(青绿)+\frac{6}{17}Gini(乌黑)+\frac{5}{17}(浅白)\\[2ex] &=\frac{6}{17}[1-(\frac{3}{6})^2-(\frac{3}{6})^2]+\frac{6}{17}[1-(\frac{4}{6})^2-(\frac{2}{6})^2]+\frac{5}{17}[1-(\frac{1}{5})^2-(\frac{4}{5})^2] \end{aligned}$
同理算出其他属性的GIni指数，选取最小的作为分类属性即可。

手动复盘，如有错误，敬请指正。

我是女生，我不做程序媛

关注

7
点赞
踩
36

收藏

觉得还不错? 一键收藏
5
评论
决策树信息增益|信息增益比率|基尼指数实例

今天以周志华老师的西瓜为例，复盘一下三种决策树算法。文章目录信息增益（ID3算法）信息增益比率（C4.5算法）基尼指数（CART算法）数据：信息增益（ID3算法）信息熵表示信息的混乱程度，熵越大数据越混乱。分类的目的是为了使同一类别的数据尽可能“纯净”，因此追求尽量小的信息熵。信息增益表示分类前后信息熵的差值。分类前信息熵是定值，分类后信息熵越小，信息增益越大。因此我们追求尽量大的信息增益值。entropy(D)表示未分类时数据D的信息熵:entropy(D)=−∑i=1kp(ci)log2
复制链接

扫一扫