机器学习-决策树

最新推荐文章于 2023-05-09 16:25:41 发布

ningyuanfeng

最新推荐文章于 2023-05-09 16:25:41 发布

阅读量149

点赞数

文章标签：决策树机器学习

本文链接：https://blog.csdn.net/weixin_44319196/article/details/102762073

版权

西瓜书-第四章决策树

#西瓜书决策书主要包括内容：信息熵，信息增益，增益率，基尼指数，预剪枝，后剪枝，连续值处理，缺失值处理，多变量决策树。

决策树很多内容只是将公式记录上，并没有具体的案例。
信息熵信息增益增益率关系：
信息熵，就是表示样本纯度的参数。
信息增益，按照某个属性划分信息，能够得到更好效果的值。
信息率，信息增益/属性的“固定值“。（因为信息增益本身缺陷，需要用信息增益去弥补）

信息熵

在这里插入图片描述
Pk=某一类样本数量/整体样本数量。
例：现在有17个瓜，好瓜8个，坏瓜9个。
好瓜k=1:P1=8/17
坏瓜k=2:P2=9/17
y:样本集有多少类，好瓜和坏瓜就是两类，y=2。
信息熵的特点：信息熵越小，D的纯度越高。（越小越纯）

看了李航老师的《统计学习方法》第二版，对信息熵的理解，有点新的看法：
信息熵定义：表示随机变量不确定性大小的度量。
熵分为：熵和条件熵
条件熵：条件熵Ent(Y|Xi）表示，在已知随机变量Xi的条件下，随机变量Y的不确定性。
熵：Ent（Y)表示随机变量的不确定性。
信息增益g(D,A)的信息增益表示，集合D的经验熵与特征A给定条件下D的条件经验熵之差，即特征A使得数据D的不确定性减小的程度。
经验熵和条件经验熵：当熵和条件熵的概率有数据估计得到，所对一个的就是经验熵和条件经验熵。

针对上面的定义通俗的理解。
熵是数据集的混乱程度。而条件熵是在给一个特征的值后，数据集的混乱程度。如果熵和条件熵都是由数据估计出来的，这就是经验熵和条件经验熵。在特征值给出前后，混乱程度的减小量，就是信息的增益。

信息增益

在这里插入图片描述
Gain(D,a):表示在属性a下的信息增益。
属性a，表示瓜的色泽：有青绿乌黑浅白三种。
其中青绿6个，好瓜3个，坏瓜3个。
乌黑有6个，好瓜4个，坏瓜2个。
浅白有5个，好瓜1个，坏瓜4个。
公式解释：整体样本的信息熵-求和{（每种颜色的总数/整体数量）*每种颜色信息熵}
理解:信息增益，按照该特征划分前后，信息熵的变化值。
信息增益越高，则用该增益划分后，样本的纯度提升越大。