机器学习-决策树

西瓜书-第四章 决策树

#西瓜书决策书主要包括内容:信息熵,信息增益,增益率,基尼指数,预剪枝,后剪枝,连续值处理,缺失值处理,多变量决策树。

决策树很多内容只是将公式记录上,并没有具体的案例。
信息熵 信息增益 增益率关系:
信息熵,就是表示样本纯度的参数。
信息增益,按照某个属性划分信息,能够得到更好效果的值。
信息率,信息增益/属性的“固定值“。(因为信息增益本身缺陷,需要用信息增益去弥补)

信息熵

在这里插入图片描述
Pk=某一类样本数量/整体样本数量。
例:现在有17个瓜,好瓜8个,坏瓜9个。
好瓜k=1:P1=8/17
坏瓜k=2:P2=9/17
y:样本集有多少类,好瓜和坏瓜就是两类,y=2。
信息熵的特点:信息熵越小,D的纯度越高。(越小越纯)

看了李航老师的《统计学习方法》第二版,对信息熵的理解,有点新的看法:
信息熵定义:表示随机变量不确定性大小的度量。
熵分为:熵和条件熵
条件熵:条件熵Ent(Y|Xi)表示,在已知随机变量Xi的条件下,随机变量Y的不确定性。
熵:Ent(Y)表示随机变量的不确定性。
信息增益g(D,A)的信息增益表示,集合D的经验熵与特征A给定条件下D的条件经验熵之差,即特征A使得数据D的不确定性减小的程度。
经验熵和条件经验熵:当熵和条件熵的概率有数据估计得到,所对一个的就是经验熵和条件经验熵。

针对上面的定义通俗的理解。
熵是数据集的混乱程度。而条件熵是在给一个特征的值后,数据集的混乱程度。如果熵和条件熵都是由数据估计出来的,这就是经验熵和条件经验熵。在特征值给出前后,混乱程度的减小量,就是信息的增益。

信息增益

在这里插入图片描述
Gain(D,a):表示在属性a下的信息增益。
属性a,表示瓜的色泽:有青绿 乌黑 浅白三种。
其中青绿6个,好瓜3个,坏瓜3个。
乌黑有6个,好瓜4个,坏瓜2个。
浅白有5个,好瓜1个,坏瓜4个。
公式解释:整体样本的信息熵-求和{(每种颜色的总数/整体数量)*每种颜色信息熵}
理解:信息增益,按照该特征划分前后,信息熵的变化值。
信息增益越高,则用该增益划分后,样本的纯度提升越大。

缺点:如果有一个属性,每一个样本都显示一种属性,该属性的信息增益一定是最大的。因为,用该属性划分后,每个节点只有一个样本,纯度最大。
所以,信息增益对属性数量多的属性更偏好。
为了消除该问题,引入了信息增益率。

信息增益率

在这里插入图片描述
IV(a)为属性a的"固有值"
在这里插入图片描述
缺点:信息增益率对属性数目少的值更偏爱,所以也不能直接使用。
解决方法:先用信息增益计算出一组高于平均值的信息增益,然后在这组信息增益中,找到信息增益率最大的值。

##未完。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值