吃瓜教程3——决策树(西瓜书第四章)

文章介绍了决策树算法的基本原理,包括从几何角度理解的样本划分以及ID3和C4.5决策树的构建过程。ID3算法基于信息熵和信息增益选择最优属性,而C4.5为了解决信息增益对多取值属性的偏好,引入了增益率作为划分标准。整个讨论旨在提高样本的纯度,构建有效的决策树模型。
摘要由CSDN通过智能技术生成

目录

一、算法原理

从几何角度理解

最终目的

二、ID3决策树

自信息

信息熵

信息增益

ID3决策树

三、C4.5决策树

增益率

一、算法原理

从几何角度理解

根据某种准则划分特征空间

最终目的

将样本越分越“纯”

二、ID3决策树

自信息

I\left ( X\right ) = -\log_{b}p\left ( x \right )

信息熵

H\left ( X\right ) = E\left [I\left (X \right ) \right ]=-\sum_{x}p\left ( x \right )\log_{b}p\left ( x \right )(以离散型为例)
即自信息的期望,度量随机变量X的不确定性,信息熵越大越不确定;X各个取值概率均等时信息熵最大(最不确定),某个取值概率为1时信息熵最小(最确定)。

将样本类别标记y视作随机变量,各个类别在样本集合D中的占比pk(k = 1,2,...|y|)视作各个类别取值的概率,则样本集合D(随机变量y)的信息熵(底数b去2)为

Ent\left ( D\right ) = -\sum_{k = 1}^{|y|}p_{k}\log_{2}p_{k}

此时信息熵所代表的“不确定性”可以转换理解为集合样本内样本的"纯度"。

条件熵{Y的信息熵关于概率分布X的期望):

在已知X后Y的不确定性

H\left ( Y|X \right )=\sum_{x}p\left ( x \right )H\left ( Y|X=x \right )

从单个属性(特征)a的角度来看,假设其可能取值为a^{v}\epsilon \left \{ a^{1} ,a^{2},a^{3}...a^{V}\right \}的样本集合,|D^{v}|/D表示占比,那么在已知属性a的取值后,样本集合D的条件熵为

\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent\left ( D^{v} \right )

信息增益

在已知属性a的取值后y的不确定性减少的量,也即纯度的提升

Gain\left ( D,a \right ) = Ent(D) - \sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent\left ( D^{v} \right )

ID3决策树

以信息增益为准则来划分属性的决策树

a_{*} =\arg max_{a\epsilon A}Gain\left ( D,a \right )

三、C4.5决策树

增益率

信息增益原则对可能取值数目较多的属性有所偏好(例如“编号”这个较为极端的例子,不过其本是原因不是取值数目过多,而是每个区之里面所包含的样本量太少),为减少这种偏好可能带来的不利影响,C4.5决策树选择使用“增益率”代替“信息增益",增益率定义为

Gain-ration\left ( D,a \right )=\frac{Gain\left ( D,a \right )}{IV\left ( a \right )}

其中

IV\left ( a \right ) = -\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}\log_{2}\frac{|D^{v}|}{|D|}

称为属性a的"固有值”,a的可能取值个数V越大,通常IV(a)也越大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值