【机器学习笔记】决策树: ID3/C4.5/CART算法异同

本文详细介绍了决策树的基础知识,包括信息熵、条件熵、信息增益、基尼指数等概念。接着讲解了ID3算法的流程及其优缺点,指出其倾向于选择取值较多的特征。C4.5算法通过信息增益率解决了这一问题,同时进行了剪枝处理。CART算法则采用Gini系数,支持连续型变量,并以二分法进行分裂。最后讨论了剪枝策略,包括前剪枝和后剪枝中的代价复杂性剪枝法。
摘要由CSDN通过智能技术生成

一、信息论基础

信息熵
一个集群中, 一类数据的出现概率假设为p,那么它所对应的信息量为-log p。考虑当p=1时,表示该集群中只有一个分类,那么这类集群包含的信息量为0。反之让p接近0时,表示该数据为小概率事件,那么这类时间发生所包含的信息量将会巨大。
对于整个集群的信息量,是由各类数据的权重累加而成,公式即为:
H ( X ) = ∑ i − P ( x i ) l o g P ( x i ) H(X)=\sum_{i}^{} -P(x_{i})log P(x_{i}) H(X)=iP(xi)logP(xi)
这也被称为集群的信息熵

条件熵
如果集群X有个映射Y,那么还能够做一个条件概率的信息熵。
我们假设,映射Y,或者说标签Y,有n个分类,分别为 Y 1 , Y 2 . . . Y n {Y_{1},Y_{2}...Y_{n}} Y1,Y2...Yn。对于第i个分类下,又对应了k个X集群,即:
X = X 1 , X 2 . . . X k X={X_{1},X_{2}...X_{k}} X=X1,X2...Xk
那么就有 Y = Y i Y=Y_{i} Y=Yi是的条件熵 H ( X ∣ Y i ) = ∑ i − P ( x i ) l o g P ( x i ) H(X \mid Y_{i})=\sum_{i}^{} -P(x_{i})log P(x_{i}) H(XYi)=iP(xi)logP(xi)
再将所有的 Y i Y_{i} Yi按比例累加起来,就得到了整个函数集的条件熵了。
H ( X ∣ Y ) = ∑ y ∈ Y P ( y ) H ( X ∣ Y = y ) H(X \mid Y)=\sum_{y \in Y}^{} P(y)H(X \mid Y=y) H(XY)=yY

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值