决策树(Decision Tree)

决策树是一种采用分而治之思想的算法,举个例子:假设样本有4个属性,标签有两类。首先我们通过算法找到一个属性,那么现在问题被分解为两个子问题:只有一个属性的问题和三个属性的问题,我们先解决了前者,再处理后者。如此反复,最终解决整个问题,从而得到了整个决策树。

在展开决策树的讨论前,我们先对符号进行定义:样本集S、属性数k、标签分类种数(v分类问题)v。

1、ID3

ID3决策树对属性进行划分的标准是信息增益(Gain),信息增益是指划分前信息熵和划分后每个子集(按权重)信息熵之和的差值。ID3选择信息增益最大的属性作为划分属性。
简单介绍一下信息熵的概念:
E n t r o p y ( S ) = ∑ i = 1 ∣ S ∣ − p i l o g 2 p i Entropy(S)=\sum^{|S|}_{i=1} -p_ilog_2p_i Entropy(S)=i=1Spilog2pi
S为样本集合,在信息熵的计算中,一般会默认 l o g 2 0 = 0 log_20=0 log20=0
  ~  
假设有一个属性A将S分为n个子集,我们记为 S 1 、 S 2 . . . S n 。 ∣ S i ∣ 代 表 S i 内 的 样 本 数 S_1、S_2...S_n。|S_i|代表S_i内的样本数 S1S2...SnSiSi
那么
G a i n ( S , A ) = E n t r o p y ( S ) − ∑ i = 1 n ∣ S i ∣ ∣ S ∣ E n t r o p y ( S i ) Gain(S,A)=Entropy(S)-\sum_{i=1}^n\frac{|S_i|}{|S|}Entropy(S_i) Gain(S,A)=Entropy(S)i=1nSSiEntropy(S

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值