Decision Tree

最新推荐文章于 2022-11-28 20:14:48 发布

yonezcy

最新推荐文章于 2022-11-28 20:14:48 发布

阅读量486

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yonezcy/article/details/62889341

版权

Decision Tree

决策树是一种常见的机器学习方法，其主要用途是对新示例进行分类。我们希望从给定训练数据集学得一个模型进行分类，这个把样本分类的任务，可看作决策或判定的过程。

一般，一颗决策树包含一个根结点、若干个内部节点和若干个叶结点；叶结点对应于决策结果，其他每个节点对应于一个属性测试（可看作是某属性的某一种取值），根结点包含样本全集。决策树学习的目的是为了产生一种泛化能力强，即处理未见示例强的决策树。

决策树的生成是一个递归的过程，在决策树基本算法中，有三种情况会导致递归返回：
（1）当前结点所包含的样本属于同一类别；
（2）当前属性集为空，即样本中没有属性，没有多余的属性可以进行划分；
（3）当前结点样本集为空，即属性中没有样本，此种情况在训练过程中看似无用，但是在决策树的对新示例的分类中至关重要，体现了泛化的思想

在第（2）种情况下，我们把当前结点标记为叶结点，并将其类别设定为当前所含样本类别最多的类别；在第（3）种情况下，同样把当前结点标记为叶结点，将其类别设定为其父结点所含样本类别最多的类别。

在决策树学习中，关键是如何选择最优划分属性，一般而言，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的纯度越来越高。现在有很多种高效的决策树算法，最为出名的是ID3、C4.5、CART。

1. ID3算法

ID3算法本质上是一种贪心法，为了使样本划分的纯度越来越高，在每次选择最优属性的过程中，都选择使当前信息熵下降最快的属性进行样本划分。

1.1 信息增益

信息熵(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,...,|y|)$ ，则 $D$ 的信息熵定义为

E n t (D) = - \sum k = 1 | y | p k log 2 p k

$Ent(D) = -\sum\limits_{k=1}^{|y|}p_k\log_2p_k$

Ent(D) $Ent(D)$ 的值越小，则

D $D$ 的纯度越高。

假定离散属性 $a$ 有 $V$ 个可能的取值 {a1,a2

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Decision Tree

Decision Tree决策树是一种常见的机器学习方法，其主要用途是对新示例进行分类。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。