实验2---决策树ID3

最新推荐文章于 2024-08-03 12:30:52 发布

xzc23333333

最新推荐文章于 2024-08-03 12:30:52 发布

阅读量131

点赞数

文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/xzc23333333/article/details/131513935

版权

掌握决策树ID3算法的原理，通过增益熵实现手工推导的过程。

参考案例：
https://cuijiahua.com/blog/2017/11/ml_2_decision_tree_1.html
机器学习实战教程（二）：决策树基础篇之让我们从相亲说起

决策树 ID3 简介

决策树(decision tree)是一种基本的分类与回归方法。ID3是其中一种经典的决策树算法。它通过计算特征的信息增益熵来选择最佳的特征来进行划分。

优缺点
优点:计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感可以处理不相关特征数据。
缺点:可能会产生过度匹配的问题。

ID3算法原理
通过增益熵推导ID3算法的手工过程：
计算原始数据集的熵（Entropy）作为初始熵值。熵的计算公式为：H(D)=-Σ(p(xi) * log2(p(xi)))，其中p(xi)表示数据集中分类为xi的样本的概率。
计算每个特征的信息增益熵（Gain）。信息增益熵表示给定特征后，数据集的熵减少的程度，可以通过计算原始熵与特征划分后的加权熵之差来表示。
选择信息增益熵最大的特征作为划分特征。选择信息增益熵最大的特征就是选择使得数据集熵减少最多的特征。这是因为信息增益熵最大的特征能够提供最多的关于目标变量的信息。
根据选择的特征进行数据集划分。将数据集根据选定的特征的不同取值进行划分，得到新的子集。

对于每个子集，重复步骤1-4，直到划分结束。递归地对每个子集应用上述过程，直到满足停止条件，例如所有样本都属于同一类别，或者没有更多的特征可供划分。

决策树的构建

决策树的构建可以概括为三个步骤：特征选择、决策树的生成和修剪。

1、特征选择
特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率，如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的标准是信息增益(information gain)或信息增益比，为了简单，本文使用信息增益作为选择特征的标准。
希望通过所给的训练数据学习一个贷款申请的决策树，用于对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请

特征选择就是决定用哪个特征来划分特征空间。比如，我们通过上述数据表得到两个可能的决策树，分别由两个不同特征的根结点构成
在这里插入图片描述
什么是信息增益呢？在划分数据集之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择

1、香农熵

熵定义为信息的期望值。在信息论与概率统计中，熵是表示随机变量不确定性的度量。如果待分类的事物可能划分在多个分类之中，则符号xi的信息定义为（其中p(xi)是选择该分类的概率。）：
在这里插入图片描述
通过上式，我们可以得到所有类别的信息。为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值(数学期望)，通过下面的公式得到：

期中n是分类的数目。熵越大，随机变量的不确定性就越大。根据此公式计算经验熵H(D)，以下是一组实例，贷款申请样本数据表。分析贷款申请样本数据表中的数据。
在这里插入图片描述
根据表中的数据统计可知，在15个数据中，9个数据的结果为放贷，6个数据的结果为不放贷。所以数据集D的经验熵H(D)为：

总结：如何选择特征，需要看信息增益。也就是说，信息增益是相对于特征而言的，信息增益越大，特征对最终的分类结果影响也就越大，我们就应该选择对最终分类结果影响最大的那个特征作为我们的分类特征。

2、信息增益

在了解信息增益之前需要了解条件熵的概念。
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵(conditional entropy)H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：
在这里插入图片描述
同理，当条件熵中的概率由数据估计(特别是极大似然估计)得到时，所对应的条件熵称为条件经验熵。

明确了条件熵和经验条件熵的概念。接下来，让我们说说信息增益。前面也提到了，信息增益是相对于特征而言的。所以，特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：
在这里插入图片描述
一般地，熵H(D)与条件熵H(D|A)之差称为互信息(mutual information)。

设特征A有n个不同的取值{a1,a2,···,an}，根据特征A的取值将D划分为n个子集{D1,D2，···,Dn}，|Di|为Di的样本个数。记子集Di中属于Ck的样本的集合为Dik，即Dik = Di ∩ Ck，|Dik|为Dik的样本个数。于是经验条件熵的公式可以些为：
在这里插入图片描述

在这里插入图片描述
通过比较计算出的信息增益大小，由于特征A3(有自己的房子)的信息增益值最大，所以选择A3作为最优特征。

2、决策树的生成

通过以上结果将有无房子作为根节点，进行迭代，一层层判断最大的信息增益的条件并作为新的子节点，直至不能在进行迭代。
最终生成的决策树如下图（有点草，没来得及及画电子版，有时间改上）
在这里插入图片描述

3、决策树的修剪

由于采用的ID3算法，无剪枝策略，容易过拟合。

有修剪策略的决策树算法有：C4.5、CART（Classification and Regression Tree）。

xzc23333333

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
实验2---决策树ID3

决策树(decision tree)是一种基本的分类与回归方法。ID3是其中一种经典的决策树算法。它通过计算特征的信息增益熵来选择最佳的特征来进行划分。优缺点优点:计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感可以处理不相关特征数据。缺点:可能会产生过度匹配的问题。ID3算法原理通过增益熵推导ID3算法的手工过程：计算原始数据集的熵（Entropy）作为初始熵值。
复制链接

扫一扫