机器学习算法7_决策树+ID3

最新推荐文章于 2024-07-13 17:34:46 发布

修修修秀

最新推荐文章于 2024-07-13 17:34:46 发布

阅读量339

点赞数 1

分类专栏：算法文章标签：决策树 ID3 信息增益熵

本文链接：https://blog.csdn.net/weixin_44341114/article/details/88815939

版权

算法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

机器学习算法第七篇

主要内容:决策树算法+ID3算法+熵+条件熵+信息增益(熵减)

通俗的讲决策树:

算法目的:

求通过训练集计算出一个最合适的决策树模型,并可以对输入的样本进行分类

决策树原理:

相同的原因会生产相同类似的结果---->相同的输入特征会产生相同或相似的输出y

决策树的结构:

由节点和有向边组成,内部节点表示一个特征或属性,叶子节点表示一个类

分类的过程:

从根节点开始,根据节点的分类标准(该标准在决策树生成的时候已经决定了)对样本某一特征进行测试,根据结果,将样本分配到相应的子节点
循环进行第1步,直到叶子节点
根据叶子节点的分类标记决定该样本的分类(叶子节点的分类由决策树生成的时候决定)

决策树的构建(训练阶段):

构建根节点,将所有训练数据存放在根节点
选择一个最优的特征,按照这个特征将训练数据集分割成子集,使得各个子集是最好的分类
(这个特征的分类标准即为该节点的分类标准,ID3算法对选择最优的特征采用的是信息增益最大的方法)
如果某个子集可以很好的对数据进行分类,则对该子集建立叶子节点.
(将子集中数量最多的y的分类标记为叶子节点的分类标记)
如果某子集不能很好的对自己的数据进行分类,则继续重复2,3步 ,直到所有的数据都被分配到叶子节点

ID3算法:

算法概念:

ID3算法在决策树构建的时候,选择最优特征的一种算法,它的核心是在决策树各个节点应用信息增益准则选择特征

信息增益准则:

对训练集数据,计算他们的每个特征的信息增益,并比较他们的大小,选择信息增益最大的特征

信息增益的计算:

为了更好的计算,先定义下熵和条件熵

熵:表示随机变量不确定性的度量

$设X是一个取有限值的离散随机变量,其概率分布P(X=x_i)=p_i,i=1,2,3...n \\则关于随机变量X的熵定义为$
$H(X)=-\sum_{i=1}^np_ilogp_i\tag1$
$通常(1)式中对数取2或e为底, 若p_i=0,则定义-log0=0$
$由 (1) 式我们可以知道熵只与 X 的分布有段, 所有我们也称 X 的熵为 H (p)$

条件熵H(X|Y):表示在一直随机变量X的条件下随机变量Y的不确定性

$设有随机变量(X,Y),其联合概率分布为P(X=x_i,Y=y_j)=p_{ij}, i=1,2,3,..,n;j=1,2,3...,m\\ 则X给定的情况下Y的条件熵的定义为:$
$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)\tag2$

信息增益表示:得知特征X的信息而使得类Y的信息不确定性减少的程度

$定义特征 A 对训练集 D 的信息增益 g (D, A) 为 :$
$g(D,A)=H(D)-H(D|A)\tag3$

利用信息增益准则挑选特征的原理:

$)\\ 而条件熵H(D|A)表示在特征A确定的情况下对数据集D进行分类的不确定性(一次比较中,我们选条件熵较小的特征 )\\ 那么他们的差,就表示由特征A发生而使得对数据集D的分类不确定性减少的程度(即A发生对D的造成的熵减)\\ 显然信息增益(熵减)最大的特征具有更强的分类能力,所以我们选信息增益最大(熵减)最大的特征)$

为进一步理解,展开熵 $H (P)$ 与条件熵 $H (Y ∣ X)$ 的具体计算公式:

首先定义下公式所用的小示例

$设训练集数据D,则\vert D\vert表示样本总个数$
$设训练集里有K个分类,k=1,2,...,K,则\vert C_k\vert为属于k类的样本总数,即\sum^K_{i=1}\vert C_k\vert=\vert D\vert$
$设特征A有n个不同的取值\{a_1,a_2...a_n\},则根据A的取值可将D划分为n个子集D_1,D_2...D_n,\\ \vert D_i\vert为属于D_i的样本总数即\sum^n_{i=1}\vert D_i\vert=\vert D\vert$
$设子集D_i中的同时也属于类C_k的样本集合,记做D_{ik},即D_{ik}=D_i\cap C_k,记\vert D_{ik}\vert为集合D_{ik}样本的个数$

计算数据集D的熵:

$H(D)=-\sum_{k=1}^K\frac{\vert C_k\vert}{\vert D\vert}log_2\frac{\vert C_k\vert}{\vert D\vert}$

计算特征A对数据集D的条件熵:

$\sum_{i=1}^n\frac{\vert D_i\vert}{\vert D\vert}H(D_i)= \sum_{i=1}^n\left( \frac{\vert D_i\vert}{\vert D\vert} \sum_{k=1}^K\frac{\vert D_{ik}\vert}{\vert D_i\vert}log_2\frac{\vert D_{ik}\vert}{\vert D_i\vert} \right)\tag4$

计算特征A对数据集D的信息增益:

$g (D, A) = H (D) - H (D ∣ A)$

修修修秀

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法7_决策树+ID3

机器学习算法第七篇主要内容:决策树算法+ID3算法+熵+条件熵+信息增益(熵减)通俗的讲决策树:算法目的:求通过训练集计算出一个最合适的决策树模型,并可以对输入的样本进行分类或回归预测决策树原理:相同的原因会生产相同类似的结果---->相同的输入特征会产生相同或相似的输出y决策树的结构:由节点和有向边组成,内部节点表示一个特征或属性,叶子节点表示一个类...
复制链接

扫一扫