机器学习3决策树算法模型

本文深入探讨了决策树算法,包括其基本概念、信息熵、信息增益、C4.5算法、剪枝策略(先剪枝和后剪枝)以及在sklearn中的实现。通过对特征选择和树构建过程的详细解释,展示了决策树如何从训练数据中学习并避免过拟合。
摘要由CSDN通过智能技术生成

1.什么是决策树?

决策树(decision tree)是一种类似与流程图的树结构,其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分支代表该测试的输出,而每个树叶节点(或终端节点)存放一个类标号。数的最顶层节点是根节点。一棵典型的决策树如下图:
在这里插入图片描述
它预用户信用等级是否良好。内部的节点用矩形表示,而叶子节点用椭圆表示。有些决策树算法只产生二叉树(其中,每个内部节点正好分叉出两个其他节点),而另一些决策树算法可能产生非二叉的树。
为什么决策树分类器如此流行?决策树分类器的构造不需要任何领域知识或参数设置,是一个非参数统计,因此适合于探测式知识的发现。决策树可以处理高维数据。获取的知识用树的形式表示是直观的,并且很容易被人理解。

2.决策树的归纳

决策树是从有类标号的训练元组中学习决策的方法。
决策树模型的建立包含三个过程:
1.选择分裂特征
2.生成决策树
3.剪枝
接下来我们对这三个过程进一一进行详细的叙述:

2.1 (选择分裂特征)特征的选择

在很多我们学过的算法,例如ANN神经网络,XGboost算法等,它们都是一种“贪心算法",所谓的贪心算法就是,在每一次分裂的过程中只考虑分裂时最优的节点去选择分支,而忽略了整体可能存在的一些问题。即通过局部最优来选择到达全局最优的这么一思想。
如何评估选择的特征作为分裂的最好节点呢?随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即节点的纯度,节点的不纯度越高,即它们包含的属性就有多种,也就是划分的效果不佳。反之亦然。
这里我们引入了信息熵来计算每个节点的不纯度:
1、信息熵(entropy)是度量样本集合纯度最常用的一种指标:
Pk 表示的是当前样本集合 D 中第 k 类样本所占的比例为 Pk,Ent(D)的值越小,则 D 的
纯度就越高。
在这里插入图片描述
在信息熵指数的指导下,决策树生成过程的局部最优条件也非常好理解:即在选取属
性测试条件(attribute test condition)对某结点(数据集)进行切分的时候,尽可能选取
使得该结点对应的子节点信息熵最小的特征进行切分。换而言之,就是要求父节点信息熵
和子节点总信息熵之差要最大。
2、我们将其它定义为信息增益:在这里插入图片描述
也可由下述公式表达:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值