【学习笔记】西瓜书机器学习之第四章:决策树

本文介绍了决策树的基础知识,包括信息熵、信息增益、信息增益率和基尼系数等选择最优划分属性的方法,并讨论了如何在sklearn中实现决策树。此外,还探讨了防止过拟合的剪枝处理,分为预剪枝和后剪枝两种策略。
摘要由CSDN通过智能技术生成

1.什么是决策树?

决策树是一种常见的机器学习方法,以二分类为例,根据一系列的子决策来判断出样本是否为正例。 决策的过程是选择一个属性,来进行判断。以西瓜问题为例,假设已经训练好了一个模型。我们有一个西瓜,先看它的色泽,色泽为青绿色,然后一步一步往下走,最后得到这个西瓜是否为正例(好瓜)
在这里插入图片描述

2. 三种选择最优化分属性的方法

现在我们知道了决策树是如何工作的,但是该如何选择每个子决策所对应的属性呢?“纯度”将帮助我们解决这一问题,我们当然希望决策树分支节点所包含的样本尽可能属于同一类别,因此纯度越高越好。

2.1 信息增益(越大越好)

信息增益 = 信息熵-条件熵

条件熵:在已知样本属性a的取值下,度量样本集合纯度的一种指标。j是代表属性a的第j个值。
图一
著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性的。信息增益越大,意味着纯度提升越大。但是信息增益准则对可取数目较多的属性有所偏好。比如说每一个样本都具有编号,将编号加入到学习器中来的时候,毫无疑问在选择最优化分属性的时候编号将被选择,但是这样的模型完全不具备泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值