机器学习-决策树

决策树模型通过内部节点的属性测试和叶节点的预测结果进行学习和预测。信息熵和信息增益用于衡量样本纯度和划分效果,但信息增益可能偏好分支多的属性,因此引入增益率进行规范化。基尼指数是另一种划分属性的选择标准。决策树的剪枝,如预剪枝和后剪枝,是防止过拟合的关键。文章还讨论了处理缺失值的方法,包括样本赋权和权重划分。
摘要由CSDN通过智能技术生成

决策树模型

每个“内部节点”对应于某个属性上的“测试”(test);每个分支对应于该测试的一种可能结果(即该属性的某个取值);每个“叶节点”对应于一个预测结果

学习过程:通过对训练样本的分析来确定“划分属性”(即内部节点对应的属性)

预测过程:将测试示例从根节点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶节点

策略:分而治之

信息增益

信息熵是度量样本集合"纯度"最常用的一种指标。

信息增益以信息熵为基础,计算当前划分对信息熵所造成的变化。

【西瓜书例题】

增益率

信息增益如果只考虑到信息量的获得,其实一定程度上是偏好了分支多的属性,因为分支越多,分到每个分支上的样本越少,那它自然相对分支少的会分得更"干净",这样的偏好使得模型的泛化能力差,因此需要改进 -- 于是引入了增益率。

增益率分母上的IV(a)其实起到了一个规范化的作用,把我们原先不可比较的东西变得可比。

(规范化的一个特殊形式是归一化,即将属性的值规范化到0-1之间)

启发式思想 -- 先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的。

基尼指数

再候选属性中,选择使划分后基尼指数最小的属性。

决策树的剪枝

划分选择的各种准则虽然对决策树的尺寸有较大的影响,但是对泛化能力的影响很有限。

剪枝方法和程度对决策树泛化性能的影响更为显著 -- 剪枝是减少决策树过拟合的根本方法

预剪枝 -- 提前终止某些分支的增长

后剪枝 -- 生成一棵完全数后再回头剪枝

如何评估剪枝前后决策树的优劣?-- 第二章 模型评估

缺失值处理

使用带缺失值的样例需解决两个问题:

Q1 -- 如何进行划分属性选择?

Q2 -- 给定划分属性,如果样本在该属性上的值缺失,如何进行划分?

基本思路:样本赋权,权重划分。

step1:学习开始时,根节点包含样例集D中全部样例,权重均为1

step2:计算属性的信息熵,样例总数为无缺失值的样例子集

step3:计算属性在样本子集和在完整样本集上的信息增益

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

N._

piu~打个赏吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值