机器学习中决策树的一些知识

决策树(decision tree) 是一类常见的机器学习方法
在这里插入图片描述
决策树的生成是一个递归过程,一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果?其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列。
有三种情形会导致递归返回: (1) 当前结点包含的样本全属于同一类别,无需划分; (2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分; (3) 当前结点包含的样本集合为空,不能划分.
我们可用信息增益来进行决策树的划分属性选择,即在圈4.2 算法第8 行选择属性在这里插入图片描述
剪枝(pruning) 是决策树学习算法对付"过拟合"的主要手段.可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有"预剪枝" (prepruning) 和"后剪枝,后剪枝先从训练集生成一棵完整决策树,预剪枝基于"贪心"本质禁止这些分支展开 给预剪枝决策树带来了欠拟含的风险
连续属性的可取值数目不再有限, 因此不能直接根据连续属性的取值来对结 进行划分,,若当前结点划分属性为连续属性?该属性还可作为其后代结点的划分属性.
现实任务中常会遇到不完整样本,即样本的某些属性值缺失.我们需解决两个问题: (1) 如何在属性值缺失的情况 进行划分属性选择?(2) 给定划分属性?若样本在该属性上的值缺失,如何对样本进行划分?
在学习任务的真实分类边界比较复杂时,必须使用很多段划分才能获得较好的近似,若能使用斜的划分边界,如图 4.12 中红色线段所示,则决策树模型将大为简化"多变量决策树" (multivariate decision tree) 就是能实现这样的"斜划分"甚至更复杂划分的决策树
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值