《西瓜书》决策树

最新推荐文章于 2023-10-12 20:28:41 发布

thisissally

最新推荐文章于 2023-10-12 20:28:41 发布

阅读量587

点赞数 1

分类专栏：机器学习监督学习文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45366750/article/details/118929635

版权

机器学习同时被 2 个专栏收录

15 篇文章 3 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

一、决策树基本概念

（一）组成部分：

1.根节点：第一个被选中的最优划分属性

2.内部节点：属性测试

3.叶节点：决策结果

（二）基本思想：

1.分而治之：

将一个问题分成多个和原问题相似的小问题，递归解决小问题，再将结果合并以解决原来的问题。

2.递归：

调用自身，把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。

二、基本流程

（一）根据属性划分样本（影响决策树尺寸，对泛化性能影响小）

1. 思路

a.选择划分属性的准则
b.选择每个节点的最优划分属性
c.根据每个节点的属性划分样本

2.划分准则

（1）信息增益

信息熵：度量样本集合纯度，也就是相同类别所占比例。信息熵越小，样本集合纯度越高。（log的作用是减小方差）在这里插入图片描述
信息增益：使用这个属性来划分样本，会使得样本纯度提升，信息熵减小。
在这里插信息增益：入图片描述

例子：ID3决策树

适用偏好：由于gain与属性a的第v个取值所占的样本比例相关，所以对取值数目较多的属性有所偏好，可能带来不利影响。

（2）增益率

IV(a)：
在这里插入图片描述
增益率：

例子：C4.5算法先选择信息增益高于其他的属性，再选择增益率最高。

适用偏好：相当于对gain做标准化。对可取值数目较少的属性有偏好。

（3）基尼系数

基尼系数：度量数据集的纯度。随机抽取两个样本，不一致的概率。gini越小，数据集的纯度越高。
在这里插入图片描述

基尼指数：度量了根据属性a划分后的数据集纯度。
在这里插入图片描述

例子：CART决策树同时适用于分类和回归。

（二）剪枝处理（对决策树泛化性能影响大）

不剪枝很可能导致过拟合，从而泛化性能很差。因此适当剪枝可以提升泛化性能。

1.目的：

通过主动去掉分支来减少过拟合的风险。（过拟合：训练样本学的太好了，以至于把训练集自身的特点当作所有数据的一般性质，也就是过度学习。）

2.类别：

（1）预剪枝

思想：在决策树生成过程中，对每个结点进行性能评估。（如留出法）
优点：节省时间。
缺点：可能导致欠拟合，也会导致泛化性能欠佳。

（2）后剪枝

思想：先生成完整的树，然后自下而上对所有的内部结点逐一考察。
优点：欠拟合风险很小，泛化性能往往优于预剪枝。
缺点：时间比未剪枝和预剪枝多得多。

三、其他-连续值与缺失值

（一）连续属性离散化

二分法：C4.5
连续属性可以同时作为父节点和子节点

（二）缺失值

四、其他-多变量决策树

传统决策树：分类边界轴平行，不适用于分类边界复杂的情况。
在这里插入图片描述
多变量决策树：
内部节点的划分不是根据单一指标，而是多个指标的加权结果。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
《西瓜书》决策树

一、决策树基本概念（一）组成部分：1.根节点：2.内部节点：属性测试3.叶节点：决策结果（二）基本思想：1.分而治之？2.递归？二、基本流程（一）根据属性划分样本（影响决策树尺寸，对泛化性能影响小）目标：1.选择划分属性的准则（1）信息增益（2）增益率（3）基尼系数2. 选择每个节点的最优划分属性3.根据每个节点的属性划分样本（二）剪枝处理（对决策树泛化性能影响大）1.目的2.类别三、其他-连续值与缺失值四、其他-多变量决策树...
复制链接

扫一扫

专栏目录

thisissally CSDN认证博客专家 CSDN认证企业博客

码龄5年

100: 原创

33万+: 周排名

19万+: 总排名

8万+: 访问

: 等级

1048: 积分

12: 粉丝

24: 获赞

7: 评论

242: 收藏

私信

关注

热门文章

分类专栏

特征工程 7篇
建模 9篇
SQL 7篇
算法 25篇
数据分析 4篇
机器学习 15篇
面试 1篇
深度学习 12篇
NLP 4篇
监督学习 4篇
集成学习 1篇
模型评估 1篇
非监督学习 1篇

最新评论

标准化——python
白贵文: 训练集和测试集的标准化都需要fit吗？
模型的加权融合
lcx_77778: 为什么用1-mae呢？为什么要加这个1
leetcode刷题——二叉树例题
thisissally: 我也刚开始学呢，一起加油！
leetcode刷题——二叉树例题
Xd聊架构: 给大佬递茶，最近也在学习相关知识，希望得到大佬的肯定和支持!
《西瓜书》决策树
大家一起学编程（python）: 大佬666

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。