周志华机器学习-决策树

馒头没有馅儿yolo

于 2022-12-20 12:14:19 发布

阅读量306

点赞数

分类专栏：机器学习文章标签：决策树人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45448833/article/details/128380561

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

周志华机器学习-决策树

第一章绪论
 第二章模型评估与选择
 第三章线性模型
第四章决策树
第五章支持向量机
第六章神经网络
第七章贝叶斯分类器
第八章集成学习和聚类

文章目录

周志华机器学习-决策树
一、决策树基本流程？
二、信息增益划分
三、其他属性划分准则
- - 增益率【C4.5算法】
  - 基尼指数【CART算法】
四、决策树的剪枝
五、缺失值的处理

一、决策树基本流程？

请添加图片描述

决策树的策略：分而治之

对三种“停止”的情况处理：

递归返回
对观察到的数据，根据后验概率进行划分（当前节点谁多就是谁）
对父节点的数据当作样本的先验概率（上一个节点谁多就是谁）

决策树算法的核心：如何判断怎样的属性是最适合进行划分的

二、信息增益划分

请添加图片描述
信息熵：度量样本集合纯度纯度的指标–还需要多少属性才能把当前样本划分干净，值越小代表划分得约干净

请添加图片描述
信息增益【ID3算法】：当前的划分对信息熵造成的变化

西瓜例子

先计算根节点的信息熵

以色泽为属性计算信息熵，其带来的信息增益=根节点信息熵-划分后的信息熵

继续计算其他划分属性的信息增益，可见，“纹理”属性带来的信息增益最大，可以被选为划分属性

三、其他属性划分准则

增益率【C4.5算法】

如若只考虑信息增益，则在属性越多，分得越细的情况，其增益越大，但这种情况的泛化性能会变差。（如，将特定的电话号码对应地址，则是一一对应的关系，但其不具备泛化性能）

于是，引入了增益率的概念
请添加图片描述

分支数越多，IV越大–避免不断增加属性以增大信息增益
理想的情况，分得纯度越大，但所需的分支越小
但并非增益率最大的情况得到的决策树最完美，难以绝对正确地平衡信息增益和增益率–启发式用以解决此问题
增益率起到了规范化（normalization）的作用–让不可比的东西变得可比

基尼指数【CART算法】

请添加图片描述
如，每次从一堆球中抓两个球，其不一样的概率Gini(n)，值代表还需要多少才能使其变干净，越小说明数据集的纯度越高

四、决策树的剪枝

请添加图片描述

剪枝方法对决策树的泛化影响大于不同划分选择的影响

请添加图片描述

五、缺失值的处理

请添加图片描述

样本赋权
权重划分

馒头没有馅儿yolo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
周志华机器学习-决策树

决策树
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。