【吃瓜教程】西瓜书+南瓜书 第四章 学习笔记

 吃瓜教材:

西瓜书:周志华老师的《机器学习》

南瓜书:《机器学习公式详解》第2版

吃瓜视频:【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导

第四章 决策树

4.1 基本流程

        决策树是不断根据某属性进行划分的过程(每次决策时都是在上次决策结果的基础之上进行),即“if……elif…… else……”的决策过程,最终得出一套有效的判断逻辑(将样本越分越“纯”),便是学到的模型。
62719fb37de34f988d4b4e49a8394b90.png
但是,划分到什么时候就停止划分呢?3 个“ return”代表的递归返回:
(1)当前结点包含的样本全是同一类,无需划分;
(2)当前属性集为空(所有属性都已被用作过划分依据),子集中仍含有不同类样本——少数服从多数,以子集中样本数最多的类为标记;
(3)当前结点包含的样本集合为空(例如未收集到)——把父结点的样本分布作为当前结点的先验分布(此分支要保留,因为测试时可能会有样本落入该分支)。

4.2 划分选择

ID3、C4.5、CART三种决策树算法

4.2.1 信息增益

b79a7aa7d6f4424fb72d8f16c8ee43d6.jpeg

信息熵所代表的“不确定性”转换理解为集合内样本的“纯度”:

如果一个集合里全是同一类样本时——此时信息熵最小为0,集合最纯

59cb1820ffe84ad6b806841c406dcf29.png

738d43517c704620b679a6d2d8d2bc90.png

信息增益:信息熵-条件熵

ID3决策树:信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。

4.2.2 增益率

6b7157c1a03e48e3b35c10956204d9ca.png

8131af060d034312a40a9ec8bd059a09.png

4.2.3 基尼指数

816e725cb6544805a464f791d5bd4902.png

c0c5330a702c48e29f77b51fd69bdd5f.pngde46f11e2e4d4877ade4a0381c0e67f2.png 

4.3 剪枝处理

剪枝:缓解过拟合

ad7ae44c3dd54216adaf5bbc6044b205.pnge2ca4bf5f07b41218b895df79306c8f7.png

4.3.1 预剪枝

106998710d894c1b95692c576d7f9bf5.png

4.3.2 后剪枝

78c5d0f830da4d2097376dd26f65e253.png

4.4 连续与缺失值

4.4.1 连续值处理

离散属性不可以重复使用,但连续属性是可以重复使用的。

1a6a219c4f654c74a7e51fe6506f3c5c.png

6144cd44a0c8436c9e06538324d35625.png

4.4.2 缺失值处理

有些分类器不能使用含有缺失值的样本,需要进行预处理。常用的缺失值填充方法是:对于连续属性,采用该属性的均值进行填充;对于离散属性,采用属性值个数最多的样本进行填充。这实际上 假设了数据集中的样本是基于独立同分布采样得到的。特别地,一般缺失值仅指样本的属性值有缺失,若类别标记有缺失,一般会直接抛弃该样本。

(1)如何在属性值缺失的情况下进行划分属性选择?

此时根据在属性上没有缺失值的样本判断属性的优劣。

f35a938d4ad9457a99a2d71717880cb6.png

(2)给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?

82c6a34710f74828b8558b35b992939d.png

4.5 多变量决策树

多变量决策树不是为每个非叶结点寻找一个最优划分属性,而是试图建立一个合适的线性分类器(红线)。

d3cf7ccc814b40caa9582750ad029c16.png

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值