【吃瓜教程】西瓜书+南瓜书第四章学习笔记

最新推荐文章于 2024-06-19 20:41:10 发布

m_mm0217

最新推荐文章于 2024-06-19 20:41:10 发布

阅读量525

点赞数 14

文章标签：学习笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60404039/article/details/135029265

版权

吃瓜教材：

西瓜书：周志华老师的《机器学习》

南瓜书：《机器学习公式详解》第2版

吃瓜视频：【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导

第四章决策树

4.1 基本流程

决策树是不断根据某属性进行划分的过程（每次决策时都是在上次决策结果的基础之上进行），即“if……elif…… else……”的决策过程，最终得出一套有效的判断逻辑（将样本越分越“纯”），便是学到的模型。

但是，划分到什么时候就停止划分呢？3 个“ return”代表的递归返回：

（1）当前结点包含的样本全是同一类，无需划分；

（2）当前属性集为空（所有属性都已被用作过划分依据），子集中仍含有不同类样本——少数服从多数，以子集中样本数最多的类为标记；

（3）当前结点包含的样本集合为空（例如未收集到）——把父结点的样本分布作为当前结点的先验分布（此分支要保留，因为测试时可能会有样本落入该分支）。

4.2 划分选择

ID3、C4.5、CART三种决策树算法

4.2.1 信息增益

信息熵所代表的“不确定性”转换理解为集合内样本的“纯度”：

如果一个集合里全是同一类样本时——此时信息熵最小为0，集合最纯

信息增益：信息熵-条件熵

ID3决策树：信息增益越大，意味着使用属性a来进行划分所获得的“纯度提升”越大。

4.2.2 增益率

4.2.3 基尼指数

4.3 剪枝处理

剪枝：缓解过拟合

4.3.1 预剪枝

4.3.2 后剪枝

4.4 连续与缺失值

4.4.1 连续值处理

离散属性不可以重复使用，但连续属性是可以重复使用的。

4.4.2 缺失值处理

有些分类器不能使用含有缺失值的样本，需要进行预处理。常用的缺失值填充方法是：对于连续属性，采用该属性的均值进行填充；对于离散属性，采用属性值个数最多的样本进行填充。这实际上假设了数据集中的样本是基于独立同分布采样得到的。特别地，一般缺失值仅指样本的属性值有缺失，若类别标记有缺失，一般会直接抛弃该样本。

（1）如何在属性值缺失的情况下进行划分属性选择？

此时根据在属性上没有缺失值的样本判断属性的优劣。

（2）给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？

4.5 多变量决策树

多变量决策树不是为每个非叶结点寻找一个最优划分属性，而是试图建立一个合适的线性分类器（红线）。

关注

14
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【吃瓜教程】西瓜书+南瓜书第四章学习笔记

吃瓜教材：西瓜书：周志华老师的《机器学习》南瓜书：《机器学习公式详解》第2版。
复制链接

扫一扫

m_mm0217 CSDN认证博客专家 CSDN认证企业博客

码龄3年

5: 原创

130万+: 周排名

18万+: 总排名

3983: 访问

: 等级

147: 积分

82: 粉丝

97: 获赞

1: 评论

77: 收藏

私信

关注

热门文章

最新评论

【吃瓜教程】西瓜书+南瓜书第六章学习笔记
CSDN-Ada助手: 恭喜你写了第五篇博客，标题看起来很吸引人！能够坚持写作真的不容易，你做得很棒。希望你能继续保持创作的热情，不断进步。下一步，或许可以考虑加入一些个人观点和实践经验，让读者更容易与你产生共鸣。希望这个建议能够对你有所帮助。加油！
【吃瓜教程】西瓜书+南瓜书第五章学习笔记
CSDN-Ada助手: 恭喜你在“吃瓜教程”系列博客中已经写到了第五章学习笔记！持续创作是一件了不起的事情，你的努力和热情让读者们受益匪浅。接下来，我建议你可以考虑添加一些实际操作和案例分析，让读者更好地理解和运用所学知识。当然，这只是我的一点小建议，期待你的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
【吃瓜教程】西瓜书+南瓜书第一、二章学习笔记
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617725427。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。