机器学习基础算法-决策树

最新推荐文章于 2024-07-25 18:03:39 发布

爱喝水的社长

最新推荐文章于 2024-07-25 18:03:39 发布

阅读量695

点赞数

分类专栏：机器学习文章标签：决策树机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiazhipeng1000/article/details/109537313

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

后面的文章打算只整理算法流程和该算法的思想，因为之前一篇写的自己来看，好像也没写啥东西

决策树前提知识条件

信息熵知识

熵：熵的值越高，数据集中的数据混合度越高，数据混合度越高，说明分类越差
b站的一个视频，我觉得把信息熵讲的挺好，推荐看一下，主要是把具体的含义讲出来了，方便我们理解抽象的公式。
信息公式：

信息公式：
信息熵的公式：

缺点

这个决策树有个缺点，（我自己认为的，也不知道对不对）
当待检测数据集中出现了某个特征没有的值的时候，这个就没有办法分类了

决策树的构建过程

先从样本数据集中选出最优的分类特征，这个分类特征的特征名字，作为树的根节点
- 最优特征的选择
  - 首先计算样本数据整体的信息熵（作和（（每类标签的总数/总样本数）log（每类标签的总数/总样本数）））
  - 对每一个特征计算信息熵（作和（特征值的数量/训练集总数*（该特征值子集的信息熵）））
  - 计算样本整体信息熵与每个特征信息熵的差值，这个差值越大，说明按这个特征划分后的数据集中类别越少，分类越好
  - 选择差值最大的那个特征作为
得到这个特征的所有不重复的取值，每个取值作为这个特征根节点的叶子节点
对每个取值，获取这个取值的子训练数据集
对子训练数据集，判断该自数据集中的所有样本标签是否为同类数据，若为同一类数据，返回该类的名称，若不为同一类数据，对该子集重复进行1、2、3

爱喝水的社长

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础算法-决策树

后面的文章打算只整理算法流程和该算法的思想，因为之前一篇写的自己来看，好像也没写啥东西决策树前提知识条件信息熵知识熵：熵的值越高，数据集中的数据混合度越高，数据混合度越高，说明分类越差b站的一个视频，我觉得把信息熵讲的挺好，推荐看一下，主要是把具体的含义讲出来了，方便我们理解抽象的公式。信息公式：信息公式：信息熵的公式：缺点这个决策树有个缺点，（我自己认为的，也不知道对不对）当待检测数据集中出现了某个特征没有的值的时候，这个就没有办法分类了决策树的构建过程先从样本数据集中选出最
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。