决策树

最新推荐文章于 2024-05-22 11:25:42 发布

脱线YOYO

最新推荐文章于 2024-05-22 11:25:42 发布

阅读量623

点赞数

分类专栏：数据分析和机器学习文章标签：决策树信息熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46021446/article/details/114899209

版权

决策树是一种计算复杂度较低、易于理解和处理缺失值的分类和回归方法。其主要缺点是可能出现过拟合。信息熵用于衡量信息量，决策树构建过程中通过分裂属性来提高数据的纯度。ID3算法是常见的决策树构建算法，其目标是选择能最大程度减少熵的特征进行分裂。条件熵公式用于指导节点的分裂，以达到最佳分类效果。

摘要由CSDN通过智能技术生成

决策树的优缺点

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。既能用于分类，也能用于回归
缺点可能产生过度匹配问题
信息熵是衡量信息量多少的，信息熵越大，说明包含信息越多，内部混乱程度越大

决策树可以是二叉树或非二叉树
使用决策树进行决策的过程就是从根节点开始，测试待分类项目的特征属性，并按照其值选择输出分支

决策树构造

分类解决离散问题, 回归解决连续问题

决策树：信息论
逻辑斯蒂回归，贝叶斯：概率论
构建决策树的关键步骤是分裂属性，所谓分裂属性就是再某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集经可能的纯。
尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

3属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

常用的ID3算法

划分数据集的大原则是：将无序的数据变得更加有序
entropy(熵）
定义信息的期望值
其中p(x)是选择该分类的概率
为了计算熵，我们需要计算所有类别，所有可能值包含的信息期望值，通过下面的公式

 #一本电子书50万字
#假设50w电子书出现的汉字有7000个，并且等概率分布

#一个汉字最多需要多少比特
p_ch = 1/7000

-(7000 * p_ch * np.log2(p_ch))

在这里插入图片描述

在这里插入图片描述

熵

通常当你测量熵，看到熵的度量，你将看到对数的总和
这是产品的对数
产品是一堆概率

在这里插入图片描述

-m*np.log2(m)-n *np.log2(n)

在这里插入图片描述

在这里插入图片描述

2.

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树的优缺点优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。既能用于分类，也能用于回归缺点可能产生过度匹配问题决策树可以是二叉树或非二叉树使用决策树进行决策的过程就是从根节点开始，测试待分类项目的特征属性，并按照其值选择输出分支决策树构造分类解决离散问题, 回归解决连续问题决策树：信息论逻辑斯蒂回归，贝叶斯：概率论构建决策树的关键步骤是分裂属性，所谓分裂属性就是再某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。