python 机器学习信息熵的计算

最新推荐文章于 2023-08-05 02:10:15 发布

计算机毕设论文

最新推荐文章于 2023-08-05 02:10:15 发布

阅读量1.8k

点赞数 1

分类专栏：手把手带你学python python之数据分析可视化 python基础入门文章标签：机器学习 python 决策树

本文链接：https://blog.csdn.net/weixin_55771290/article/details/126437885

版权

python之数据分析可视化同时被 3 个专栏收录

19 篇文章 6 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

手把手带你学python

31 篇文章 2 订阅

订阅专栏

python基础入门

17 篇文章 0 订阅

订阅专栏

该博客介绍了如何在Python中计算决策树的信息熵，作为机器学习模型中的一种启发式标准。文章提供了数据集的描述，强调了信息熵在决策树生成过程中的作用，并详细解释了计算信息熵的步骤，包括数据集的读取和信息熵的数学公式。通过示例数据集和解题思路，指导读者实现calcInfoEnt函数，计算数据集的信息熵。

摘要由CSDN通过智能技术生成

题目介绍：

描述

决策树是非常经典的机器学习模型，以决策树为基模型的集成学习模型（XGBoost、GBDT 等）在工业界得到了极为广泛的应用。决策树有三种常见的启发式生成标准，信息增益就是其中之一。计算某一特征的信息增益主要分为两步，第一步是计算数据集的信息熵，信息熵可以表示为，其中代表的是属于某一类的样本个数，D 是整个数据集的样本数量，K 为类别数量。第二步是根据信息熵计算每个特征的经验条件熵。特征的信息增益即为信息熵和经验条件熵的差。现有一数据集，有 4 个特征，分别为教育程度、是否有车、是否有正式工作和征信情况，通过这 4 个特征决策是否予以审批信用卡，数据已经通过 dataSet 给出。其中 dataSet 每行的前 4 列依次代表上述特征的取值，最后一列代表对应的 label 标签。

要求实现 calcInfoEnt 功能，数据集从当前路径下 dataSet.csv读取，计算在给定数据集的情况下，数据集的信息熵，信息熵用 infoEnt 进行表示，数据类型为 float，将 infoEnt 作为函数返回值。计算逻辑参考题目描述中给出的公式。

其中dataSet.csv的示例数据集如下所示：