利用决策树算法预测西瓜的好坏

最新推荐文章于 2024-06-30 00:02:46 发布

zheng_weibin

最新推荐文章于 2024-06-30 00:02:46 发布

阅读量1.2w

点赞数 9

分类专栏：机器学习文章标签： python 机器学习数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zheng_weibin/article/details/82426418

版权

本文介绍了如何利用决策树算法预测西瓜的好坏，从决策树的基本概念到Python实现，包括信息熵和信息增益的计算，以及使用matplotlib绘制决策树。通过一个相亲的比喻帮助理解决策树的工作原理，并实际应用到西瓜数据集的分析中。

摘要由CSDN通过智能技术生成

最近看完了《机器学习实战》和天池直播课堂中的决策树算法，觉得意犹未尽，特别是信息熵部分理解并不透彻，于是又把西瓜书中的决策树看了，略有感悟，希望与大家分享一下，下面我按照自己的理解，尽量用通俗的语言总结记录下决策树算法。

1.决策树介绍

举个通俗的栗子来解释一下什么是决策树，想象一个女孩的母亲要给这个女孩介绍男朋友：

女儿：有没有房子？母亲：有。

女儿：长的帅不帅？母亲：挺帅的。

女儿：收入高不？
母亲：不算很高，中等情况。

女儿：是公务员不？母亲：是，在税务局上班呢。

女儿：那好，我去见见。

这个女孩的决策过程就是典型的分类树决策。相当于通过是否有房、长相、收入和是否公务员对将男人分为两个类别：见和不见。下面我们通过流程图把女儿的决策树判断过程展现出来：

通过这个例子，大家已经对决策树算法有个基本了解了吧，这也是决策树算法的一大优势——数据形式非常容易理解。

2.用python构造决策树基本流程

下图是西瓜书中的决策树学习基本算法，接下来我们将根据这个算法流程用python代码自己写一棵决策树。

在构造决策树时，要解决的第一个问题就是，当前数据集哪个特征在划分数据分类时起决定性作用。在前面相亲的例子中，女孩为何第一个问题是“是否有房子”呢，因为是否有房子这个特征能够提供的“信息量”很大，划分选择就是找提供“信息量”最大的特征，学术上叫信息增益。

3.划分选择(按照信息增益)

什么是信息增益呢，官方介绍请参考西瓜书哈，个人认为就是一个信息提纯的过程，比如一堆黄豆和一堆红豆混在一起，这时候信息的纯度是很低的，如果我们把红豆挑出来了分成两堆，那这时候纯度就高了。这就是一个信息增益的过程，衡量信息纯度的标准，就是信息熵。

信息熵是度量样本集合纯度最常用的一种指标，我的个人理解是对一个事件进行编码，所需要的平均码长就是信息熵，纯度越高，需要的平均代码就越短，信息熵越低。

当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,n)，则D的信息熵定义为

E n t (D) = - \sum k = 1 n p k l o g 2 p

最低0.47元/天解锁文章

关注

9
点赞
踩
107

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。