决策树(Decision Tree)

本文介绍了决策树的概念,包括信息熵、ID3算法、处理连续性属性的方法、树剪枝以及优缺点。通过示例解释了如何选择最佳属性作为决策节点,并探讨了决策树在Python中的应用,特别是使用scikit-learn库进行数据预处理和模型训练。最后,讨论了决策树的可视化和预测过程。
摘要由CSDN通过智能技术生成

1. 什么是决策树/判定树

决策树是一个类似于流程图的树型结构,其中,每个内部节点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶节点代表类或类分布,树的最顶层是根节点。
在这里插入图片描述举个例子:
在这里插入图片描述
在这里插入图片描述

比如说我们有一堆客户的信息,比如年龄,信用程度等等,我们的决策树要做的就是,根据不断的细化,来判断一个客户到底会不会买我们的电脑。(具体的可以看上面的图)

信息熵:

信息和抽象,如何度量?

一条信息的信息量大小和他的不确定性有直接的关系。

变量的不确定性越大,熵就越大。
在这里插入图片描述

决策树归纳算法(ID3):

选择属性判断节点(即为什么要先使用这个节点来进行分)
在这里插入图片描述
还是以上面买电脑的栗子:通过上面的图表我们可以发现,买电脑的人数是9个,不买电脑的人数是5个,由此我们可以计算信息获取量:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值